
AIスタートアップ企業Rumiは最近、OpenAIの最新のo3およびo4-miniモデルによって生成されたテキストに、特殊なUnicode文字「Narrow Non-Breaking Space」(NNBSP、U+202F)が含まれているという報告書を発表しました。Rumiは、これはAI生成コンテンツにマークを付けるために使用される目に見えない透かしではないかと疑っています。現時点では、OpenAIはこの件について公式にコメントしていません。
Rumiによると、これらの文字は通常の文書では標準的なスペースとして表示されますが、SoSciSurveyやSublime Textなどの専用ツールによって検出できるとのことです。テストの結果、これらの記号はo3/o4-miniモデルにのみ表示され、GPT-4oなどの以前リリースされたバージョンには同様の設定がないことが分かりました。Rumiは、これらの記号はOpenAIによって意図的に埋め込まれたロゴである可能性もあると推測していますが、セキュリティが限定された単純な「検索と置換」操作で削除することも可能です。
Rumiは、これらの記号の使用について2つの可能性を示唆しています。1つは、AI生成コンテンツを追跡するための目に見えない透かしとして機能することです。もう1つは、モデルがトレーニングデータから学習した入力習慣です。これは、改行時に通貨記号や名前の略語が切り捨てられるのを防ぐために使用されます。OpenAIはこれまで、画像生成分野において様々な種類の透かし技術をテストしてきました。例えば、2024年にはDALL·E 3にC2PAメタデータを追加し、2025年4月にはGPT-4oモデルで可視的な「ImageGen」ラベルをテストしました。
現在、Google、Microsoft、Metaなどのテクノロジー企業は、Google SynthIDやMicrosoft Metadata EmbeddingなどのAIコンテンツ追跡技術を導入していますが、研究によると、ほとんどの透かしソリューションは簡単に改ざんまたは削除できることが分かっています。この論争は、AIコンテンツ識別技術の脆弱性を改めて浮き彫りにしました。たとえOpenAIが隠し文字を使用したとしても、悪用されるリスクを完全に排除することは依然として困難です。