AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった 一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。 https://gigazine.net/news/20260127-anthropic-elicitation-attack/ Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて 化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、 フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。 攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。 https://arxiv.org/abs/2601.13528