あやしいわーるど＠ダーザイン2012

フォロー記事投稿　戻る

　投稿者：　投稿日：2026年01月28日(水)23時44分15秒　■　★

AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった
一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。
https://gigazine.net/news/20260127-anthropic-elicitation-attack/


Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて
化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、
フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて
ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。


攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて
オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。
https://arxiv.org/abs/2601.13528

※引用文中の外部画像はリンクに変換されます。アップロード画像は引用されません

投稿者
メール
題名　
画像
（横幅2000pixel、高さ2000pixel、サイズ16384KBまで。）

内容; (本文中に「%image」と書くとアップロード画像はその部分に挿入されます)
> AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった > 一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。 > <a href='https://gigazine.net/news/20260127-anthropic-elicitation-attack/'>https://gigazine.net/news/20260127-anthropic-elicitation-attack/</a> > > > Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて > 化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、 > フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて > ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。 > > > 攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて > オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。 > <a href='https://arxiv.org/abs/2601.13528'>https://arxiv.org/abs/2601.13528</a>

荒らし警戒中につきご協力お願いします
→
矢印のついたチェックボックスだけオンにしてから投稿してください。
動作がおかしい時は連絡ください＞info-at-tebukuo.jp
URL自動リンク画像URLを<IMG>に展開　表示件数背景色画像表示

あやしいわーるど＠じょしあな + TeamMIZUIRO v3.05相当 + 顔文字カウンタ