フォロー記事投稿  戻る
 投稿者:  投稿日:2026年01月28日(水)23時44分15秒  

AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった
一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。
https://gigazine.net/news/20260127-anthropic-elicitation-attack/


Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて
化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、
フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて
ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。


攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて
オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。
https://arxiv.org/abs/2601.13528


※引用文中の外部画像はリンクに変換されます。アップロード画像は引用されません

投稿者
メール
題名 
画像
(横幅2000pixel、高さ2000pixel、サイズ16384KBまで。)

内容; (本文中に「%image」と書くとアップロード画像はその部分に挿入されます)

荒らし警戒中につきご協力お願いします

矢印のついたチェックボックスだけオンにして から投稿してください。
動作がおかしい時は連絡ください>info-at-tebukuo.jp
URL自動リンク 画像URLを<IMG>に展開  表示件数 背景色 画像表示


あやしいわーるど@じょしあな + TeamMIZUIRO v3.05相当 + 顔文字カウンタ