あやしいわーるど@ダーザイン2012
ホームページ
投稿ランキングTOP10
連絡先
amazon
投稿者:
投稿日:2026年01月29日(木)00時20分24秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時20分12秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時19分12秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時18分53秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時18分43秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時18分30秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時18分07秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時17分56秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時17分42秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時17分25秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時17分09秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時16分34秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時16分22秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時16分06秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時15分52秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時15分35秒 ■ ★

投稿者:
投稿日:2026年01月29日(木)00時15分22秒 ■ ★

投稿者:
投稿日:2026年01月28日(水)23時44分15秒 ■ ★
AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった
一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。
https://gigazine.net/news/20260127-anthropic-elicitation-attack/
Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて
化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、
フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて
ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。
攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて
オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。
https://arxiv.org/abs/2601.13528
投稿者:
投稿日:2026年01月28日(水)20時54分10秒 ■ ★

投稿者:
投稿日:2026年01月28日(水)20時53分22秒 ■ ★

以上は、現在登録されている新着順1番目から20番目までの記事です。