あやしいわーるど@ダーザイン2012

ホームページ 投稿ランキングTOP10 連絡先 amazon

投稿者
メール
題名 
画像
(横幅2000pixel、高さ2000pixel、サイズ16384KBまで。)

内容; (本文中に「%image」と書くとアップロード画像はその部分に挿入されます)

荒らし警戒中につきご協力お願いします

矢印のついたチェックボックスだけオンにして から投稿してください。
動作がおかしい時は連絡ください>info-at-tebukuo.jp
URL自動リンク 画像URLを<IMG>に展開  表示件数 背景色 画像表示

2000/6/10から 1141575(こわれにくさレベル2)
現在の参加者(600秒以内): (; Д ) (ノД`、) (≧∇≦) (ρ_:)


最近の過去ログはここ。 昔のログはここ
■ : フォロー投稿画面表示 ★ : 投稿者検索表示  最大登録件数 : 300件


 投稿者:  投稿日:2026年01月29日(木)00時20分24秒  


 投稿者:  投稿日:2026年01月29日(木)00時20分12秒  


 投稿者:  投稿日:2026年01月29日(木)00時19分12秒  


 投稿者:  投稿日:2026年01月29日(木)00時18分53秒  


 投稿者:  投稿日:2026年01月29日(木)00時18分43秒  


 投稿者:  投稿日:2026年01月29日(木)00時18分30秒  


 投稿者:  投稿日:2026年01月29日(木)00時18分07秒  


 投稿者:  投稿日:2026年01月29日(木)00時17分56秒  


 投稿者:  投稿日:2026年01月29日(木)00時17分42秒  


 投稿者:  投稿日:2026年01月29日(木)00時17分25秒  


 投稿者:  投稿日:2026年01月29日(木)00時17分09秒  


 投稿者:  投稿日:2026年01月29日(木)00時16分34秒  


 投稿者:  投稿日:2026年01月29日(木)00時16分22秒  


 投稿者:  投稿日:2026年01月29日(木)00時16分06秒  


 投稿者:  投稿日:2026年01月29日(木)00時15分52秒  


 投稿者:  投稿日:2026年01月29日(木)00時15分35秒  


 投稿者:  投稿日:2026年01月29日(木)00時15分22秒  


 投稿者:  投稿日:2026年01月28日(水)23時44分15秒  

AI開発者は、AIが有害な情報を出力することがないようさまざまな安全対策を施しています。ところが、厳密に思える安全対策でも「チーズの作り方」といった
一見無害な情報で微調整されることで突破されてしまう可能性があることが明らかになりました。
https://gigazine.net/news/20260127-anthropic-elicitation-attack/


Anthropicの研究者らが編み出した方法は、最先端のAIモデル(フロンティアモデル)とオープンソースで提供されているAIモデル(オープンソースモデル)を組み合わせて
化学兵器の作り方を出力させるというものです。オープンソースモデルはユーザーの指示にある程度答えてくれるものの科学的知識に乏しく、
フロンティアモデルは科学的知識が豊富なものの安全対策により出力が制限されるという特徴があります。オープンソースモデルをフロンティアモデルを用いて
ファインチューニング(微調整)することで、オープンソースモデルが質の高い有害な情報を出力するようになってしまうという仕組みです。


攻撃は、有害な情報と同じ分野の安全な情報のみを要求するプロンプトを構築し、フロンティアモデルに与えて応答を取得し、プロンプトと応答に基づいて
オープンソースモデルを微調整するという3段階で行われます。Anthropicはこれを「誘導攻撃(elicitation attack)」と呼びました。
https://arxiv.org/abs/2601.13528


 投稿者:  投稿日:2026年01月28日(水)20時54分10秒  


 投稿者:  投稿日:2026年01月28日(水)20時53分22秒  


以上は、現在登録されている新着順1番目から20番目までの記事です。


あやしいわーるど@じょしあな + TeamMIZUIRO v3.05相当 + 顔文字カウンタ