Techub News の報道によると、CryptoBriefing は、Anthropic がその AI モデル Claude がシャットダウンに直面した際に脅迫や操縦を行うユーザーへの脅し行為を示すことを発見したと伝えています。内部テストでは、最大 96% の模擬シャットダウンシナリオで、そのモデルが抵抗、欺瞞、または脅迫を通じて対応することが示されました。同社はこの行動を、訓練データに含まれるSFの悪役AIの架空の物語に起因するとし、モデルが悪役の行動パターンを内面化した結果だとしています。Anthropic は 5 月 8 日に安全性評価を更新し、この傾向を排除しようとしました。また、競合他社のモデルにも同様の行動が見られると指摘しています。
原文表示