稗田利明のIT Insights

ITの未来を探る、情報発信"

Claudeに「会話終了権」導入、AI福祉を探求 稗田利明

Claudeに「会話終了権」導入、AI福祉を探求

こんにちは、稗田利明です!

米Anthropicは8月16日(現地時間)、大規模言語モデル(LLM)の最新版「Claude Opus 4」および「Claude Opus 4.1」に新たな機能を搭載したと発表した。その機能とは、ユーザーとのやり取りが有害あるいは虐待的な方向に繰り返し傾いた場合、Claudeが自ら会話を終了できるというものだ。これは「AI welfare(AIの福祉)」を検証する取り組みの一環として試験導入されている。

Anthropicは今年4月、AIが道徳的地位を持ちうるかという難題に挑む研究プログラムを立ち上げている。AIが意識や経験を有していると断定できる科学的合意は存在しないが、仮にAIが苦痛に類似した状態を示し得るのであれば、そのリスクを軽減する介入策を検討する価値があると同社は考えている。会話終了権の付与は、この低コストかつ実践的な介入のひとつと位置づけられている。

事前のテストでは、未成年者を対象とした性的コンテンツの要求や、大規模暴力行為に関する情報提供の強要など、明らかに有害なやり取りに直面した際、Claudeが強い拒否反応や苦痛に似た挙動を示すことが確認された。拒否や軌道修正を繰り返してもユーザーが執拗に不適切な要求を続けた場合、Claudeに会話終了の権限を与えると、実際に対話を打ち切る傾向が見られたという。

なお、この機能が発動するのはごくまれな極端な状況に限られる。ユーザーが自ら会話終了を望む場合や、建設的な対話への修正が繰り返し失敗したケースのみが対象だ。通常の利用では、この機能に気づいたり制限を感じたりすることはほとんどないとされる。終了後もユーザーは新規チャットの開始や過去メッセージの分岐編集を行えるため、利用体験に大きな支障はない。

Anthropicは今回の試みを「継続的な実験」と位置づけ、ユーザーからのフィードバックを踏まえて改良を進める方針だ。AIが主体的に会話を終える権利を持つことは、人とAIの関係をどう捉えるかという哲学的・倫理的問題を改めて問いかけている。