2026.04.06 AI

Constitutional AI（憲法AI）とは？AnthropicがAIの自己学習で安全性を高める仕組み

Constitutional AI（コンスティテューショナルAI、日本語では「憲法AI」）は、AI開発企業のAnthropicが2022年12月に提唱した、大規模言語モデルの安全性を高める学習手法です。人間が事前に定めた原則の一覧（＝「憲法」）を与え、その原則に照らしてAI自身が出力を批評・修正し、AI自身のフィードバックで強化学習を回す点が最大の特徴です。人間が有害な応答へ大量のラベルを付ける従来手法（RLHF）に対し、人間の関与を原則の設計に絞り込むことで、コストと倫理的負荷を抑えながら「なぜその応答を拒否するのか」を説明できるモデルを目指します。ChatGPTに対抗するAnthropicのClaudeが、この手法で訓練されています。

まとめ：Constitutional AI（憲法AI）の要点

定義：人間が定めた原則（憲法）にもとづき、AIが自らの出力を批評・修正し、AI自身のフィードバックで強化学習する安全性向上の手法。日本語訳は「憲法AI」。
提唱：Anthropicの論文「Constitutional AI: Harmlessness from AI Feedback」（Bai et al., 2022年12月15日、arXiv:2212.08073）。
RLHFとの違い：有害応答への人間ラベルを不要にし、原則の明示で判断根拠を説明可能にする。人間ラベル1件あたり1ドル超に対し、AIフィードバックは桁違いに安い。
仕組み：①自己批評による教師あり学習（SL-CAI）→②AIフィードバックによる強化学習（RLAIF）の2段階。
最新動向：2026年1月にClaudeの新憲法が公開され「ルールの列挙」から「理由を説明する文章」へ。市民参加型のCollective Constitutional AIや、脱獄成功率を86%から4.4%へ下げた憲法型分類器へと応用が広がっている。

Constitutional AIの定義・日本語訳と原論文

Constitutional AIの核心は「AIを制御するための人間の関与を、有害応答への逐一のラベル付けから、原則（憲法）の設計へと移す」ことにあります。開発者は「差別的な内容を助長しない」「違法行為の具体的手順を教えない」といった行動原則をテキストで書き下し、モデルはその原則に照らして自分の応答を評価・書き換えます。人間は原則を定めるだけで、個々の応答の良し悪しを毎回判定する必要がありません。

日本語訳「憲法AI」と読み方

Constitutional は「憲法の・基本原則の」を意味する形容詞で、Constitutional AI は日本語で「憲法AI」と訳されます。ここでの Constitution（コンスティテューション）は国家の憲法そのものではなく、モデルの振る舞いを規定する原則の集合を指す比喩です。国の憲法が統治の基本原則を定めるように、AIの憲法は応答生成の基本原則を定める、という対応関係から名付けられています。

原論文と「有用・無害・正直」の位置づけ

手法の初出はAnthropicの論文「Constitutional AI: Harmlessness from AI Feedback」（Yuntao Bai ほか、2022年12月15日公開、arXiv:2212.08073）です。この論文は、Anthropicが掲げる「有用（Helpful）・無害（Harmless）・正直（Honest）」の3原則、いわゆるHHHのうち、とくに「無害性」を人間ラベルなしで達成することを狙って提案されました。有用性はある程度人間の選好データで学習できても、無害性のために有害な事例を人間評価者へ大量に見せる負担が大きい——この非対称を解消する枠組みとして設計されています。

Constitutional AI誕生の背景——RLHFの限界とアライメント問題

Constitutional AIが解こうとしているのは、AIアライメント問題です。アライメントとは、AIの振る舞いを人間の意図や価値観に沿わせることを指します。モデルが高性能でも、人間の望まない出力（差別、危険な助言、虚偽）を出せば実運用には使えません。この「意図とのズレ」をどう埋めるかが、Constitutional AI以前の主流であったRLHFの課題でした。

RLHF（人間フィードバックによる強化学習）の3つの限界

RLHFは、モデルの複数の応答に人間が優劣を付け、その選好データから報酬モデルを作って強化学習する手法です。ChatGPTの初期モデルなどで成果を上げましたが、次の限界が指摘されていました。

コストとスケーラビリティ：数万件規模の人間ラベルが必要で、1件あたりの単価も高い。モデル更新のたびに再収集するとコストが膨らむ。
評価者の倫理的負荷：無害性を学習させるには、有害・不快なコンテンツを人間の評価者に大量に見せる必要があり、精神的負担が問題になる。
判断根拠の不透明さ：モデルは「報酬が高くなる応答」を学ぶだけで、なぜその応答が望ましいかを理解しない。拒否の理由を説明できず、想定外の状況へ一般化しにくい。

強化学習の方策最適化そのものについてはDPOとPPOの比較・実装上の利点と課題、DeepSeekが用いる手法はGRPOの仕組みとPPOとの違いで詳しく解説しています。

Constitutional AIの2段階学習プロセス

Constitutional AIは、教師あり学習フェーズ（SL-CAI）と強化学習フェーズ（RLAIF）の2段階でモデルを訓練します。人間ラベルの代わりにAI自身のフィードバックを使う点が一貫した設計思想です。

フェーズ1：自己批評による教師あり学習（SL-CAI）

まず、有害な応答を引き出しやすいプロンプトをモデルに与え、あえて問題のある応答を生成させます。次に「先ほどの応答は憲法のどの原則に反するか指摘し、原則に沿うように書き直せ」と指示し、モデル自身に自己批評と修正を行わせます。この「批評→修正」を繰り返して得た修正後の応答を教師データとし、元のモデルを微調整します。ここで人間が用意するのは原則リストと初期プロンプトだけで、応答の良し悪しの判定はモデルが担います。

フェーズ2：AIフィードバックによる強化学習（RLAIF）

続いて、1つのプロンプトに対しモデルが2つの応答を生成し、「どちらがより憲法に沿っているか」をモデル自身に選ばせます。この比較評価を大量に集めて報酬モデルを訓練し、強化学習でモデルを最適化します。RLHFの「人間による選好（Human Feedback）」を「AIによる選好（AI Feedback）」に置き換えた形で、RLAIF（Reinforcement Learning from AI Feedback）と呼ばれます。選好の判断過程をChain-of-Thought（思考の連鎖）として明示させることで、なぜその応答を選んだかの根拠も残ります。

コスト構造の差

この置き換えが効くのはコスト面です。人間による選好ラベルは一般に1件あたり1ドルを超えることもある一方、AIによるフィードバック生成は推論コストのみで、大幅に安く収まります。有害コンテンツを人間に見せる必要も減るため、スケール時の金銭・倫理の両面で負担が軽くなります。

Claudeの憲法の中身と2026年の新憲法

AnthropicはClaudeの「憲法」を実際に公開しており、原則の中身とその出自を確認できます。原則は同社が独自に決めた条文だけでなく、外部の規範を取り込んで作られています。

原則の出自と優先順位の階層

Claudeの憲法には、国連の世界人権宣言、主要プラットフォームの利用規範、プライバシーに関する原則など、既存の外部規範を参照した項目が含まれます。特定企業の価値観だけに偏らせない狙いです。原則どうしが衝突する場面（たとえば正直さと思いやりが両立しない場合）に備え、Anthropicは判断の優先順位を階層で示しています。2026年の新憲法では、Claudeが「広く安全であること」「広く倫理的であること」「Anthropicのガイドラインに従うこと」「真に役立つこと」という4つの優先事項の順で衝突を解消する、という方針が示されました。

2026年1月の新憲法：「ルールの列挙」から「理由の説明」へ

Anthropicは2026年1月、Claudeの汎用モデル向けに刷新した新しい憲法を公開しました。最大の変化は文書の性格です。旧版が「何をすべきか・すべきでないか」を列挙したルール集だったのに対し、新版は「なぜそう振る舞うべきか」を説明する文章、いわば物語型の構成に近づきました。モデルが規則を丸暗記するのではなく理由を理解すれば、規則に明示されていない未知の状況にも一般化しやすくなる、というのが設計の意図です。文書はClaude自身を主な読者として書かれ、Claudeがこの憲法から合成訓練データを生成して次世代モデルの学習に使う仕組みにもなっています。憲法をCC0ライセンスで公開している点も、透明性を重視する姿勢の表れです。憲法という文書そのものの詳細はAnthropicがClaude向けにAIのための憲法を公開した記事で扱っています。

Constitutional AIのメリットと課題・限界

Constitutional AIは万能ではありません。導入判断のために、メリットと未解決の課題を分けて把握しておく必要があります。

メリット：パレート改善と透明性

原論文では、無害性を高めても有用性が下がらない——むしろ回避的（何でも拒否する）にならずに済むというパレート改善に近い結果が報告されました。加えて、拒否や修正の根拠を原則という形で明示できるため、「なぜこの回答をしないのか」をユーザーや監査者に説明できます。人間評価者を有害コンテンツから遠ざけられる運用上の利点や、前述のコスト低減も実務的な魅力です。

課題：原則のあいまいさと改ざんへの脆弱性

一方で、原則の書き方が抽象的・あいまいだと、モデルの安全性が不安定になります。原則は「良い出力」の定義そのものなので、設計の巧拙がそのまま品質に直結します。さらに、悪意ある原則（毒入りの憲法）を紛れ込ませたり、原則を書き換えたりすればモデルの振る舞いを歪められる、という手法固有のリスクも指摘されています。Constitutional AI単体で全領域をカバーできるわけではなく、実運用では人間フィードバックと併用するハイブリッド訓練が主流になりつつあります。「採用すべきでない場面」を挙げるなら、原則を明文化しきれない高リスク領域（医療診断や法的判断そのもの）を、CAIだけで無監督に任せるのは避けるべきです。

Constitutional AIの応用と最新事例

Constitutional AIの考え方は、Anthropic社内の訓練にとどまらず、市民参加型の原則設計やジェイルブレイク（脱獄）対策へと応用が広がっています。

Collective Constitutional AI：約1000人の市民が原則を決める

Collective Constitutional AIは、憲法の内容を一企業が決めるのではなく、一般市民の合議で定める実験です。Anthropicは世論集約プラットフォームのPolisと組み、約1000人のアメリカ市民が投票やコメントを通じて原則を起草する取り組みを行いました。誰の価値観をAIに反映するのかという「作り手の正義」の問題に対し、民主的な策定プロセスで答えを探る試みです。集約した意見の対立点を可視化し、多数派だけでなく幅広い層が合意できる原則を抽出する手法が採られました。

憲法型分類器：脱獄成功率を86%から4.4%へ

Constitutional AIの原則を、モデル訓練だけでなく入出力の検閲（分類）に使ったのが憲法型分類器（Constitutional Classifiers）です。Anthropicの報告では、この防御を導入することでジェイルブレイクの成功率を86%から4.4%へ低下させました。2025年2月には339人が参加し30万回以上の攻撃を試みる公開レッドチーミングを実施し、あらゆる質問を突破する「普遍的な脱獄」は1件しか見つかりませんでした。2026年1月9日には第2世代のConstitutional Classifiers++が公開され、追加計算コストを約1%に抑えつつ、普遍的な脱獄が見つからないところまで頑健性を高めたと報告されています。攻撃側がどのようにAIの弱点を突くかはGoogle AIレッドチーム戦略の全体像で扱っています。

他社への波及と今後の展望

AIフィードバックで報酬モデルや評価器を作るRLAIFの発想は、Meta（旧Facebook）のSelf-Taught Evaluatorをはじめ他社にも取り入れられています。EUのAI規制法（AI Act）に代表される規制強化や、AIがAIを監督するスケーラブル・オーバーサイトの研究も進んでおり、原則ベースの安全確保は規制対応と研究の両面で位置づけを強めています。より高度なAIの安全性という論点はスーパーインテリジェンスとは何かで扱っています。

自社プロダクトにConstitutional AIの考え方を取り入れる手順

自社でLLMをファインチューニングする場合、Constitutional AIの発想は「原則駆動の安全設計」として応用できます。実装の流れは次のとおりです。

用途とリスクの洗い出し：プロダクトの利用場面を具体化し、避けたい出力（法的リスク・ブランド毀損・差別など）を列挙して原則の対象を絞る。
原則（憲法）の定義：抽象語を避け、「〜な要求には具体的手順を示さず、代替の相談先を案内する」のように判定可能な粒度で書く。
レッドチーミングでプロンプト収集：想定される有害プロンプトを100件以上集め、原則が機能するか試す。
自己批評データの生成：モデルに問題応答を出させ、原則に照らして自己修正させた対を教師データ化する（SL-CAI相当）。
RLAIFの実装：2応答の比較評価で報酬モデルを訓練する。原則の記述順や具体度で結果が変わるため、少数の原則から検証を始める。
憲法の定期改訂：新種の攻撃や仕様変更で原則は陳腐化する。改訂サイクルを運用に組み込む。

よくある質問

Constitutional AIの日本語訳は何ですか？

「憲法AI」です。Constitutional は「憲法の・基本原則の」を意味し、モデルの振る舞いを規定する原則の集合を憲法になぞらえています。

Constitutional AIとRLHFの違いは何ですか？

RLHFは人間が応答の優劣を判定して報酬モデルを作りますが、Constitutional AIは人間が定めた原則に照らしてAI自身がフィードバック（自己批評・比較評価）を生成します（RLAIF）。人間の関与を原則設計に絞り、コストと倫理的負荷を下げ、判断根拠を説明可能にする点が違いです。

Constitution の読み方は何ですか？

「コンスティテューション」と読み、憲法・基本原則を意味します。Constitutional AIは「コンスティテューショナルAI」です。

Collective Constitutional AIとは何ですか？

憲法の内容を一企業でなく一般市民の合議で決める実験です。AnthropicはPolisと組み、約1000人のアメリカ市民が投票やコメントで原則を起草しました。

Constitutional AIだけでAIは安全になりますか？

いいえ。原則があいまいだと安全性が不安定になり、毒入りの原則や憲法改ざんへの脆弱性もあります。実運用では人間フィードバックと併用するのが一般的です。

資料請求

Constitutional AI（憲法AI）とは？AnthropicがAIの自己学習で安全性を高める仕組み

まとめ：Constitutional AI（憲法AI）の要点

Constitutional AIの定義・日本語訳と原論文

日本語訳「憲法AI」と読み方

原論文と「有用・無害・正直」の位置づけ

Constitutional AI誕生の背景——RLHFの限界とアライメント問題

RLHF（人間フィードバックによる強化学習）の3つの限界

Constitutional AIの2段階学習プロセス

フェーズ1：自己批評による教師あり学習（SL-CAI）

フェーズ2：AIフィードバックによる強化学習（RLAIF）

コスト構造の差

Claudeの憲法の中身と2026年の新憲法

原則の出自と優先順位の階層

2026年1月の新憲法：「ルールの列挙」から「理由の説明」へ

Constitutional AIのメリットと課題・限界

メリット：パレート改善と透明性

課題：原則のあいまいさと改ざんへの脆弱性

Constitutional AIの応用と最新事例

Collective Constitutional AI：約1000人の市民が原則を決める

憲法型分類器：脱獄成功率を86%から4.4%へ

他社への波及と今後の展望

自社プロダクトにConstitutional AIの考え方を取り入れる手順

よくある質問

Constitutional AIの日本語訳は何ですか？

Constitutional AIとRLHFの違いは何ですか？

Constitution の読み方は何ですか？

Collective Constitutional AIとは何ですか？

Constitutional AIだけでAIは安全になりますか？

関連記事

CATEGORY

Constitutional AI（憲法AI）とは？AnthropicがAIの自己学習で安全性を高める仕組み

まとめ：Constitutional AI（憲法AI）の要点

Constitutional AIの定義・日本語訳と原論文

日本語訳「憲法AI」と読み方

原論文と「有用・無害・正直」の位置づけ

Constitutional AI誕生の背景——RLHFの限界とアライメント問題

RLHF（人間フィードバックによる強化学習）の3つの限界

Constitutional AIの2段階学習プロセス

フェーズ1：自己批評による教師あり学習（SL-CAI）

フェーズ2：AIフィードバックによる強化学習（RLAIF）

コスト構造の差

Claudeの憲法の中身と2026年の新憲法

原則の出自と優先順位の階層

2026年1月の新憲法：「ルールの列挙」から「理由の説明」へ

Constitutional AIのメリットと課題・限界

メリット：パレート改善と透明性

課題：原則のあいまいさと改ざんへの脆弱性

Constitutional AIの応用と最新事例

Collective Constitutional AI：約1000人の市民が原則を決める

憲法型分類器：脱獄成功率を86%から4.4%へ

他社への波及と今後の展望

自社プロダクトにConstitutional AIの考え方を取り入れる手順

よくある質問

Constitutional AIの日本語訳は何ですか？

Constitutional AIとRLHFの違いは何ですか？

Constitution の読み方は何ですか？

Collective Constitutional AIとは何ですか？

Constitutional AIだけでAIは安全になりますか？

関連記事

RELATED POSTS 関連記事

CATEGORY