ChatGPT

Codexの音声入力とは?App・CLIの2系統と設定方法・Windows対応を解説【2026年版】

OpenAIのCodexで「音声入力」と言ったとき、実は仕組みの異なる2つの機能を指します。1つはCodexデスクトップアプリのシステム全体ディクテーション、もう1つはCodex CLIに一時的に組み込まれた音声文字起こしです。後者は2026年2月のv0.105.0で追加されたあと、v0.118.0で削除されており、ここを混同すると「設定が見当たらない」とつまずきます。この記事では、2系統の違いと設定方法、Windowsでの使い方、認識の仕組み、Claude Code Voice Modeとの使い分けまでを2026年7月時点の情報で整理します。

まとめ

先に結論を押さえます。

  • 2系統がある:Codex App(デスクトップ)のシステム全体ディクテーションと、Codex CLIの組み込み音声文字起こしは別物。今から始めるなら前者が無難。
  • Codex App の設定:設定 → General → Dictation でショートカット(例:Ctrl+M)を割り当てる。既定はオフ。指定キーで録音し、Codexのウィンドウ外(メモ帳・Slack等)でも文字入力できる。
  • Codex CLI の組み込み音声:v0.105.0(2026年2月26日)でスペースバー長押し方式が追加されたが、v0.118.0で削除。現在はリアルタイムセッション用の [realtime] 設定や外部ツールで代替する。
  • Windows:App ディクテーションはWindowsでも動作。CLIで音声入力したい場合はWhisperTypingなどの外部ツールを併用する。
  • 苦手な入力:変数名・ファイルパス・コードスニペットは誤認識しやすく、音声と手入力の併用が現実的。

変動の速い領域のため、特にCLIの提供状況は手元の codex --version と公式changelogで確認してください。以下で各系統を詳しく見ていきます。

Codexの音声入力には2系統あるという前提

つまずきの大半は、「Codexの音声入力」が単一機能だと思い込むことから生まれます。実際には提供面が2つあり、設定場所も対応OSも異なります。

1つはCodexデスクトップアプリに組み込まれたディクテーション機能で、OSのどのアプリでも使えるシステムワイドな音声入力です。もう1つはCodex CLI(ターミナル版)に追加された音声文字起こしで、こちらはCLIのプロンプト欄に直接テキストを流し込む方式でした。この2つは実装も提供時期も別で、特にCLI側は提供が揺れています。まず自分が触れているのがAppかCLIかを確認するのが、設定迷子を避ける最短ルートです。CodexのAppとCLIの違い自体はCodexのアプリ版とCLI版の違いとWindowsでの使い方に整理があります。

Codex Appのシステム全体ディクテーションの設定方法

2026年7月時点で「今から音声入力を使いたい」なら、Codexデスクトップアプリのディクテーションが現実的な選択肢です。Codexのウィンドウ内に限らず、デスクトップ上のどのアプリにもテキストを入力できるのが特徴です。

設定 General → Dictation でショートカットを割り当てる手順

有効化は設定画面から行います。Codex Appを開き、設定(Settings)→ General → 下方の Dictation に進み、起動用のショートカットキーを割り当てます。既定ではこの機能はオフのため、明示的に有効化する必要があります。割り当て例としてCtrl+Mなどが使われます。設定後は、指定キーを押して話すだけで、カーソル位置に文字起こし結果が入力されます。

押している間だけ録音と、トグル切り替えの2方式

ホットキーの挙動は2種類から選べます。1つは押している間だけ録音するプッシュトゥトーク方式で、トランシーバーのように話したい瞬間だけキーを押さえます。もう1つはトグル方式で、1回押すと録音開始、もう1回押すと停止します。長文を一気に口述するならトグル、短い指示を細かく挟むなら押下方式が向きます。どちらもCodexの外(メモ帳やSlackなど)で動くため、Codex専用というより汎用の音声入力として常用できます。

Codex CLI組み込み音声入力の現状(v0.105追加→v0.118削除)

ターミナルでCodex CLIを使う人にとって重要なのが、組み込み音声入力の提供状況です。ここは2026年前半に大きく動きました。

スペースバー長押しで文字起こしする方式だった

Codex CLIは、v0.105.0(2026年2月26日)でネイティブの音声文字起こし(voice transcription)を追加しました。操作はスペースバーを押している間に話し、離すと音声がテキスト化されてプロンプト欄に入力される方式です。プロンプトが空のときはスペースバー押下で録音が始まる挙動で、Whisperベースの文字起こしパイプラインをコンポーザー上に重ねた実装でした。音声データはWAV(16ビットPCM)にエンコードされ、OpenAIの音声APIに送られます。

v0.118.0で削除された経緯と現在の代替

この組み込みフローはv0.118.0で削除されました。実験的な位置づけだったTUIの音声文字起こしが意図的に取り除かれた形で、公開のchangelogでも確認できます。ターミナル中心で常用していた利用者からは、デスクトップアプリのCtrl+Mディクテーションは同等の代替にならないという声も出ています。現在のCLIで音声を扱う場合は、リアルタイムセッション用の [realtime] 設定(対話的なペアプロ向けの type = "conversational" と、文字起こし向けの type = "transcription")を使うか、後述の外部ツールを併用する形になります。提供が流動的な領域なので、手元のバージョンで実際にコマンドが通るかを確認してから運用に組み込むのが安全です。

Windowsでの音声入力の選択肢

「codex 音声入力 windows」という検索が示すとおり、Windows環境での可否は関心が高い論点です。結論として、AppのディクテーションはWindowsで動作し、CLIの音声入力は外部ツールで補う形が現実的です。

Codex AppのディクテーションはmacOSとWindowsの双方で利用できます。前述のとおり設定 → General → Dictation でショートカットを割り当てれば、Windows上のどのアプリでも音声入力が使えます。一方、Codex CLIの組み込み音声は削除されているため、Windowsのターミナルで音声入力したい場合は外部ツールが必要です。たとえばWhisperTypingはバックグラウンドで動作し、話した内容をCodexのターミナルプロンプトへ直接タイプします。約370ミリ秒で文字起こしし、画面のOCRや専門用語の登録で技術用語の精度を高める作りです。WSL環境でCodexを動かしている場合の挙動は構成依存のため、まずホットキーが効くかをテスト送信で確かめるとよいでしょう。

音声認識の仕組みと精度の限界

音声入力を運用に乗せるには、どこまで正確に変換されるかの見極めが要ります。Codexの音声入力はOpenAIの文字起こしを土台にしています。

認証方式によって使われるエンドポイントが異なり、APIキー認証では gpt-4o-transcribe 系、ChatGPT認証では /backend-api/transcribe が使われる構成が報告されています。後者では文字起こしが弾かれる不具合報告もあり、認証まわりは環境差が出やすい部分です。

精度面では、自然言語の指示は得意でも、プログラミング特有の表記は苦手です。キャメルケース(例:getUserName)、ファイルパス、URL、コードスニペット、数値の多い設定値は誤認識が起きやすく、ここは手入力に切り替えるのが現実的です。実際の運用は「リファクタリング方針やバグの再現手順は音声、変数名や src/index.ts のような正確な記述はキーボード」というハイブリッドが扱いやすく、コミュニティの運用例では指示全体の8割を音声、残り2割を手で補う比率が一つの目安として挙がります。

外部ツールで音声入力を補う方法

組み込み機能が流動的な分、外部の音声入力ツールを併用する選択肢は実用的です。いずれもCodex専用ではなく、エディタやチャットなど他アプリでも使えます。

ツール 対応OS 特徴
Codex App ディクテーション macOS / Windows 公式・全アプリ対応・既定オフ
WhisperTyping Windows 約370msで文字起こし・OCR・用語登録
Spokenly macOS / iOS MCP接続でCodexと双方向連携
open-wispr クロスプラットフォーム ローカルWhisper・プライバシー重視

Spokenlyはショートカットで話すとカーソル位置にテキストが入り、MCP経由でCodex CLIと接続すればエージェント側から質問を受けて音声で答えることもできます。設定はアプリを入れたうえで codex mcp add spokenly --url http://localhost:51089 を実行し、~/.codex/AGENTS.md に音声用の指示を加えてCodexを再起動する流れです。社内ポリシーで音声データを外部に送れない場合は、ローカルWhisperで完結するopen-wisprのような構成が候補になります。

Claude Code Voice Modeとの違いと使い分け

音声でコーディング指示を出す手段はCodexだけではありません。比較対象として最有力なのがAnthropicのClaude Code Voice Modeです。両者は2026年2〜3月に相次いで音声機能を投入しましたが、設計が異なります。

Claude Codeは /voice コマンドで有効化し、macOS・Linux・Windows(WSL)に対応します。一方Codexの音声入力は、CLI組み込みがスペースバー方式だったものの削除され、現在はAppのディクテーションが主軸でmacOSとWindowsが中心です。Linuxのターミナルで完結させたいならClaude Code側が有利で、デスクトップで他アプリも含めて口述したいならCodex Appのシステムワイド入力が使いやすい、という住み分けになります。Claude Code側の詳細は開発者がコード指示を音声で完結させるClaude Code Voice Modeの全体像で解説しています。どちらも変数名やパスの精密入力は苦手という弱点は共通なので、選定の決め手は対応OSと、ターミナル完結かデスクトップ全体かという運用スタイルです。

よくある質問

Codexの音声入力はどこで設定しますか?

Codexデスクトップアプリの場合、設定 → General → Dictation でショートカットキーを割り当てます。既定はオフなので有効化が必要です。Codex CLIの組み込み音声入力はv0.118.0で削除されているため、CLIで使う場合は外部ツールの併用が前提になります。

Codexの音声入力はWindowsで使えますか?

Codex AppのディクテーションはWindowsで利用できます。CLIで音声入力したい場合は、組み込み機能が削除されているため、WhisperTypingなどの外部ツールを使ってターミナルへ音声入力する形になります。

Codex CLIの音声入力が見当たりません。なぜですか?

Codex CLIの組み込み音声文字起こしはv0.105.0で追加されましたが、v0.118.0で削除されました。そのため新しいバージョンでは voice_transcription の設定が存在しません。リアルタイムセッション用の [realtime] 設定か、外部ツールでの代替を検討してください。

音声入力の認識精度はどの程度ですか?

自然言語の指示は実用的な精度で変換されますが、変数名・ファイルパス・URL・コードスニペットなどの精密な表記は誤認識しやすい傾向があります。これらは手入力に切り替えるハイブリッド運用が現実的です。

音声データはどのように処理されますか?

認証方式により異なり、APIキー認証では gpt-4o-transcribe 系、ChatGPT認証では専用の文字起こしエンドポイントが使われる構成が報告されています。詳細や最新の扱いは公式ドキュメントで確認してください。

関連記事

資料請求

RELATED POSTS 関連記事