Kimi K2.7 Codeとは|料金・性能・使い方を解説【2026年6月版】
Kimi K2.7 Codeは、Moonshot AIが2026年6月12日に公開したコーディング特化のエージェント型AIモデルです。この記事では、1兆パラメータMoEという基本仕様、自社ベンチマークで示された性能の読み方、API・Kimi Code・Workers AIといった利用経路ごとの料金、Claude Codeや他モデルとの比較観点までを整理します。あわせて、ローカル実行の自己ホスト要件、2026年6月15日に告知されたHighSpeed Mode、そして日本の開発現場で採用する際の判断基準も解説します。無料での試し方やClaude Codeとの連携可否といった、検討段階でつまずきやすい論点にも答えていきます。
目次
- 1 Kimi K2.7 Codeの結論|誰が何のために選ぶべきかのまとめ
- 2 Kimi K2.7 Codeの基本仕様とMoonshot AIによる位置づけ
- 3 Kimi K2.7 Codeのベンチマーク数値とベンダー公表値という前提条件
- 4 Kimi K2.7 Codeの料金体系とAPI・Kimi Codeの利用経路
- 5 Kimi K2.7 CodeとClaude Code・主要モデルの比較観点
- 6 Kimi K2.7 Codeのローカル実行とVRAM・量子化など自己ホスト要件
- 7 Kimi K2.7 CodeのHighSpeed Modeと実務で効く処理速度の優位性
- 8 Kimi K2.7 Codeを日本の開発現場へ採用する際の判断基準と注意点
- 9 Kimi K2.7 Codeに関するよくある質問
Kimi K2.7 Codeの結論|誰が何のために選ぶべきかのまとめ
Kimi K2.7 Codeは、長時間にわたる多段のソフトウェア開発タスクを自動で進めるエージェント用途に振り切ったオープンウェイトのモデルです。Modified MITライセンスでHugging Faceに公開され、API料金は入力$0.95/Mトークンと低水準で、コスト効率を重視するチームに向いています。一方で公表されている性能数値はMoonshot自社測定のみで、独立した第三者ベンチマークには未提出という前提があります。
したがって選ぶべきなのは、コストを抑えつつエージェント型のコード生成やツール連携を大量に回したい開発組織です。逆に、第三者検証済みの性能保証や、データを国外ラボに渡せない要件を持つ場合は、社内PoCでの実測と比較を経てから判断するのが妥当です。各論の根拠・手順・数値は以下の各章で具体的に示します。
Kimi K2.7 Codeの基本仕様とMoonshot AIによる位置づけ
まずKimi K2.7 Codeが「何であるか」を、リリース時期と技術仕様の両面から押さえます。一般的なチャット用途ではなく、コーディングとエージェント実行に焦点を当てた設計である点が出発点になります。
2026年6月12日公開という最新リリースとK2.6からの継承
Kimi K2.7 Codeは2026年6月12日にMoonshot AIが公開しました。直前世代であるK2.6を土台に構築され、実世界の長時間コーディングタスクでのタスク完遂能力を強化したと説明されています。位置づけは「汎用チャット」ではなく、計画立案・コード編集・ツール実行・デバッグを多数のステップにわたって繰り返す「エージェント」です。Moonshotはこのモデルと、ターミナル中心のコーディング環境であるKimi Codeをセットで提供しています。
1兆パラメータMoEと32Bアクティブ・384エキスパート構成
アーキテクチャはMixture-of-Experts(MoE)で、総パラメータ数は1兆、トークンごとに活性化するのは32Bです。エキスパートは384個用意され、トークンあたり8個を選択し、加えて1個を共有します。層数は61層で、うち1層がdense層という構成です。総量は巨大でも実際に動くのは一部という設計が、後述するコスト効率の前提になります。
MoonViT搭載によるテキスト・画像・動画のマルチモーダル入力
Kimi K2.7 Codeは、400MパラメータのMoonViTと呼ぶ視覚エンコーダを備え、テキストに加えて画像と動画を入力として扱えます。これにより、ドキュメント・スクリーンショット・不具合の再現動画を1つのプロンプトに同梱できます。バグ報告のUIキャプチャをそのまま渡してコード修正を依頼する、といった実務的な使い方が成立します。コード専用と銘打ちながらマルチモーダル入力を持つ点が特徴です。
262,144トークンの長コンテキストとMLA・SwiGLUの採用
コンテキスト長は262,144トークン(約256K)で、大規模なコードベースや長い仕様書を一度に読み込ませやすい設計です。注意機構にはMLA(Multi-head Latent Attention)、フィードフォワード層にはSwiGLUが採用されています。長コンテキストは、複数ファイルの依存関係を横断する修正や、長い会話履歴を保持したままのエージェント作業で効きます。
Modified MITライセンスとHugging Face公開が持つ意味
モデルウェイトとコードリポジトリは、いずれもModified MITライセンスで公開されています。配布先はHugging Faceで、改変や商用利用の自由度が比較的高いライセンス体系に分類されます。クローズドな商用モデルと異なり、自社環境への持ち込みやファインチューニングの検討余地がある点が、採用評価では重要な分岐になります。ただし「Modified」である以上、実際の利用前にライセンス本文の条件確認が前提です。
K2からK2.7 Codeへ至るKimiシリーズの系譜と立ち位置
Kimiシリーズは、2025年7月の初代K2に始まり、2025年11月のK2 Thinking、2026年1月のK2.5、2026年4月のK2.6と短い間隔で更新されてきました。K2.7 Codeはこの系譜で5番目の主要リリースにあたり、初めて「Code」を冠してコーディング用途に特化した版です。約1年で5世代という更新速度は、検証や社内標準化が追いつきにくいという運用上の論点も生みます。
Kimi K2.7 Codeのベンチマーク数値とベンダー公表値という前提条件
性能評価では、公表された数値そのものと、その数値がどう測られたかを分けて読む必要があります。Kimi K2.7 Codeの場合、後者の前提が結論を大きく左右します。
Kimi Code Bench v2で+21.8%という自社ベンチの数値
Moonshotは、自社開発のKimi Code Bench v2において、K2.7 CodeがK2.6比で+21.8%の改善を示したと報告しています。Kimi Code Bench v2は、現実的なタスクでコーディングエージェントを評価する社内ベンチマークと説明されています。数値は明確に前世代比の相対改善であり、絶対的な優劣を示すものではない点に注意が必要です。
Program Bench+11.0%・MLS Bench Lite+31.5%の内訳
同じくK2.6比で、Program Benchが+11.0%、MLS Bench Liteが+31.5%という数値も公表されています。改善幅はベンチによって11.0%から31.5%まで幅があり、得意領域に偏りがあることを示唆します。あわせて思考トークンの使用量を約30%削減したとされ、性能向上とコスト削減を同時に主張している構図です。
MCP Mark Verified 81.1点が示すツール連携性能
ツール連携の指標であるMCP Mark Verifiedでは81.1点を記録したと報告されています。これはModel Context Protocol(MCP)経由で正しくツールを呼び出せるかを評価する試験です。CIチェック・チケット更新・ファイル編集を一連のループで処理するエージェント用途では、この種の正確なツール呼び出し能力が成果に直結します。
Claude Opus 4.8をツール使用で上回るという主張の読み方
K2.7 Codeがツール使用でClaude Opus 4.8を上回るのは、公表ベンチマークではMCP Mark Verified(K2.7 Codeが81.1、Opus 4.8が76.4)に限られます。同じエージェント系でも、MCP AtlasはOpus 4.8が81.3対76.0、Kimi Claw 24/7 BenchもOpus 4.8が50.4対46.9で上回っています。さらに公表された6項目すべてでGPT-5.5がK2.7 Codeを上回ります。測定はK2.7 CodeをKimi Code CLI、Opus 4.8をClaude Codeのxhighモードで動かした自社比較のため、同一条件の優劣ではなく特定指標での参考値として読むのが安全です。
独立ベンチマーク未提出という前提条件と検証上の限界
最も重要な前提は、これらの数値がすべてMoonshot自身が設計・実行した社内ベンチマークである点です。記事公開時点で、K2.7 Codeは独立した第三者のコーディングベンチマークには提出されていません。つまり購入判断の根拠はベンダー公表値のみであり、第三者による再現や検証は存在しません。導入前に自社の実タスクで小規模に試す工程を挟むことが、この限界を補う現実的な手段になります。
Kimi K2.7 Codeの料金体系とAPI・Kimi Codeの利用経路
Kimi K2.7 Codeには、API・定額のKimi Code・クラウド経由・自前ホストという複数の入口があります。コスト構造が経路ごとに異なるため、用途に合わせた選択が重要です。
API料金:入力$0.95・キャッシュ$0.19・出力$4.00の内訳
Kimi APIの公式料金は、キャッシュミス時の入力が$0.95/Mトークン、キャッシュ済み入力が$0.19/Mトークン、出力が$4.00/Mトークンです。入力単価は主要な商用モデルと比べても低い水準にあります。プロンプトのキャッシュを効かせると入力コストが約5分の1になるため、同じコンテキストを繰り返し使うエージェント運用では総額を大きく抑えられます。
Kimi Code月額$19から始まる定額プランの位置づけ
ターミナル中心のコーディングエージェントであるKimi Codeは、月額$19から提供されています。従量課金のAPIと異なり、定額で使い放題に近い形を求める個人開発者や小規模チームに向いた入口です。トークン消費量が読めない探索的な開発では、定額プランのほうがコスト予測を立てやすい場面があります。
Cloudflare Workers AI経由での従量利用という選択肢
Kimi K2.7 Codeは、Cloudflare Workers AIでも@cf/moonshotai/kimi-k2.7-codeとして提供されています。Workers AIのバインディングやREST API、OpenAI互換エンドポイント経由で呼び出せます。既にCloudflareでアプリを運用している場合、推論をエッジ側に寄せられるため、別途インフラを立てずに組み込める利点があります。
Hugging Face公開ウェイトによる実質無料の利用入口
モデルウェイトはHugging Faceで公開されており、ダウンロード自体は無料です。手元に十分な計算資源があれば、API課金なしで動かす「実質無料」の入口になります。ただし後述のとおり1兆パラメータ級の実行には相応のハードウェアが必要なため、無料なのはあくまでウェイトの取得までと理解しておく必要があります。
利用経路ごとのコスト比較と選び方の判断基準
4つの入口は、コストの出方と前提条件が異なります。下表で経路ごとの料金と向き不向きを整理します。
| 利用経路 | 料金の出方 | 主な前提 | 向いているケース |
|---|---|---|---|
| Kimi API | 従量(入力$0.95/キャッシュ$0.19/出力$4.00 ・/Mトークン) | APIキー取得 | 自社プロダクトへの組み込み |
| Kimi Code | 定額(月額$19〜) | CLI環境 | 個人・小規模の対話的開発 |
| Workers AI | 従量(Cloudflare課金) | Cloudflare利用 | エッジ運用・既存CF基盤 |
| Hugging Face自前ホスト | ウェイト取得は無料(実行は自前GPUコスト) | サーバー級GPU | データ持ち込み・改変前提 |
判断の基準はシンプルで、組み込みなら従量のAPI、探索的開発なら定額のKimi Code、データを外に出せないなら自前ホストという順で検討すると整理しやすくなります。
Kimi K2.7 CodeとClaude Code・主要モデルの比較観点
比較では「どの軸で見るか」を先に決めることが大切です。性能・コスト・到達範囲のどれを重視するかで、最適なモデルは変わります。
ツール連携でClaude Opus 4.8と評価が分かれる比較軸
Moonshotの自社比較で、K2.7 CodeがClaude Opus 4.8を上回ったのはMCP Mark Verified(81.1対76.4)の1項目だけです。MCP AtlasとKimi Claw 24/7 BenchではいずれもOpus 4.8が上回り、コーディング系のKimi Code Bench v2やProgram Benchでも下回ります。つまり「オープンウェイトがクローズド最上位をツール連携の一部で上回った」という限定的な構図であり、性能全般で勝るわけではありません。K2.7 Codeの主な訴求は、性能の絶対値ではなくコストと開放性にあります。
GPT-5.5・Claude Fable 5との性能・到達範囲の違い
比較対象にはGPT-5.5やClaude Fable 5も挙がっています。これらは最上位のクローズド/準クローズドモデルで、到達できる性能の上限という観点で語られます。K2.7 Codeの価値は「最上位と同等」ではなく、「公開ウェイトで近い水準を、桁違いに低いコストで狙える」点にあります。最高性能の絶対値を求めるか、コスト対効果を求めるかで評価が分かれます。
米国輸出規制とFable 5アクセス制限という比較の背景
比較の背景には地政学的な事情もあります。Anthropicは2026年6月、米国政府の輸出管理指令(外国籍ユーザーへの提供禁止)を受け、Claude Fable 5とMythos 5を全ユーザー向けに世界規模で停止しました。停止中の問い合わせはOpus 4.8など旧モデルへ振り替えられています。この結果、Fable 5を使えない開発者の代替として、オープンウェイトのK2.7 Codeが「Fable級」の比較対象として語られる文脈が生まれました。利用可能性そのものが比較軸になっている点は、日本からの利用を考える上でも無視できません。
DeepSeek V4 Pro・GLM 5.2などオープンモデルとの競合
同じオープンモデルの土俵では、DeepSeek V4 ProやGLM 5.2が直接の競合です。いずれもMoEアーキテクチャの大規模コーディング系モデルで、アーキテクチャ・ベンチマーク・価格・エージェント能力が比較されます。K2.7 Code単体で決めるのではなく、これらと並べて自社タスクで試すことで、初めて相対的な強みが見えてきます。
価格・コンテキスト・ライセンスで見る総合比較表
性能の数値は条件依存で揺れますが、価格・コンテキスト・ライセンス・公開形態は比較的安定した比較軸です。下表で要点を整理します。
| 観点 | Kimi K2.7 Code | クローズド最上位(例:Opus 4.8 / Fable 5) |
|---|---|---|
| 公開形態 | オープンウェイト(Hugging Face) | クローズド(API中心) |
| ライセンス | Modified MIT | 商用利用規約に準拠 |
| 入力単価 | $0.95/Mトークン(キャッシュ$0.19) | 一般に高単価 |
| コンテキスト | 262,144トークン | モデルにより異なる |
| 性能の検証 | 自社ベンチのみ(第三者未検証) | 第三者評価が比較的豊富 |
この表からは、K2.7 Codeが「コストと自由度」で優位、「検証の確からしさ」でクローズド勢に分があるという構図が読み取れます。
Kimi K2.7 Codeのローカル実行とVRAM・量子化など自己ホスト要件
「無料のウェイトを手元で動かす」という選択肢には、相応のハードウェア要件が伴います。ここでは自己ホストの現実的な条件を整理します。
1兆パラメータ級モデルが要求するサーバー級ハードウェア
K2.7 Codeは総パラメータ1兆という規模で、消費者向けGPU1枚で動かせる類のモデルではありません。たとえ低ビット量子化を施しても、ウェイトの保持だけで数百GB規模のメモリが必要になる計算です。現実的には複数GPUを束ねたサーバー級・データセンター級の構成が前提となり、個人PCでの常用は想定しにくい水準です。
INT4量子化とvLLM・SGLang・Dockerによる自己ホスト構成
自己ホストを試みる場合の一般的な構成要素は、次のとおりです。
- INT4量子化による必要メモリの圧縮
- vLLMまたはSGLangによる高速推論サーバー
- Dockerによる実行環境の再現性確保
これらを組み合わせることで必要資源は下げられますが、それでもサーバー級ハードウェアという前提は変わりません。量子化は速度とメモリを得る代わりに、わずかな精度低下というトレードオフを伴う点も理解しておく必要があります。
ローカル実行とAPI利用のコスト・運用面の損益分岐
自前ホストはウェイトが無料でも、GPU調達・電力・運用人件費という固定費がかかります。一方APIは入力$0.95/Mトークンと安価で、初期投資なしに始められます。月間のトークン消費が小〜中規模であればAPIのほうが総額で安く、大量かつ継続的な推論で初めて自前ホストの損益分岐が見えてきます。まずAPIで実測し、消費量が読めてから自前化を検討するのが堅実です。
Ollama等のローカル実行ツールとの相性と現実的な制約
Kimiシリーズはローカル実行ツールでの利用例が語られますが、1兆パラメータ級モデルは手軽なローカル実行ツールが想定する規模を大きく超えます。前世代のK2.5でも「ローカル」「VRAM」「Ollama」が検索される一方、実際に手元で快適に動かせる構成は限られます。ローカル実行を前提にするなら、まず自分の環境でロードできるか自体を検証する工程が不可欠です。
自己ホストを選ぶべきケースと避けるべきケースの基準
自己ホストが正解になるのは、機密コードを外部に送れない、推論量が極めて多くAPI課金が嵩む、モデル改変を前提にするといったケースです。逆に、試用段階・小規模利用・インフラ運用の余力がない場合は、API経由が明確に有利です。判断基準は「データ要件」と「推論量の大きさ」の2点で、どちらも当てはまらなければ自前ホストは避けるのが無難です。
Kimi K2.7 CodeのHighSpeed Modeと実務で効く処理速度の優位性
2026年6月15日、Moonshotは公開直後のK2.7 Codeに新たな高速モードを追加しました。料金やベンチマーク以上に、運用の体感を左右する要素です。
2026年6月15日告知のHighSpeed Modeという最新動向
HighSpeed Modeは、2026年6月15日にMoonshotの公式アカウントで告知された機能です。公開からわずか3日後の追加であり、シリーズ更新の速さを象徴する動きでもあります。標準版より大幅に速いトークン生成を売りにしており、速度をボトルネックに感じていた用途への回答という位置づけです。
中央値180・短文脈260トークン毎秒の実測スループット
告知されたスループットは、次のとおりです。
- 中程度の長さのコーディング入力で中央値およそ180トークン毎秒
- 短いコンテキストのタスクで最大およそ260トークン毎秒
これらは入力の長さによって到達値が変わることを示しており、短い指示の連続ほど高速に応答が返る傾向です。エージェントが小さな操作を多数繰り返す場面で、体感差が大きく出ます。
標準版比およそ6倍という速度向上が持つ実務的意味
HighSpeed Modeは標準リリース比でおよそ6倍速いとされています。トークン単価が同じでも、同じ作業を6分の1の時間で終えられれば、開発者の待ち時間という見えにくいコストが大きく減ります。とくに多数のタスクをまとめて流す自動化ワークフローでは、価格よりも速度の効きが大きい場面があります。
エージェント並列処理・バッチ実行で効く速度メリット
速度向上が最も活きるのは、多数のタスクをバッチで処理する自動エージェント運用です。たとえば数百件のチケットに対する修正提案を一括生成するような用途では、1件あたりの応答短縮が全体の完了時間に直結します。対話的な単発利用よりも、並列・大量処理の現場でHighSpeed Modeの恩恵が顕著になります。
Kimi Code Betaでの提供という現時点の利用条件
告知時点でHighSpeed Modeは、Kimi Code Betaプログラム参加者・Kimi APIの開発者・Kimi Businessの利用者へ順次展開されました。ただし容量の制約から、現時点ではアクセスが制限されると公式に案内されています。全利用経路で即座に使えるわけではないため、本番運用に組み込む前に提供範囲と安定性を確認する必要があります。提供条件は今後変わり得るため、利用前に最新の告知を確認してください。
Kimi K2.7 Codeを日本の開発現場へ採用する際の判断基準と注意点
性能やコストが魅力でも、組織導入では別の論点が加わります。日本の開発現場ならではの検討点を整理します。
北京拠点ラボゆえのデータ所在とコンプライアンス検討
Moonshot AIは北京を拠点とするラボで、API経由の利用ではプロンプトに含めたコードや情報の所在が論点になります。機密情報や個人データを扱う場合、社内のデータガバナンスや顧客との契約条件に抵触しないかの確認が先決です。データを外に出せない要件があるなら、API利用ではなく自己ホスト構成を選ぶ判断にもつながります。
自社ベンチ依存を踏まえた社内PoC検証の必要性
公表性能がベンダー自社測定のみである以上、社内の実タスクで小規模に検証するPoCが事実上必須です。自社のコードベースや典型的な依頼内容で、生成品質・ツール呼び出しの正確さ・速度を実測します。カタログ値ではなく自社環境での数値を根拠にすることで、独立検証が存在しないという弱点を実務的に補えます。
日本語コーディング指示での実務的な使い勝手
日本のチームでは、日本語での指示やコメント生成の自然さが採用可否を左右します。前世代から「kimi k2 日本語」のような関心が見られ、英語前提の評価値が日本語運用にそのまま当てはまるとは限りません。仕様書やレビューコメントが日本語中心の現場では、PoCの段階で日本語指示の追従性を必ず確認してください。
Claude Code・Cursor・OpenCode等との連携可否
多くのチームは既存のコーディング環境を持っており、K2.7 Codeを既存ツールから呼べるかが現実的な関心事です。前世代でもClaude Code・Cursor・OpenClaw・OpenRouter経由の利用が検索されており、OpenAI互換エンドポイントを介して接続する構成が一般的です。乗り換えコストを抑えるには、現行のエディタやCLIから最小の設定変更で接続できるかを先に試すのが近道です。
採用を判断するための社内チェック手順の整理
採用判断は、勢いではなく順序立てた検証で行うべきです。以下の手順で進めると、見落としを減らせます。
- データ所在・契約面のコンプライアンス要件を確認する
- 自社の実タスクでPoCを実施し、品質・速度・日本語追従を実測する
- API・Kimi Code・自己ホストのコストを利用量に当てて試算する
- Claude Code等の既存ツールからの接続可否を検証する
- 競合のDeepSeek V4 ProやGLM 5.2と並べて相対評価する
この5手順を踏めば、ベンダー公表値だけに頼らず、自社の根拠で導入可否を判断できます。
Kimi K2.7 Codeに関するよくある質問
ここでは、Kimi K2.7 Codeの検討時に多く挙がる疑問に簡潔に答えます。料金・連携・ハードウェア・世代差・高速モードの順に整理しました。
Kimi K2.7 Codeは無料で使えますか?
モデルウェイト自体はHugging FaceにModified MITライセンスで公開されており、ダウンロードは無料です。ただし1兆パラメータ級のため、実際に動かすにはサーバー級GPUという実行コストがかかります。手軽に試すなら、Kimi APIの少額利用や月額$19からのKimi Code、無償枠のあるWorkers AIのプレイグラウンドなどが現実的な入口です。「無料」が指すのはウェイト取得までで、実行環境は別途必要だと理解しておくと安全です。
Kimi K2.7 CodeはClaude Codeで利用できますか?
K2.7 CodeはOpenAI互換エンドポイントを提供しているため、Claude CodeやCursor、OpenCodeといった外部ツールから接続して使う構成が一般的です。前世代のK2系でも同様の連携が広く行われてきました。設定方法はツールごとに異なるため、エンドポイントURLとAPIキーを既存ツールに登録できるかを最初に確認してください。なお、本来Kimi Code CLIが純正のエージェント環境として最も相性よく動作します。
Kimi K2.7 Codeのローカル実行にはどの程度のハードウェアが必要ですか?
総パラメータ1兆という規模のため、消費者向けGPU1枚での実行は現実的ではありません。INT4量子化やvLLM・SGLangを用いても、ウェイト保持に数百GB規模のメモリが必要となり、複数GPUを束ねたサーバー級・データセンター級の構成が前提になります。公開された単一の公式VRAM要件値があるわけではないため、まず自分の環境でモデルをロードできるか自体を検証することをおすすめします。試用段階ならAPI利用のほうが手軽で安価です。
Kimi K2.7 CodeはK2.6やK2.5と何が違いますか?
K2.7 CodeはK2.6を土台に、コーディングとエージェント用途へ特化した版です。自社ベンチではK2.6比でKimi Code Bench v2が+21.8%、思考トークン使用量が約30%削減と報告されています。系譜としてはK2.5(2026年1月)、K2.6(2026年4月)に続く2026年6月12日のリリースで、初めて「Code」を冠した点が大きな違いです。汎用性より長時間コーディングのタスク完遂に振った設計、と捉えると整理しやすくなります。
Kimi K2.7 CodeのHighSpeed Modeはどう使えますか?
HighSpeed Modeは2026年6月15日に告知され、Kimi Code Betaプログラム参加者・Kimi API開発者・Kimi Business利用者へ順次展開されました。中央値で約180トークン毎秒、短いコンテキストでは最大約260トークン毎秒と、標準版比でおよそ6倍の速度が示されています。ただし容量の制約からアクセスは当面限定されると公式に案内されており、全経路で即座に使えるわけではありません。提供範囲は変わり得るため、組み込み前にMoonshotの最新告知で対応状況を確認してください。