AI

Qwen3とは?アリババのオープンLLMの特徴・モデル一覧・日本語性能・商用利用を解説

Qwen3(クウェン3)は、アリババクラウドが2025年4月28日に公開した大規模言語モデル(LLM)シリーズです。すべてApache License 2.0で配布され、商用利用・改変・再配布が自由に行えます。最大の特徴は、1つのモデルで「じっくり推論する思考モード」と「即答する非思考モード」を切り替えられるハイブリッド設計と、軽量な0.6Bから超大規模なMoEまで揃ったラインアップです。検索でよく見かける「Qwen3 72B」は実在せず、72Bは前世代Qwen2.5のサイズである点も含め、本記事ではモデルの全体像・性能・日本語対応・導入方法を最新の事実で整理します。

まとめ

  • 正体:アリババクラウドのオープンLLM。2025年4月28日公開、Apache 2.0で商用可。読み方は「クウェン」、通義千問(Tongyi Qianwen)の略。
  • ラインアップ:Denseが0.6B/1.7B/4B/8B/14B/32Bの6種、MoEが30B-A3Bと235B-A22Bの2種。Qwen3に72Bは無い(72BはQwen2.5)。
  • 性能:旗艦の235B-A22Bは公開時点でDeepSeek-R1に多くの指標で並び、クローズドの上位推論モデルに匹敵する水準。
  • 日本語:標準でも実用域。さらに日本語特化の「Qwen3 Swallow」(東京科学大・産総研)が公開済み。
  • 導入:Ollama・llama.cpp・Transformers・クラウドGPUで動作。8B/14Bは家庭用GPUでも量子化で動く。

以下、モデル一覧と「72B問題」、思考モード、ベンチマーク、日本語、ライセンス、導入手順、注意点の順に具体的に見ていきます。

Qwen3の概要と読み方、Qwen2.5からの進化

Qwenは、アリババグループのクラウド部門であるアリババクラウドが開発するLLMシリーズで、正式名称を通義千問(Tongyi Qianwen、トンイーチエンウェン)といいます。「Q」は中国語「千(qiān)」、「wen」は「問(wèn)」に由来し、英語圏では「クウェン」と読みます。Qwen3はその第3世代にあたり、2025年4月28日にオープンウェイトで公開されました。

Qwen2.5から変わった中核ポイント

Qwen3の学習データは36兆トークン・119の言語と方言に拡大し、前世代から倍増しました。技術的に最も大きい変更は、思考モードと非思考モードを単一モデルに統合した点です。Qwen2.5までは推論特化モデル(QwQ等)と通常モデルが別建てでしたが、Qwen3は1つの重みでタスクに応じて挙動を切り替えます。コード・数学・エージェント能力も強化され、ツール呼び出し(Tool Use)を前提とした設計に踏み込んでいます。

Qwen3公開後の系譜(2507更新・Coder・後継世代)

Qwen3は公開後も更新が続いています。2025年夏には文脈長を256Kに拡張した「Qwen3-235B-A22B-Instruct-2507」「同-Thinking-2507」が登場し、エージェント型コーディングに特化した「Qwen3-Coder-480B-A35B」(ネイティブ256K、YaRNで最大1M)も公開されました。2026年初頭には後継のQwen3.5・Qwen3.6系も登場しています。検索で「qwen3.5」「qwen3.6」を見かけるのはこの流れですが、これらは別系列のため本記事の範囲外とし、ここではオリジナルのQwen3系列に絞って解説します。後継版を導入する際も、まず本記事でQwen3の基本構造を押さえると差分の理解が早くなります。

Qwen3のモデル一覧とサイズ(DenseとMoE)

Qwen3は、全パラメータを常時使うDenseモデルと、一部の専門家(Expert)だけを動的に使うMoEモデルの2系統を提供します。サイズと用途の対応は次のとおりです。

モデル 総パラメータ 活性パラメータ 種別 文脈長
Qwen3-0.6B 0.6B 0.6B Dense 32K
Qwen3-1.7B 1.7B 1.7B Dense 32K
Qwen3-4B 4B 4B Dense 32K
Qwen3-8B 8B 8B Dense 128K
Qwen3-14B 14B 14B Dense 128K
Qwen3-32B 32B 32B Dense 128K
Qwen3-30B-A3B 30B 3B MoE 128K
Qwen3-235B-A22B 235B 22B MoE 128K

MoEの「A3B」「A22B」は推論時に活性化するパラメータ数を表します。たとえば30B-A3Bは総量30Bでも実際に動くのは3B分のため、3B級の速度で8B級に迫る品質が得られる、という効率重視の設計です。

「Qwen3 72B」が見つからない理由

「Qwen3 72B」を探して情報にたどり着けないのは、Qwen3に72Bモデルが存在しないためです。72BはQwen2.5世代(Qwen2.5-72B)のサイズで、Qwen3ではラインアップが見直されました。Qwen2.5-72B相当の規模を求めるなら、Dense最大の32Bか、MoEの235B-A22Bが対応する選択肢になります。単一GPUで動かしたいなら32B、品質を最優先しサーバー級GPUを使えるなら235B-A22B、という住み分けです。古い記事や生成AIの回答が「Qwen3-72B」と書いている場合は、前世代の情報が混ざっている可能性が高いので注意してください。

DenseとMoEの仕組みと使い分け

Denseは全レイヤーを毎回使うため挙動が安定し、デバッグやモニタリングがしやすいのが利点です。小〜中規模で確実な出力が要る業務向きです。MoEは128個のエキスパートのうち各トークンで8個だけを選んで計算するため、巨大な総パラメータを持ちながら計算コストを抑えられます。大量処理や高難度の推論をコスト効率よく回したい場面ではMoEが有利ですが、動的ルーティングのぶん運用は複雑になります。リアルタイム性と安定性重視ならDense、スケールとコスト効率重視ならMoE、と覚えておけば実務での判断を誤りません。

用途別のモデルサイズの選び方(VRAM目安)

ローカルで動かす場合、4bit量子化(Q4_K_Mが品質と容量のバランス点)での必要VRAMの目安は、8Bで約5〜8GB、14Bで約8〜12GB、32Bで約19〜24GB、MoEの30B-A3Bで約17GBです。8GBクラスのGPUなら8B、12GBなら14B、24GBクラスなら30B-A3Bか32Bが現実的なラインになります。モデルがVRAMに収まらずRAMへあふれると推論速度が数倍〜十数倍落ちるため、サイズ選定はまず「VRAMに収まるか」を基準にするのが失敗しないコツです。試作や非技術者のデモには1.7B〜4B、社内ツールの本番運用には8B〜14B、と用途で割り切ると過剰投資を避けられます。

ハイブリッド思考モード(Thinking/Non-Thinking)の仕組み

Qwen3の目玉が、推論の深さをタスクごとに切り替えるハイブリッド思考です。思考モードでは回答前に内部で段階的な推論(Chain-of-Thought)を展開し、数学・コード・計画立案など多段の論理が要る課題で正答率が上がります。非思考モードはその過程を省いて即答し、チャットやサジェストなど速度優先の用途に向きます。

切り替えは推論時のフラグ enable_thinking や、プロンプト内の /think/no_think といった指示で制御できます。重要なのは「常に思考モードが良いわけではない」点です。単純な定型応答に思考モードを使うと、レイテンシとトークン消費が無駄に増えます。正確性が要る場面だけ思考モードを有効化し、それ以外は非思考モードに倒すのが、品質とコストを両立させる実践的な運用です。

ベンチマークで見るQwen3の性能(GPT-4o・Gemini・DeepSeek比較)

旗艦のQwen3-235B-A22B(思考モード)は、公開時点の公称値で次のスコアを記録しています。いずれも変動が速い領域のため、導入判断時は公式の最新値も併せて確認してください。

ベンチマーク 領域 Qwen3-235B-A22B
AIME 2024 数学 85.7
AIME 2025 数学 81.5
LiveCodeBench v5 コード 70.7
CodeForces(Elo) 競技プログラミング 2056
BFCL v3 ツール呼び出し 70.8

アリババの公称では、Qwen3-235B-A22BはDeepSeek-R1に対し23指標中17で上回り、思考モード時はo1・o3-mini・Gemini 2.5 Proといったクローズドの上位推論モデルに匹敵します。一方で、Qwen3は基本的にテキスト中心のモデルで、画像・音声・動画を統合的に扱うマルチモーダル性能ではGoogle最新AIモデルのGemini 3のような設計が優位です。「論理推論・コード・数学を低コストで回す」用途ならQwen3、「マルチモーダルを1モデルで完結させたい」用途ならGemini系、という選び方が現実的です。GPT-4oとの比較では、汎用的な対話の滑らかさはGPT-4oに分がある一方、オープンで自社運用でき、思考モードで推論過程を可視化できる点はQwen3の明確な強みです。

Qwen3の日本語性能とQwen3 Swallow

Qwen3は119言語に対応し、日本語でも助詞・敬語・文体の扱いを含めて実用域の応答を返します。多言語データを利用頻度に応じてバランス配分して学習しているため、翻訳だけでなく文脈保持を伴うマルチターン対話でも一貫性を保ちやすいのが特徴です。

日本語をさらに重視するなら、東京科学大学と産業技術総合研究所が公開した日本語特化版「Qwen3 Swallow」が有力です。Qwen3をベースに200億トークン超の継続事前学習を施し、Apache 2.0で配布されています。従来の日本語強化モデルは数学・コード・科学の難問で性能が落ちるトレードオフを抱えがちでしたが、Qwen3 Swallowは学習手法を刷新してこれを回避し、日本語・英語の平均タスクでベースのQwen3-32Bを上回ると公称しています。日本語の社内ナレッジ検索やFAQ自動化など、国内業務に寄せて使うなら標準のQwen3よりこちらを検討する価値があります。

Apache 2.0ライセンスと商用利用の条件

Qwen3はDense・MoEを問わず全モデルがApache License 2.0で公開されています。このライセンスは、著作権表示とライセンス条文の明記という条件さえ守れば、商用利用・改変・再配布・派生モデルの公開と販売まで認められます。追加費用やライセンス交渉なしに自社製品へ組み込める自由度の高さが、Qwen3が企業に選ばれる最大の理由です。

注意点は2つあります。1つはApache 2.0が「無保証」での提供である点で、不具合時のリスク管理や責任範囲は導入側で設計する必要があります。もう1つは派生モデルでも著作権・ライセンス表示の継承義務がある点です。なお、MetaのLlamaは月間アクティブユーザー数などに応じた追加条件があり商用利用に制約が残りますが、Qwen3は利用規模を問わず制限がほぼありません。クローズドAPIへのロックインを避け、データを自社環境に留めたい企業にとって、この差は導入判断で効いてきます。

Qwen3の導入方法(ローカル・クラウド・Ollama・ONNX)

Qwen3はGGUF(量子化済み)・Transformers・ONNXなど主要な実行形式に対応し、ローカルからクラウドまで幅広い環境で動かせます。セキュリティ要件やリソースに応じて導入形態を選べるのが利点です。

Ollamaで手軽に試す

最短で動かすなら、ローカルLLM実行ツールのOllamaが便利です。インストール後、次のコマンド一発でQwenシリーズをダウンロードからチャットまでGUIなしで開始できます。

ollama run qwen3:8b

開発環境の構築が不要なため、PoCやデモ、UIへの組み込み検証に向きます。OllamaのAPIやWeb検索連携まで踏み込む手順は、API利用方法やライブラリの利用例まで解説したOllamaの使い方ガイドが参考になります。

ローカルGPUとクラウドでの本番運用

ローカルではPython+TransformersやGGUF対応のllama.cppが使えます。前述のVRAM目安に沿ってモデルを選び、量子化(Q4_K_M等)で必要メモリを抑えるのが定石です。クラウドではAWS・Azure・GCPの主要GPUインスタンス(例:AWSのg5、AzureのNCシリーズ)にデプロイでき、必要時にスケールできる柔軟性とAPI化による外部連携のしやすさが強みです。金融・医療などデータガバナンスが厳しい用途はローカルまたはVPC内、スピードと拡張性重視のSaaSはクラウド、と要件で切り分けます。

ONNXやエッジ向けの選択肢

軽量モデルはONNX形式へ変換してONNX Runtime上で動かせるため、エッジ端末や既存の推論基盤への組み込みにも対応できます。0.6B〜1.7Bなら省リソース環境でも動作し、オンデバイス用途の現実味があります。

コーディング・数学・エージェント性能

Qwen3は実務的な知的タスクで強化されています。コード生成では旗艦の235B-A22BがLiveCodeBench v5で70.7を記録し、Pythonの関数実装やSQL生成、正規表現、エラーハンドリング付きコードの出力までこなします。コード生成AIを業務に取り入れる際の判断材料は、コード生成AIのメリットとデメリットを整理した解説も併読すると導入時の落とし穴を避けやすくなります。

数学では思考モードを使うと解答までのステップを明示でき、AIME 2024で85.7、AIME 2025で81.5(235B-A22B)と高難度の推論テストで上位水準を示します。さらに、目的を複数のサブタスクに分解して外部APIを呼びながら進める「エージェント的な動作」にも対応し、RAGやTool Useと組み合わせた高度なワークフローを構築できます。ツール呼び出し精度を測るBFCL v3で70.8を記録している点は、エージェント用途での実用性を裏づけています。

Qwen3を使う際のセキュリティと注意点

導入前に押さえたい論点を整理します。まずデータ管理面では、APIではなくローカル/VPC内で動かせばプロンプトや業務データを外部に出さずに済み、これがオープンモデルを選ぶ実利的な動機になります。一方で、Qwen3はアリババ(中国企業)が開発したモデルであり、調達ポリシーやガバナンス上、開発元の所在を問題にする組織もあります。重要なのは、Apache 2.0で公開されたモデルの重みを自社環境で動かす限り、推論データが開発元へ送信されるわけではないという事実を正しく区別することです。クラウドAPI経由で使う場合のみ、送信先と規約を確認すれば足ります。

品質面では、オープンモデル共通の「無保証」を前提に、出力の検証フローを業務側に組み込む必要があります。生成結果をそのまま顧客向けに出さず、ファクトチェックや人間のレビューを挟む設計を最初から用意しておくのが安全です。

よくある質問(FAQ)

Qwenの読み方は?

「クウェン」です。正式名称は通義千問(Tongyi Qianwen)で、Qwen3はその第3世代を指します。

Qwen3に72Bモデルはありますか?

ありません。72Bは前世代のQwen2.5のサイズです。Qwen3のDense最大は32B、MoEは235B-A22B(活性22B)です。大規模を求めるなら32Bか235B-A22Bを選びます。

Qwen3は無料で商用利用できますか?

できます。全モデルがApache License 2.0で公開され、著作権・ライセンス表示を守れば商用利用・改変・再配布・派生モデルの販売まで可能です。ただし無保証提供のため、リスク管理は導入側の責任になります。

日本語はどの程度使えますか?

標準モデルでも実用域で、敬語や文体の扱いも自然です。日本語を最優先するなら、日本語特化の「Qwen3 Swallow」(東京科学大・産総研、Apache 2.0)が選択肢になります。

ローカルで動かす最低スペックは?

4bit量子化(Q4_K_M)の目安で、8Bなら約5〜8GB VRAM、14Bなら約8〜12GB、32Bなら約19〜24GBです。8GBクラスのGPUでも8Bは動きます。

GPT-4oやGeminiと比べてどうですか?

論理推論・コード・数学を低コストで自社運用したいならQwen3が有利です。マルチモーダルや汎用対話の滑らかさではGPT-4oやGemini系が優位な場面があり、用途で使い分けるのが現実的です。

関連記事

資料請求

RELATED POSTS 関連記事