はじめに
つい先日、中国のZ.ai(旧Zhipu AI)がリリースした「GLM-5」は世界中で衝撃を与えました。
ブログでもよく書いてますが、単に問いに答える「会話をするAI(チャット)」から、自律的に思考し、ツールを操り、成果を出す「AI(エージェント)」への進化しています。そしてGLM-5は「エージェント工学(Agentic Engineering)」を提案しており、AIモデルが単なる受動的な「チャット(対話)」の枠を超え、複雑なシステム構築や長期的なタスクを自律的に実行する「実務」ツールへと進化する新たなパラダイムを目標としています。
今回は、技術仕様、ベンチマーク、そして実務上の経済性を多角的に比較して、Claude 4.6やGPT-5.3との比較をしていきたいと思います。
GLM-5の核心
GLM-5の誕生は、米国の制裁を技術的創意工夫で跳ね返したことが象徴です。NVIDIA H100/H200といった最先端GPUの輸出規制を受けながら、Z.aiはHuawei Ascend(910シリーズ)チップとMindSporeエコシステムのみを用いたトレーニングを完結させました。特定の海外ハードウェアに依存しない方法を確立しました。
驚異のアーキテクチャと推論効率
GLM-5は、まるで巨大な図書館のような膨大な知識を持ちながら、実際に使う時は必要な本棚だけを開くことで高速に動作する、賢い仕組みを持っています。
- MoE(混合専門家)アーキテクチャ: 難しいので言い換えて説明しますと、7,440億個という膨大な「知識の単位」を持っていますが、実際に質問に答える時は、その中から最も適した400億〜440億個だけを選んで使います。これは、オフィスビル全体に256の専門チームがいて、仕事が来るたびに最適な8チームだけが動き出すようなイメージです。全員を動員する必要がないため、素早く効率的に答えを出せるのです。
- DSA(DeepSeek Sparse Attention): 一度に20万語以上の長い文章を理解できる能力を持っていますが、その際のコンピューター資源の使用量を大幅に削減する工夫がされています。文章の内容に応じて、重要な部分に集中的にリソースを振り向け、それ以外は軽く流すことで、記憶装置への負担を減らしながらも情報の見落としを防いでいます
- Slimeフレームワーク: 同モデルの最大の強みは、非同期強化学習(RL)を可能にする「Slime」です。これはTrainer(Megatron-LMベース)、Rollout(SGLangサーバー)、Data Bufferの3つのモジュールに分離された構造を持ち、学習とデータ生成を非同期で行います。これにより、長時間のタスク実行能力(長期的エージェント行動)の学習効率が飛躍的に向上しました。
Claude 4.6/4.5、GPT-5.3/5.2との徹底比較
GLM-5、Claude 4.6/4.5、そしてGPT-5.3/5.2の性能を、ソースに基づく最新データで比較します。
主要ベンチマーク性能比較表
| ベンチマーク項目 | GLM-5 (Thinking) | Claude Opus 4.6/4.5 | GPT-5.3/5.2 |
| SWE-bench Verified(コーディング) | 77.8% | 80.9% (Opus 4.5) | 80.0% (GPT-5.2) |
| GPQA-Diamond(科学的推論) | 86.0% | 87.0% (Opus 4.5) | 92.4% (GPT-5.2) |
| BrowseComp(Web検索・統合能力) | 75.9% | 67.8% (Opus 4.5) | 65.8% (GPT-5.2) |
| Vending Bench 2(経営収益) | $4,432 | $4,967 (Opus 4.5) | $3,591 (GPT-5.2) |
このデータから、GLM-5が西側の最先端モデルに肉薄していることが分かります。特に「BrowseComp」における75.9%というスコアは特筆すべきで、Web上の膨大な情報から必要なデータを正確に抽出・合成する能力において、競合を圧倒しています。これは「Webリサーチ・エージェント」としての実用性が極めて高いことを示唆しています。
「チャット」から「ワーク」へ
GLM-5が目指すのは実務遂行能力です。
- Vending Bench 2の衝撃: 自動販売機経営を1年間シミュレーションするテストにおいて、在庫管理や資本配分、動的価格設定を自律的に行い、4,432ドルの利益を創出しました。これはオープンソースモデルとして首位であり、数週間から数ヶ月にわたる長期の目標整合性を維持できる証明です。
- Office by Z.aiの統合: 単なる文章生成ではなく、プロンプト一つで .docx、.pdf、.xlsx ファイルを直接生成。表や画像を適切に配置した7ページにわたるプロ仕様の協賛提案書や、複雑な財務報告書を、人間が手を加える必要のないレベルで完結させます。
驚異のコストパフォーマンス
なんといってもGLM-5の最大の破壊力はその圧倒的な低価格にあります。
APIコスト比較表(100万トークンあたり)
| モデル名 | 入力コスト (USD) | 出力コスト (USD) |
| GLM-5 (Z.ai API) | $0.80 – $1.20 | $2.56 – $5.00 |
| GPT-5.3-Codex | $1.75 | $14.00 |
| Claude Opus 4.6 | $5.00 | $25.00 |
Claude 4.6と比較して、入力で約6倍、出力で約5〜10倍もの価格差があります。大量のデータログ解析や、数万ステップにおよぶ自律エージェントの運用において、この「1桁違う」コスト構造は、企業にとってとても魅力的です。
ローカルで動かしてみた開発者の感想
GLM-5は誰でも自由に使える形で公開されていますが、実際に自分のオフィスや自宅で動かすには、相当な準備とコストが必要なようです。海外の開発者コミュニティ(Reddit)では、その実力の高さと「それに見合う負担」について活発な意見交換が行われています。
実際に使ってみるとどうなのか・・・
- ある開発者は、高性能なコンピューター2台を使って、たった3回の指示だけで「Flappy Bird」という昔流行ったゲームを作り、さらにクラウドサービス(AWS)で公開するための計画書と費用見積もりまで自動で作成させたと報告しています。
- GLM-5を自社で動かすには、非常に高性能なコンピューター設備が必要です。具体的には、プロ用グラフィックカード2枚(合計メモリ192GB)クラスの機材が不可欠で、AI需要の高まりにより、メモリ価格が約40万円から約270万円へと急騰している状況です。本格的な環境を整えるには、高級車1台分に相当する費用がかかります。
- 面白いことに、GLM-5が「私はClaudeです」「私はChatGPTです」と、他のAIの名前を名乗ってしまう現象が報告されています。これは学習データに他のAIとの会話が混ざっている可能性を示していますが、肝心の実力そのものは本物のようです。プログラムのエラーを自分で見つけて、自分で修正し、また試すという「自己改善サイクル」を回せる能力は確かで、開発者からは「まるで本物のエンジニアと仕事をしているようだ」と高く評価されています。
セキュリティはどうか?
中国製AIモデルであるGLM-5は、セキュリティ面での心配が日本企業としては大きいのではないでしょうか?そこのところもZ.aiも分かっているようです。
GLM-5は自社のサーバーで動かせるため、データを中国など外部のサーバーに送る必要がありません。銀行が顧客情報を外部に出さず自社内で管理するのと同じ考え方です。また、プログラムの中身が公開されているため、世界中の専門家が問題がないかチェックできる仕組みになっています。
例えば、悪意のある質問(サイバー攻撃の方法など)に対しては、回答する前に内部で「これは危険な要求か」を判断する仕組みがあります。実際、安全基準が厳しすぎて「説教臭い」という不満が出るほどです。
しかしながら、懸念もあります。一部のユーザーからは「バックドアが仕込まれているのでは」という地政学的な不安や、モデルが「私はChatGPTです」と他社AIの名前を名乗る現象から、データの出所への疑問も指摘されています。
日本企業としては利用できるかどうか難しい判断ですね。GLM-5は従来の中国製サービスと違い、ユーザー自身がセキュリティをコントロールできる選択肢を提供している点があります。使い方として機密性の高い業務では自社サーバーで運用し、そうでない場合は信頼できる第三者のサービス経由で使うなど、用途に応じた使い分けが可能です。おまけに安い!しかしながらやはりバックドアの懸念があります・・・。低コストで簡単に利用できたとしても日本企業としてはすぐに手を出さずに様子見ということになりそうですね。

コメント