トークン数で評価される時代 — AI活用の測り方を、私たちは間違えている
トークン数で評価される時代 — AI活用の測り方を、私たちは間違えている
「あなたが今四半期に消費したトークンは2,100億個です。」OpenAIのあるエンジニアが受け取ったレポートだ。Metaは社員のAI消費量を人事評価に反映し始めた。同じ週、Anthropicが発表した研究は正反対のことを言っている — 熟練したユーザーほど、AIに任せる量は減る。
1. トークンを数える時代が来た
2026年3月、Gizmodoは衝撃的な報道を出した。Metaが社員のAIトークン消費量を追跡し、人事評価に反映し始めたというのだ。OpenAIも社内エンジニアのトークン使用量をレポート形式で共有している。あるエンジニアの消費量は2,100億トークン — Wikipedia33個分に相当する。Greg Brockmanは、GPT-5.4のリリースからわずか一週間で一日5兆トークンの処理を達成したと述べ、これが年間10億ドルの新規売上につながったと誇った。
数字は簡単だ。数えるのも簡単、比較するのも簡単、グラフにするのも簡単。だから組織は数字を好む。
この流れはテック企業だけに留まらない。米国医師会(AMA)の調査によると、米国の医師の80%がすでに診療にAIを活用している。最も保守的な職種のひとつとされる医療界がこの状況だ。法律、金融、教育 — あらゆる専門職で、AI活用はもはや選択ではなく期待値になった。「まだAI使ってないの?」という問いが、「まだメール使ってないの?」と同じ重みを持ち始めている。
組織のロジックは直感的だ。AIは生産性ツールである。ツールを多く使う社員はより多く生産する。したがってトークン消費量が高い社員はより生産的である。QED。
本当にそうだろうか?
2. 熟練者はなぜ使用量が減るのか
Anthropicは2026年3月、自社Economic Indexの新たなレポート “Learning Curves” を発表した。Claudeユーザーのデータを長期分析したこのレポートで、最も目を引く発見はこれだ。
6ヶ月以上使用した長期ユーザーは、新規ユーザーよりも会話成功率が4パーセントポイント高かった。
4パーセントポイントは大したことないように見えるかもしれない。しかし、この数字が特定のタスクではなく、あらゆる使用コンテキストを統制した上でも維持されたという点を考えれば、これは構造的な差異だ。同じモデル、同じ機能、同じタスクを与えても、長く使った人の方がより良い結果を得る。
なぜか?
レポートはいくつかのパターンを捉えている。長期ユーザーのプロンプトは教育水準が**6%高かった。**ここでいう教育水準とは、語彙の難度や文章の長さではない。要件の構造化の度合い — 何を求めているか、どんな制約があるか、成果物がどのような形であるべきかをどれだけ明確に伝えているか — を測定したものだ。使用期間が1年延びるごとに、プロンプトの教育水準は約1年分上昇していた。
さらに興味深いのは委任パターンの変化だ。長期ユーザーはdirective usage — AIに完全な自律権を与える使い方 — が減少していた。「よしなにやっておいて」ではなく「この範囲内で、この条件で、この形式でやってくれ」に変わったのだ。同時にtask iteration and validation — 結果を確認し、修正指示を出す反復パターン — が増えていた。
噛み砕いて言えばこうだ。初心者はAIに多くを委ね、出力をそのまま使う。熟練者はAIに的確に指示し、結果を検証し、再度指示する。**トークン消費量で見れば、初心者の方が多く使っている可能性がある。**長く曖昧なプロンプトに、長く冗長な回答が返ってくるからだ。熟練者は短く正確なプロンプトで、短く正確な回答を得る。トークンは少ないが、結果はより良い。
レポートはもうひとつの数字を提示する。長期ユーザーは個人的な用途の使用が10%減少し、業務関連の使用が7パーセントポイント増加していた。熟練するほどAIを「遊び」ではなく「道具」として使うという意味だ。しかしこれは同時に、熟練者がAIを使う領域が狭まるということでもある。あれこれ試す代わりに、自分がAIを効果的に活用できる領域を見極め、その中で集中的に使う。
このデータをMetaのトークン追跡ポリシーの隣に並べると、皮肉が鮮明になる。Metaはトークンを多く使う社員に高い評価を与える。Anthropicのデータは、トークンを賢く — そしてしばしば少なく — 使う人がより良い成果を出すと言っている。組織が報酬を与える行動と、実際に成果を生む行動が、正反対を向いている。
3. 使うほど大きくなる影
熟練者がAI使用を絞るのは、単に効率の問題だけではない。リスクを認識しているからでもある。
2026年1月29日、情報処理推進機構(IPA)は毎年発表する情報セキュリティ10大脅威で、前例のない結果を示した。**「AI活用に伴うサイバーセキュリティリスク」が初登場にして第3位にランクインした。**第1位ランサムウェア、第2位サプライチェーン攻撃 — 何年も不動の上位を維持してきた脅威のすぐ下だ。新規項目がいきなり第3位に入ったという事実が、この脅威の緊急性を物語っている。
IPAの警告は具体的だ。社員が機密情報をクラウドベースのAIに入力すると、そのデータがモデル学習に使用されたり、プロバイダーに漏洩する可能性がある。IPAの2024年企業営業秘密管理実態調査によれば、機密漏洩を認知した企業は35.5%で、2020年の5.2%から約7倍に増加した。サイバー攻撃関連の漏洩は8.0%から36.6%へ急増している。
企業の対応は二極化している。26.2%の企業が生成AIの使用を全面禁止した — 16.3%は社内規定で、9.8%は技術的にブロックして。反対側では、使用を許可しつつもクラウドの代わりに自社インフラでAIを構築する動きが加速している。セキュリティ企業のセコムは自社データセンターにAIインフラを構築し始め、KDDIは2026年1月に「大阪堺データセンター」を稼働させ、企業が機密データを外部に出さずにAIを活用できる環境を提供し始めた。
Breached.Companyの調査はさらに直接的だ。社員の77%がAIツールを通じて企業データを外部に流出させている。意図的ではない。業務をより良くこなすために、より早く処理するためにAIにデータを入力しているのだ。「AIをもっと使え」という組織のプレッシャーが、意図せぬセキュリティホールを生み出している。
ここにもうひとつの逆説が重なる。Forbes Japanは同じ週に「AIが創造的業務を奪い、雑務を増やす」という分析を報じた。AI導入の約束は「反復的な雑務を自動化し、人間がクリエイティブな業務に集中できるようにする」だった。現実は逆だ。AIがライティング、デザイン、企画といった創造的作業を代行し、人間にはAIの出力を検収し、プロンプトを調整し、データを整理するという新たな種類の雑務が増えている。
「AIをたくさん使うほど良い」という前提の上に立つ組織は、これら三つの影を同時に大きくしている。セキュリティリスク、業務の質的低下、そして測定指標の歪み。
4. 量ではなく設計を測れ
Gizmodoが引用した批判が核心を突いている。「ペンキの消費量で塗装の品質を判断するようなものだ。」
ペンキを大量に使った画家が良い絵を描いたのか? ペンキを少ししか使わなかった画家は怠けていたのか? 水墨画の達人は筆を一度引く。初心者は十回塗り重ねる。墨の消費量は初心者の方が圧倒的に多い。
AI活用でも同じだ。問題はトークンを数えることではなく、AIをどのような構造の中で使っているかを見ることだ。
Anthropicは同じ週にもうひとつのブログ記事を発表した。自社エンジニアリングチームが**マルチエージェントハーネス(multi-agent harness)**を活用して、フロントエンドデザインと長期的な自動ソフトウェアエンジニアリングを行う手法についての技術ブログだ。注目すべきはアプローチだ。AIに「勝手にコードを書け」ではなく、エージェント間の役割を設計し、検証ループを挿入し、人間が介入するチェックポイントを明示的に配置したのだ。AIの自律性を高めつつ、その自律性が機能する境界を人間が設計する。
同時期にローンチされたAnthropic Science Blogも同様の哲学を見せている。AIを科学研究に投入するが、「AIに研究をさせる」のではなく「研究者がAIを活用して特定のステップを加速する」ことに焦点を当てている。AIが論文を読み仮説を提案すれば、人間の研究者がその仮説を評価し実験を設計する。自律ではなく協業だ。
これらの事例が指し示す方向は明確だ。AI活用の質はトークン数ではなくワークフローの設計にある。どれだけ使ったかではなく、どのような構造の中で使ったか。検証段階があるか。人間の判断が介入するポイントが明示されているか。AIの出力をそのまま使っているか、それともレビューし修正しているか。
では、組織は何を測るべきなのか? トークン数の代わりに問うべき質問がある。
第一に、AIがプロセスに構造的に統合されているか? 個人が散発的にChatGPTに質問を投げることと、チームのワークフローにAIエージェントが明示的な役割として配置されていることは、根本的に異なる。前者はAI Enabledであり、後者がAI Nativeだ。測るべきはトークンではなく、プロセス再設計率だ。
第二に、AIの出力が検証されているか? AIが生成したコード、文書、分析がそのまま使われる割合と、人間がレビューした後に使われる割合。前者が高ければ組織はリスクを蓄積している。後者が高ければAIをツールとして制御している。測るべきは検証ループの有無と密度だ。
第三に、AI導入前には不可能だったことが可能になったか? Anthropicの社内研究によれば、Claudeを活用した業務の27%は「以前ならやらなかったこと」だった。効率化ではなく可能性の拡張。トークンを大量に使う組織が必ずしも新たな価値を生み出しているとは限らない。既存業務をAIで代替することと、AIのおかげで新しい業務を始めることは、まったく異なる次元だ。
5. 測定が行動を作る
経済学にGoodhart’s Lawというものがある。**「測定指標が目標になった瞬間、それは良い指標であることをやめる。」**英国の経済学者Charles Goodhartが1975年に提示したこの法則は、半世紀を経た今、AI時代に正確に再現されている。
トークン消費量をKPIに据えれば、組織はトークンを多く使う方向に動く。短く正確なプロンプトの代わりに長く曖昧なプロンプトを書き、結果を検証する代わりにより多くの質問を投げ、AIが不要な業務にもAIを挟み込む。トークンは増えるが、生産性は横ばいか、むしろ低下する。機密データはより多く外部に流出し、創造的業務はAIに渡り、人間にはAI管理という新たな雑務が積み上がる。
Anthropicのデータが示す熟練者の姿は、これとは正反対だ。彼らはAIをより少なく使いながら、より上手く使う。より精緻なプロンプト、より限定された領域、より厳格な検証。彼らのトークン消費量を測れば、平凡か低いかもしれない。しかし彼らのアウトプットの質は一貫して高い。
スウェーデンのあるソフトウェアエンジニアは、Claude Codeの使用コストが自分の年収を上回ったと報じられた。この人はAIを上手く使っているのか、それとも使いすぎているのか? トークン数だけでは答えられない。彼がAIで何を生み出したのか、そのプロセスにどのような構造があったのかを見なければならない。
組織がAI活用を真に促進したいのであれば、トークンを数える代わりに、こうしたことを問うべきだ。
- チームのワークフローでAIが明示的な役割を持っているか?
- AIの出力を検証するステップがプロセスに組み込まれているか?
- AI導入後、以前はできなかったことを始めたか?
- AIに入力されるデータの機密度を分類しているか?
- AI使用がチームの意思決定の質を向上させているという根拠があるか?
これらの問いは、トークン数よりも測定が難しい。だからこそ価値がある。簡単に数えられるものを数えれば楽だが、その楽さが組織を見当違いの方向に導く。
ペンキの消費量で画家を評価する美術館はない。走行距離でタクシー運転手の腕を評価する会社もない。トークン数でAI活用能力を評価する組織があるとすれば、その組織はまだAIを理解していない。
**AIを上手く使うとは、AIを多く使うことではない。AIが機能する構造を設計できることだ。**そしてその設計力は、トークンレポートには現れない。
参考資料:
- Anthropic, “Economic Index: Learning Curves” (March 2026)
- Gizmodo Japan, “AI使うほど人事評価が上がる?テック企業が従業員の「消費トークン」をカウントし始める” (March 2026)
- IPA, “情報セキュリティ10大脅威 2026” (January 2026)
- IPA, “企業における営業秘密管理に関する実態調査 2024” (August 2025)
- Forbes Japan, “生成AIの機密漏洩リスクにIPAが警告” (March 2026)
- Forbes Japan, “AIが生み出した皮肉な現実──創造的業務を奪い、雑務を増やす” (March 2026)
- Anthropic Engineering Blog, “Multi-Agent Harness for Frontend Design and Long-Horizon Software Engineering” (March 2026)
- AMA Survey on Physician AI Usage (2026)