コスト最適化戦略:LLM 請求を削る10の手法

プロンプトキャッシュ(Anthropic で40〜90%減)からモデルルーティング(簡単クエリで10倍安く)まで、本番システムで実証済みの10手法を解説。

Operational

詳細な説明

効果順10レバー

1. プロンプトキャッシュ(Anthropic / OpenAI)— 40〜90% 削減

安定したシステムプロンプトや検索コンテキストを持つワークロード全般に。cache_control マーカーを設定して請求が下がるのを見守ってください。詳細はClaude プロンプトキャッシュ

2. モデルルーティング — 簡単クエリで5〜10倍削減

安価な分類器(GPT-4o mini、1コール約 $0.0001)で各リクエストをルーティング:

  • 簡単 / FAQ → GPT-4o mini
  • 難 / 複数ステップ → GPT-4o か Claude Opus

実本番データでは 70〜85% のクエリが「簡単」に分類されます。実効平均コストは 5〜7 倍下がります。

3. リアルタイム不要なものは Batch API へ — 50% 削減

エンリッチメント、分類、非同期パイプラインを OpenAI / Anthropic のバッチエンドポイントへ移行。詳細はバッチ処理

4. 出力トークン削減 — 出力コストの30〜60%削減

  • システムプロンプトに「簡潔に。3文以内で。」を追加。
  • 構造化出力(JSON スキーマ)で冗長な物語文を回避。
  • max_tokens を現実的な上限に設定(LLM はこれを尊重します)。

出力コストは通常トークンあたり入力の4〜5倍なので、出力トークン削減のインパクトは大きい。

5. コンテキスト圧縮 — 入力コスト20〜50% 削減

  • N ターン以上前の会話履歴を破棄。
  • 古い会話は全文ではなく 200 トークンのメモに要約。
  • RAG では top-k を 10 → 5 に下げて品質を再評価。

6. 一部ワークロードを GPT-4o → GPT-4o mini に切替 — 17倍削減

「フロンティアモデルが必要」と思っていた多くは A/B テストで覆ります。10% トラフィックで GPT-4o mini を1週間走らせ、ユーザー指標を確認してください。

7. ストリーミング + 早期終了 — 10〜30% 削減

特定トークン("完了。"、閉じ波括弧、終端マーカーなど)で生成を止められるアプリなら、出力をストリーミングしてマーカー出現で abort() を呼ぶ。モデルが冗長になりがちなケースで出力コストを削減できます。

8. ロングコンテキストの代わりに Embedding + 検索 — 50〜80% 削減

100K トークンの文書を毎プロンプトに入れるのは高い。一度 Embedding して、クエリごとに関連 3,000 トークンだけ取得しましょう。

9. プロバイダーアービトラージ — 0〜50% 削減

価格は変わります(しかも頻繁に)。同等モデルの最安をテストしてください。短文タスクには GPT-4o mini、画像には Gemini Flash、コードには DeepSeek-V3。四半期ごとに見直し。

10. 営業との交渉 — 規模次第で10〜30% 削減

月 $50K 以上のコミット支出があれば、OpenAI も Anthropic も交渉に応じます。ボリューム割引、バッチ SLA、専有キャパシティ。四半期ごとの面談を設ける価値があります。

節約は重ね掛けで効く

これらは乗算で効きます。最適化済み RAG パイプラインで #1、#2、#3、#4 を組み合わせると、素朴実装の 5〜10% で運用できます — 機能スコープに手を付けずに90%削減です。

ユースケース

LLM 請求が役員レベルの議論になったとき、シリーズB の投資家向け資料を準備するとき(マージンが重要)、特定機能の COGS が ARR を超えたときに適用してください。

試してみるプロンプト トークン費用計算ツール

フルツールを開く