コスト最適化戦略:LLM 請求を削る10の手法
プロンプトキャッシュ(Anthropic で40〜90%減)からモデルルーティング(簡単クエリで10倍安く)まで、本番システムで実証済みの10手法を解説。
詳細な説明
効果順10レバー
1. プロンプトキャッシュ(Anthropic / OpenAI)— 40〜90% 削減
安定したシステムプロンプトや検索コンテキストを持つワークロード全般に。cache_control マーカーを設定して請求が下がるのを見守ってください。詳細はClaude プロンプトキャッシュ。
2. モデルルーティング — 簡単クエリで5〜10倍削減
安価な分類器(GPT-4o mini、1コール約 $0.0001)で各リクエストをルーティング:
- 簡単 / FAQ → GPT-4o mini
- 難 / 複数ステップ → GPT-4o か Claude Opus
実本番データでは 70〜85% のクエリが「簡単」に分類されます。実効平均コストは 5〜7 倍下がります。
3. リアルタイム不要なものは Batch API へ — 50% 削減
エンリッチメント、分類、非同期パイプラインを OpenAI / Anthropic のバッチエンドポイントへ移行。詳細はバッチ処理。
4. 出力トークン削減 — 出力コストの30〜60%削減
- システムプロンプトに「簡潔に。3文以内で。」を追加。
- 構造化出力(JSON スキーマ)で冗長な物語文を回避。
- max_tokens を現実的な上限に設定(LLM はこれを尊重します)。
出力コストは通常トークンあたり入力の4〜5倍なので、出力トークン削減のインパクトは大きい。
5. コンテキスト圧縮 — 入力コスト20〜50% 削減
- N ターン以上前の会話履歴を破棄。
- 古い会話は全文ではなく 200 トークンのメモに要約。
- RAG では top-k を 10 → 5 に下げて品質を再評価。
6. 一部ワークロードを GPT-4o → GPT-4o mini に切替 — 17倍削減
「フロンティアモデルが必要」と思っていた多くは A/B テストで覆ります。10% トラフィックで GPT-4o mini を1週間走らせ、ユーザー指標を確認してください。
7. ストリーミング + 早期終了 — 10〜30% 削減
特定トークン("完了。"、閉じ波括弧、終端マーカーなど)で生成を止められるアプリなら、出力をストリーミングしてマーカー出現で abort() を呼ぶ。モデルが冗長になりがちなケースで出力コストを削減できます。
8. ロングコンテキストの代わりに Embedding + 検索 — 50〜80% 削減
100K トークンの文書を毎プロンプトに入れるのは高い。一度 Embedding して、クエリごとに関連 3,000 トークンだけ取得しましょう。
9. プロバイダーアービトラージ — 0〜50% 削減
価格は変わります(しかも頻繁に)。同等モデルの最安をテストしてください。短文タスクには GPT-4o mini、画像には Gemini Flash、コードには DeepSeek-V3。四半期ごとに見直し。
10. 営業との交渉 — 規模次第で10〜30% 削減
月 $50K 以上のコミット支出があれば、OpenAI も Anthropic も交渉に応じます。ボリューム割引、バッチ SLA、専有キャパシティ。四半期ごとの面談を設ける価値があります。
節約は重ね掛けで効く
これらは乗算で効きます。最適化済み RAG パイプラインで #1、#2、#3、#4 を組み合わせると、素朴実装の 5〜10% で運用できます — 機能スコープに手を付けずに90%削減です。
ユースケース
LLM 請求が役員レベルの議論になったとき、シリーズB の投資家向け資料を準備するとき(マージンが重要)、特定機能の COGS が ARR を超えたときに適用してください。