コスト最適化戦略：LLM 請求を削る10の手法

Q: コスト最適化戦略：LLM 請求を削る10の手法

## 効果順10レバー ### 1. プロンプトキャッシュ（Anthropic / OpenAI）— 40〜90% 削減 安定したシステムプロンプトや検索コンテキストを持つワークロード全般に。cache_control マーカーを設定して請求が下がるのを見守ってください。詳細は[Claude プロンプトキャッシュ](/tools/prompt-token-cost-calculator/examples/claude-prompt-caching-savings)。 ### 2. モデルルーティング — 簡単クエリで5〜10倍削減 安価な分類器（GPT-4o mini、1コール約 $0.0001）で各リクエストをルーティング: - 簡単 / FAQ → GPT-4o mini - 難 / 複数ステップ → GPT-4o か Claude Opus 実本番データでは 70〜85% のクエリが「簡単」に分類されます。実効平均コストは 5〜7 倍下がります。 ### 3. リアルタイム不要なものは Batch API へ — 50% 削減 エンリッチメント、分類、非同期パイプ

プロンプトキャッシュ（Anthropic で40〜90%減）からモデルルーティング（簡単クエリで10倍安く）まで、本番システムで実証済みの10手法を解説。

Operational

詳細な説明

効果順10レバー

1. プロンプトキャッシュ（Anthropic / OpenAI）— 40〜90% 削減

安定したシステムプロンプトや検索コンテキストを持つワークロード全般に。cache_control マーカーを設定して請求が下がるのを見守ってください。詳細はClaude プロンプトキャッシュ。

2. モデルルーティング — 簡単クエリで5〜10倍削減

安価な分類器（GPT-4o mini、1コール約 $0.0001）で各リクエストをルーティング:

簡単 / FAQ → GPT-4o mini
難 / 複数ステップ → GPT-4o か Claude Opus

実本番データでは 70〜85% のクエリが「簡単」に分類されます。実効平均コストは 5〜7 倍下がります。

3. リアルタイム不要なものは Batch API へ — 50% 削減

エンリッチメント、分類、非同期パイプラインを OpenAI / Anthropic のバッチエンドポイントへ移行。詳細はバッチ処理。

4. 出力トークン削減 — 出力コストの30〜60%削減

システムプロンプトに「簡潔に。3文以内で。」を追加。
構造化出力（JSON スキーマ）で冗長な物語文を回避。
max_tokens を現実的な上限に設定（LLM はこれを尊重します）。

出力コストは通常トークンあたり入力の4〜5倍なので、出力トークン削減のインパクトは大きい。

5. コンテキスト圧縮 — 入力コスト20〜50% 削減

N ターン以上前の会話履歴を破棄。
古い会話は全文ではなく 200 トークンのメモに要約。
RAG では top-k を 10 → 5 に下げて品質を再評価。

6. 一部ワークロードを GPT-4o → GPT-4o mini に切替 — 17倍削減

「フロンティアモデルが必要」と思っていた多くは A/B テストで覆ります。10% トラフィックで GPT-4o mini を1週間走らせ、ユーザー指標を確認してください。

7. ストリーミング + 早期終了 — 10〜30% 削減

特定トークン（"完了。"、閉じ波括弧、終端マーカーなど）で生成を止められるアプリなら、出力をストリーミングしてマーカー出現で abort() を呼ぶ。モデルが冗長になりがちなケースで出力コストを削減できます。

8. ロングコンテキストの代わりに Embedding + 検索 — 50〜80% 削減

100K トークンの文書を毎プロンプトに入れるのは高い。一度 Embedding して、クエリごとに関連 3,000 トークンだけ取得しましょう。

9. プロバイダーアービトラージ — 0〜50% 削減

価格は変わります（しかも頻繁に）。同等モデルの最安をテストしてください。短文タスクには GPT-4o mini、画像には Gemini Flash、コードには DeepSeek-V3。四半期ごとに見直し。

10. 営業との交渉 — 規模次第で10〜30% 削減

月 $50K 以上のコミット支出があれば、OpenAI も Anthropic も交渉に応じます。ボリューム割引、バッチ SLA、専有キャパシティ。四半期ごとの面談を設ける価値があります。

節約は重ね掛けで効く

これらは乗算で効きます。最適化済み RAG パイプラインで #1、#2、#3、#4 を組み合わせると、素朴実装の 5〜10% で運用できます — 機能スコープに手を付けずに90%削減です。

ユースケース

LLM 請求が役員レベルの議論になったとき、シリーズB の投資家向け資料を準備するとき（マージンが重要）、特定機能の COGS が ARR を超えたときに適用してください。

試してみる — プロンプトトークン費用計算ツール

フルツールを開く →