Claude プロンプトキャッシュ:1設定で請求80%削減
Anthropic はキャッシュ書き込み 1.25倍、読み込み 0.1倍。50K トークンのシステムプロンプトを100回再利用すると、セッションあたり $7.50 が $1.50 に。
Caching & long context
詳細な説明
計算式
Anthropic Claude Opus 4.7 のプロンプトキャッシュ価格:
- 初回書き込み(キャッシュミス):入力単価の1.25倍 → $18.75/1M
- 以降の読み込み(キャッシュヒット、TTL 5分):入力単価の0.1倍 → $1.50/1M
- 通常の入力:$15/1M
50,000 トークンのシステムプロンプトで、1セッション100ユーザーメッセージを処理するチャットアシスタントの例:
| 戦略 | セッションあたりコスト | 備考 |
|---|---|---|
| キャッシュなし | 100 × 50K × $15/1M = $75.00 | 毎ターン全額請求 |
| キャッシュあり | 1 × 50K × $18.75/1M + 99 × 50K × $1.50/1M = $8.36 | 89%削減 |
1日1,000アクティブセッションの B2B 製品なら、$66,640/日 対 $8,360/日 — 1日あたり $58K の差、月換算で $1.7M です。
TTL のトレードオフ
デフォルト TTL は5分。Anthropic は書き込みコスト2倍と引き換えに1時間 TTL も提供しています。1時間 TTL を使うのは:
- セッションがコーヒーブレイクをまたぐ場合(多くのチャット製品)。
- 1分1メッセージ以下にレート制限している場合。
- システムプロンプトがあまり変わらない場合。
5分 TTL を使うのは:
- ユーザーが短時間で連続メッセージを送って離脱する場合。
- システムプロンプトがテナントごとに切り替わる場合。
キャッシュ書き込みの粒度
Anthropic は API でマークした cache_control 境界でキャッシュします。安定したコンテンツ(システムプロンプト、検索結果)の後ろ、ターンごとの内容(ユーザーメッセージ、会話履歴)の前にマーカーを置いてください。マーカーは1リクエスト4個までなので、最大の安定ブロックを優先してください。
実運用でのヒット率
本番環境の観測値:
- カスタマーサポートボット:80〜95%(システムプロンプトがほとんど変わらない)。
- 検索付き RAG:30〜50%(クエリごとに検索結果が変わる)。
- コードエージェント:60〜75%(複数ファイル編集の間プロジェクトコンテキストが安定)。
OpenAI との比較
OpenAI のプロンプトキャッシュは自動(cache_control 不要)で、キャッシュ読み込みは0.5倍 — Anthropic の0.1倍ほど大きくはありませんが効果は十分にあります。書き込みプレミアムはありません。
ユースケース
システムプロンプトや検索コンテキストが大きく、複数ターン間で安定している場合に適用してください。カスタマーサポート、技術ドキュメント Q&A、コードエージェント、永続的なペルソナを持つアプリ全般。