Claude プロンプトキャッシュ:1設定で請求80%削減

Anthropic はキャッシュ書き込み 1.25倍、読み込み 0.1倍。50K トークンのシステムプロンプトを100回再利用すると、セッションあたり $7.50 が $1.50 に。

Caching & long context

詳細な説明

計算式

Anthropic Claude Opus 4.7 のプロンプトキャッシュ価格:

  • 初回書き込み(キャッシュミス):入力単価の1.25倍 → $18.75/1M
  • 以降の読み込み(キャッシュヒット、TTL 5分):入力単価の0.1倍 → $1.50/1M
  • 通常の入力:$15/1M

50,000 トークンのシステムプロンプトで、1セッション100ユーザーメッセージを処理するチャットアシスタントの例:

戦略 セッションあたりコスト 備考
キャッシュなし 100 × 50K × $15/1M = $75.00 毎ターン全額請求
キャッシュあり 1 × 50K × $18.75/1M + 99 × 50K × $1.50/1M = $8.36 89%削減

1日1,000アクティブセッションの B2B 製品なら、$66,640/日$8,360/日 — 1日あたり $58K の差、月換算で $1.7M です。

TTL のトレードオフ

デフォルト TTL は5分。Anthropic は書き込みコスト2倍と引き換えに1時間 TTL も提供しています。1時間 TTL を使うのは:

  • セッションがコーヒーブレイクをまたぐ場合(多くのチャット製品)。
  • 1分1メッセージ以下にレート制限している場合。
  • システムプロンプトがあまり変わらない場合。

5分 TTL を使うのは:

  • ユーザーが短時間で連続メッセージを送って離脱する場合。
  • システムプロンプトがテナントごとに切り替わる場合。

キャッシュ書き込みの粒度

Anthropic は API でマークした cache_control 境界でキャッシュします。安定したコンテンツ(システムプロンプト、検索結果)の後ろ、ターンごとの内容(ユーザーメッセージ、会話履歴)の前にマーカーを置いてください。マーカーは1リクエスト4個までなので、最大の安定ブロックを優先してください。

実運用でのヒット率

本番環境の観測値:

  • カスタマーサポートボット:80〜95%(システムプロンプトがほとんど変わらない)。
  • 検索付き RAG:30〜50%(クエリごとに検索結果が変わる)。
  • コードエージェント:60〜75%(複数ファイル編集の間プロジェクトコンテキストが安定)。

OpenAI との比較

OpenAI のプロンプトキャッシュは自動(cache_control 不要)で、キャッシュ読み込みは0.5倍 — Anthropic の0.1倍ほど大きくはありませんが効果は十分にあります。書き込みプレミアムはありません。

ユースケース

システムプロンプトや検索コンテキストが大きく、複数ターン間で安定している場合に適用してください。カスタマーサポート、技術ドキュメント Q&A、コードエージェント、永続的なペルソナを持つアプリ全般。

試してみるプロンプト トークン費用計算ツール

フルツールを開く