ロングコンテキストのコスト:128K トークンの単価は実際いくらか
GPT-4o の 128K 入力で1コール $0.32、Claude Opus 4.7 の 200K で $3.00。キャッシュなしのロングコンテキスト呼び出しが最もコストの嵩む操作になる理由を解説。
Caching & long context
詳細な説明
1コールで 128K トークン
各モデルの最大コンテキスト長を入力、補完を 2,000 トークンと仮定:
| モデル | コンテキスト | 入力コスト | 出力コスト | 合計 |
|---|---|---|---|---|
| GPT-4o | 128K | $0.32 | $0.02 | $0.34 |
| GPT-4.1 | 1.05M | $2.10 | $0.016 | $2.12 |
| Claude Opus 4.7 | 200K | $3.00 | $0.15 | $3.15 |
| Claude Sonnet 4.6 | 200K | $0.60 | $0.03 | $0.63 |
| Gemini 2.5 Pro | 2M | $2.50 | $0.02 | $2.52 |
最大コンテキストでの Claude Opus 1コールは $3.15 — 多くの小規模アプリケーションの1日の LLM 請求総額より高くなります。これを1日1,000回行うと、出力増加を考慮する前から $94K/月 です。
それでも人々が使う理由
ロングコンテキストは検索エンジニアリングを置き換えます。次の代わりに:
- コードベースをチャンク化
- 50,000 チャンクを Embedding
- クエリごとに top-k 類似検索
- 上位10チャンクをプロンプトに詰め込む
こう書くだけで済みます:
- 80K トークンのコードベース全体をプロンプトに詰める
- 質問する
トレードオフは コスト vs 複雑さ。ロングコンテキストが正解になるのは:
- コーパスが小さい(1リポジトリ、1ドキュメント、1契約書)。
- 精度より再現率を重視する(関連事実をすべて拾う必要がある)。
- 単発クエリ(月次請求の倍率がかからない)。
「キャッシュするか死ぬか」ルール
80K+ トークンをプロンプトに入れるなら、必ずキャッシュしてください。キャッシュなしのロングコンテキスト呼び出しはコストが線形に増えますが、Anthropic キャッシュなら0.1倍にスケールします。具体的な数値はClaude プロンプトキャッシュを参照してください。
コンテキスト長の階層料金
Gemini 2.5 Pro と Claude には 閾値を超えると価格が上がる 段階があります(Gemini:200K トークン超で2倍、Claude も歴史的に同様の階層あり)。非常に長いコールを計画する際は必ず公式の価格ページを確認してください。
ユースケース
PDF全体、コードベース、契約書を1プロンプトに入れるか決める前に使ってください。「入れる」と決めたら、請求が現実的な範囲に収まるよう必ずプロンプトキャッシュをセットで導入します。