要約のコスト:Map-Reduce vs シングルコール vs ストリーミング
100,000 トークンの文書を 1,000 トークンに要約する場合、GPT-4o シングルコールで $0.26、GPT-4o mini Map-Reduce で $0.05。アーキテクチャ選択が効きます。
Workload patterns
詳細な説明
3つのアーキテクチャ
GPT-4o で 100K トークン文書を 1K トークン要約に:
1. シングルコール(文書全体 → 要約)
- 入力: 100K × $2.50/1M = $0.250
- 出力: 1K × $10/1M = $0.010
- 合計: $0.260
制約: 文書がモデルのコンテキストウィンドウに収まる必要があります。GPT-4o は 100K で OK(128K 上限)。Claude も 100K で OK(200K 上限)。それ以上はチャンク化が必須です。
2. Map-Reduce(チャンク → チャンク要約 → 最終要約)
5K トークン × 20 チャンクに分割し、それぞれを 200 トークンに要約してから20要約をさらに要約:
- Map ステップ: 20 × (5K入力 + 200出力) を GPT-4o mini で:
- 入力: 100K × $0.15/1M = $0.015
- 出力: 4K × $0.60/1M = $0.0024
- Reduce ステップ: 1 × (4K入力 + 1K出力) を GPT-4o で:
- 入力: 4K × $2.50/1M = $0.010
- 出力: 1K × $10/1M = $0.010
合計: $0.037 — シングルコールの 約7倍安価。
3. ローリングウィンドウのストリーミング
文書を順次処理し、5,000 トークンの新規チャンクごとに更新する 2,000 トークンのローリング要約を保持:
- 20チャンク × (2K rolling + 5K new + 2K updated rolling) を GPT-4o mini で:
- 入力: 20 × 7K × $0.15/1M = $0.021
- 出力: 20 × 2K × $0.60/1M = $0.024
- 合計: $0.045
品質トレードオフ
- シングルコール:最高品質、文書横断パターンを一度に把握できる。
- Map-Reduce:シングルコール品質の約85%、並列実行可能(20の Map 呼び出しを並列で)。
- ストリーミング:シングルコール品質の約75%、文書が逐次到着する場合に有用。
判断マトリクス
| 文書サイズ | 最適アーキテクチャ | 備考 |
|---|---|---|
| 50K トークン未満 | シングルコール | コストは丸め誤差レベル |
| 50K〜500K | Map-Reduce | コスト/品質比が最良 |
| 500K 超 | ストリーミング | コンテキスト上限を回避 |
| ライブストリーム | ストリーミング | 到着次第処理 |
ユースケース
要約機能を設計する際に使ってください:文書解析、会議録要約、複数文書からのリサーチ統合、ニュース集約、顧客フィードバックの抽出など。