要約のコスト:Map-Reduce vs シングルコール vs ストリーミング

100,000 トークンの文書を 1,000 トークンに要約する場合、GPT-4o シングルコールで $0.26、GPT-4o mini Map-Reduce で $0.05。アーキテクチャ選択が効きます。

Workload patterns

詳細な説明

3つのアーキテクチャ

GPT-4o で 100K トークン文書を 1K トークン要約に:

1. シングルコール(文書全体 → 要約)

  • 入力: 100K × $2.50/1M = $0.250
  • 出力: 1K × $10/1M = $0.010
  • 合計: $0.260

制約: 文書がモデルのコンテキストウィンドウに収まる必要があります。GPT-4o は 100K で OK(128K 上限)。Claude も 100K で OK(200K 上限)。それ以上はチャンク化が必須です。

2. Map-Reduce(チャンク → チャンク要約 → 最終要約)

5K トークン × 20 チャンクに分割し、それぞれを 200 トークンに要約してから20要約をさらに要約:

  • Map ステップ: 20 × (5K入力 + 200出力) を GPT-4o mini で:
    • 入力: 100K × $0.15/1M = $0.015
    • 出力: 4K × $0.60/1M = $0.0024
  • Reduce ステップ: 1 × (4K入力 + 1K出力) を GPT-4o で:
    • 入力: 4K × $2.50/1M = $0.010
    • 出力: 1K × $10/1M = $0.010

合計: $0.037 — シングルコールの 約7倍安価

3. ローリングウィンドウのストリーミング

文書を順次処理し、5,000 トークンの新規チャンクごとに更新する 2,000 トークンのローリング要約を保持:

  • 20チャンク × (2K rolling + 5K new + 2K updated rolling) を GPT-4o mini で:
    • 入力: 20 × 7K × $0.15/1M = $0.021
    • 出力: 20 × 2K × $0.60/1M = $0.024
  • 合計: $0.045

品質トレードオフ

  • シングルコール:最高品質、文書横断パターンを一度に把握できる。
  • Map-Reduce:シングルコール品質の約85%、並列実行可能(20の Map 呼び出しを並列で)。
  • ストリーミング:シングルコール品質の約75%、文書が逐次到着する場合に有用。

判断マトリクス

文書サイズ 最適アーキテクチャ 備考
50K トークン未満 シングルコール コストは丸め誤差レベル
50K〜500K Map-Reduce コスト/品質比が最良
500K 超 ストリーミング コンテキスト上限を回避
ライブストリーム ストリーミング 到着次第処理

ユースケース

要約機能を設計する際に使ってください:文書解析、会議録要約、複数文書からのリサーチ統合、ニュース集約、顧客フィードバックの抽出など。

試してみるプロンプト トークン費用計算ツール

フルツールを開く