バッチ処理:OpenAI / Anthropic Batch API で 50% オフ
OpenAI と Anthropic は最大24時間 SLA で50%オフのバッチエンドポイントを提供。リアルタイムでないワークロード(タグ付け、分類、エンリッチメント)では実質「タダ金」。
Operational
詳細な説明
バッチ割引
OpenAI と Anthropic はリアルタイムでないワークロード向けに大幅割引のバッチ API を提供しています:
| プロバイダー | 割引 | 最大待機時間 | ファイルサイズ上限 |
|---|---|---|---|
| OpenAI Batch | 50% オフ | 24時間 | 100 MB / 50K リクエスト |
| Anthropic Batch | 50% オフ | 24時間 | 100 MB / 100K リクエスト |
GPT-4o の 1M トークン入力は $2.50 から $1.25 に。Claude Sonnet 4.6 の 1M トークン入力は $3.00 から $1.50 に。
対象になるワークロード
- バックフィル / 1回限りの移行:過去のユーザーコンテンツをタグ付け、古いコーパスの Embedding 生成、静的ナレッジベースの翻訳。
- 日次バッチジョブ:前日のサポートチケットを夜間要約、週次の顧客セグメント分析。
- 非同期エンリッチメント:新商品がカタログに追加 → 24時間以内に SEO 説明文・alt-text・関連商品をバッチ生成。
- 評価ラン:オフラインベンチマークで5万件のモデル出力をルーブリック採点。
対象外のワークロード
- 同セッション内でユーザーに見えるもの全般。
- 数秒以内のレスポンスが必要な webhook。
- ライブチャット / エージェントループ。
- リアルタイムコンテンツモデレーション。
ハイブリッドアーキテクチャ
多くの本番システムは両方を併用します:
- ホットパス(同期):チャット UI、入力中検索、リアルタイム推薦 → リアルタイム API。
- コールドパス(非同期):夜間エンリッチメント、週次レポート、月次モデル性能監査 → バッチ API。
コールドパスが総トークン量を支配するケースが多く、バッチに移すだけで全体請求を 30〜50% 削減できる場合があります(ユーザー体験への影響ゼロ)。
実装コスト
両 API とも JSONL ファイルアップロード + ポーリングが必要です。OpenAI Python SDK、Anthropic Python/TS SDK ともに一級サポートがあり、通常 30〜50 行のコードで統合できます。
24時間が長すぎる場合
OpenAI には今のところ「ファストバッチ」階層がなく、選択肢は「50%オフ + 24時間」か「定価 + 数秒」のみです。Anthropic のバッチも同様の上限があります。1時間遅延での割引が必要なら、プロバイダー営業との直接交渉でカスタム価格を設定するしかなく、通常は月 $50K 以上のコミット支出があれば実現可能です。
ユースケース
意味のあるボリュームのリアルタイムでない LLM ワークロードがあれば常に使ってください。Embedding バックフィル、コンテンツタグ付け、定期分析、評価パイプライン、オフラインデータエンリッチメント。