バッチ処理:OpenAI / Anthropic Batch API で 50% オフ

OpenAI と Anthropic は最大24時間 SLA で50%オフのバッチエンドポイントを提供。リアルタイムでないワークロード(タグ付け、分類、エンリッチメント)では実質「タダ金」。

Operational

詳細な説明

バッチ割引

OpenAI と Anthropic はリアルタイムでないワークロード向けに大幅割引のバッチ API を提供しています:

プロバイダー 割引 最大待機時間 ファイルサイズ上限
OpenAI Batch 50% オフ 24時間 100 MB / 50K リクエスト
Anthropic Batch 50% オフ 24時間 100 MB / 100K リクエスト

GPT-4o の 1M トークン入力は $2.50 から $1.25 に。Claude Sonnet 4.6 の 1M トークン入力は $3.00 から $1.50 に。

対象になるワークロード

  • バックフィル / 1回限りの移行:過去のユーザーコンテンツをタグ付け、古いコーパスの Embedding 生成、静的ナレッジベースの翻訳。
  • 日次バッチジョブ:前日のサポートチケットを夜間要約、週次の顧客セグメント分析。
  • 非同期エンリッチメント:新商品がカタログに追加 → 24時間以内に SEO 説明文・alt-text・関連商品をバッチ生成。
  • 評価ラン:オフラインベンチマークで5万件のモデル出力をルーブリック採点。

対象外のワークロード

  • 同セッション内でユーザーに見えるもの全般。
  • 数秒以内のレスポンスが必要な webhook。
  • ライブチャット / エージェントループ。
  • リアルタイムコンテンツモデレーション。

ハイブリッドアーキテクチャ

多くの本番システムは両方を併用します:

  • ホットパス(同期):チャット UI、入力中検索、リアルタイム推薦 → リアルタイム API。
  • コールドパス(非同期):夜間エンリッチメント、週次レポート、月次モデル性能監査 → バッチ API。

コールドパスが総トークン量を支配するケースが多く、バッチに移すだけで全体請求を 30〜50% 削減できる場合があります(ユーザー体験への影響ゼロ)。

実装コスト

両 API とも JSONL ファイルアップロード + ポーリングが必要です。OpenAI Python SDK、Anthropic Python/TS SDK ともに一級サポートがあり、通常 30〜50 行のコードで統合できます。

24時間が長すぎる場合

OpenAI には今のところ「ファストバッチ」階層がなく、選択肢は「50%オフ + 24時間」か「定価 + 数秒」のみです。Anthropic のバッチも同様の上限があります。1時間遅延での割引が必要なら、プロバイダー営業との直接交渉でカスタム価格を設定するしかなく、通常は月 $50K 以上のコミット支出があれば実現可能です。

ユースケース

意味のあるボリュームのリアルタイムでない LLM ワークロードがあれば常に使ってください。Embedding バックフィル、コンテンツタグ付け、定期分析、評価パイプライン、オフラインデータエンリッチメント。

試してみるプロンプト トークン費用計算ツール

フルツールを開く