OpenAI APIレート制限とトークンバジェット

GPT-4、GPT-3.5、EmbeddingモデルのOpenAI APIレート制限を理解します。分あたりのトークン数、分あたりのリクエスト数、ティアベースの制限を学びます。

API Limits

詳細な説明

OpenAI APIレート制限

OpenAIは二重レート制限システムを使用しています:**分あたりのリクエスト数(RPM)分あたりのトークン数(TPM)**の両方に同時に制限が適用されます。両方の制限内に収める必要があります。

ティア別レート制限(GPT-4o)

ティア RPM TPM RPD
Free 500 30,000 500
Tier 1 500 30,000 10,000
Tier 2 5,000 450,000
Tier 3 5,000 800,000
Tier 4 10,000 2,000,000
Tier 5 10,000 10,000,000

トークンバジェット

ほとんどのAPIとは異なり、OpenAIの制限は主にトークンベースです。1つのリクエストはプロンプトとレスポンスの長さに応じて100から100,000トークンを使用する可能性があります。

実効RPM = min(RPMリミット, TPMリミット / リクエストあたり平均トークン)

例えば、Tier 1のGPT-4oの場合:

  • RPMリミット:500
  • TPMリミット:30,000
  • 平均リクエストが1,000トークンを使用する場合:実効RPM = min(500, 30) = 30 RPM
  • 平均リクエストが100トークンを使用する場合:実効RPM = min(500, 300) = 300 RPM

最適化戦略

  1. 可能な場合はリクエストをバッチ処理して、リクエストあたりのオーバーヘッドを削減
  2. リクエストでmax_tokensを制限して、トークン使用量の暴走を防止
  3. ストリーミングを使用して、完了前にレスポンスの処理を開始
  4. リクエスト送信前にクライアントサイドでトークンカウントを実装(tiktokenライブラリを使用)
  5. 推定トークンコストに基づいてリクエストをキューイングとスロットリング

ユースケース

Tier 2のGPT-4oを使用してカスタマーサポートチャットボットを構築しています。各顧客インタラクションは平均2,000トークン(プロンプト+レスポンス)です。サポートできる同時チャットセッション数とピーク負荷時に何が起こるかを計算する必要があります。

試してみる — Rate Limit Calculator

フルツールを開く