OpenAI APIレート制限とトークンバジェット
GPT-4、GPT-3.5、EmbeddingモデルのOpenAI APIレート制限を理解します。分あたりのトークン数、分あたりのリクエスト数、ティアベースの制限を学びます。
API Limits
詳細な説明
OpenAI APIレート制限
OpenAIは二重レート制限システムを使用しています:**分あたりのリクエスト数(RPM)と分あたりのトークン数(TPM)**の両方に同時に制限が適用されます。両方の制限内に収める必要があります。
ティア別レート制限(GPT-4o)
| ティア | RPM | TPM | RPD |
|---|---|---|---|
| Free | 500 | 30,000 | 500 |
| Tier 1 | 500 | 30,000 | 10,000 |
| Tier 2 | 5,000 | 450,000 | — |
| Tier 3 | 5,000 | 800,000 | — |
| Tier 4 | 10,000 | 2,000,000 | — |
| Tier 5 | 10,000 | 10,000,000 | — |
トークンバジェット
ほとんどのAPIとは異なり、OpenAIの制限は主にトークンベースです。1つのリクエストはプロンプトとレスポンスの長さに応じて100から100,000トークンを使用する可能性があります。
実効RPM = min(RPMリミット, TPMリミット / リクエストあたり平均トークン)
例えば、Tier 1のGPT-4oの場合:
- RPMリミット:500
- TPMリミット:30,000
- 平均リクエストが1,000トークンを使用する場合:実効RPM = min(500, 30) = 30 RPM
- 平均リクエストが100トークンを使用する場合:実効RPM = min(500, 300) = 300 RPM
最適化戦略
- 可能な場合はリクエストをバッチ処理して、リクエストあたりのオーバーヘッドを削減
- リクエストでmax_tokensを制限して、トークン使用量の暴走を防止
- ストリーミングを使用して、完了前にレスポンスの処理を開始
- リクエスト送信前にクライアントサイドでトークンカウントを実装(
tiktokenライブラリを使用) - 推定トークンコストに基づいてリクエストをキューイングとスロットリング
ユースケース
Tier 2のGPT-4oを使用してカスタマーサポートチャットボットを構築しています。各顧客インタラクションは平均2,000トークン(プロンプト+レスポンス)です。サポートできる同時チャットセッション数とピーク負荷時に何が起こるかを計算する必要があります。