LLMトークンカウンター & APIコスト計算

プロンプトや出力テキストを貼り付けて、Claude、GPT、Geminiモデル間のトークン数とAPIコストを見積もります。

このツールについて

LLMのAPIを呼び出す機能をリリースして、翌月の請求書が予想の3倍になっていた経験はありませんか。たった一つの冗長なシステムプロンプトや切り詰め忘れたドキュメントが、月50ドルのプロトタイプを500ドルの想定外の出費に変えてしまいます。このツールは、そうした問題を本番環境に到達する前に発見するためのものです。

任意のテキスト(システムプロンプト、Few-shotの例文ブロック、完全なドキュメントなど)を貼り付けると、複数のモデルのトークン数と推定コストが並べて表示されます。対応プロバイダーは Claude(Opus、Sonnet、Haiku)、GPT-4oGPT-4o miniGemini 1.5 Pro / Flash です。入力と出力の料金が別々に表示されるため、実際のリクエスト/レスポンスのペアを正確にモデリングできます。

精度について正直に説明します。このツールは各プロバイダーの正確なトークナイザーを実行するのではなく、文字ベースのヒューリスティックでトークン数を近似しています。英語テキストの場合、推定値は通常、実際のカウントの5-10%以内に収まります。日本語・中国語・韓国語(CJK)テキストはトークン化効率が低いため、これらの文字には高いトークン/文字比率を適用しています。予算策定やモデル比較には十分な精度ですが、請求照合に正確な数値が必要な場合は、OpenAIのtiktokenやAnthropicのトークンカウントAPIなどの公式ツールをご利用ください。

Word Counterと組み合わせれば、人間が読む文字数とマシンコストを同時に把握できます。構造化データを含むプロンプトを構築している場合は、JSON Formatterでペイロードを圧縮してから貼り付けると、文字数削減がトークン削減につながることが多いです。プロンプトの生バイト長を確認するには、String Length Calculatorがコンテキストウィンドウの上限に近い場合に役立ちます。

コスト削減の実用的なヒント: プロバイダーが対応していればプロンプトキャッシングを有効にしましょう。AnthropicとOpenAIはキャッシュされたプロンプト読み取りを標準入力価格の最大90%引きで提供しており、システムプロンプトがリクエスト間で同じ場合に大きな節約になります。レイテンシに敏感でないワークロードには、両プロバイダーとも標準価格の約50%引きのバッチAPIを提供しています。それ以外にも、コンテキストドキュメントから不要な空白を除去する、品質要件を満たす最安のモデルを選ぶことが重要です。HaikuやGPT-4o miniは分類や抽出タスクを大規模モデルの数分の一のコストでこなせます。各モデルのコンテキストウィンドウ上限にも注意してください。Claudeは最大200Kトークン、GPT-4oは最大128K、Geminiは最大1Mまで対応しています。

すべての処理はブラウザ内で完結します。テキストがサーバーに送信されることは一切なく、API呼び出し、ログ記録、テレメトリもありません。タブを閉じればデータは消えます。

使い方

  1. 入力エリアにテキストを貼り付けるか入力します。システムプロンプト、ユーザーメッセージ、ドキュメントなど、LLMに送信予定の任意のコンテンツが対象です。
  2. 入力に応じてトークン数とコスト見積もりが即座に更新されます。ボタンを押す必要はありません。
  3. モデル比較テーブルで各プロバイダーの推定トークン数とリクエスト単価を確認します。
  4. 入力出力の料金モードを切り替えて、プロンプト側とコンプリーション側のコストをそれぞれ見積もります(ほとんどのモデルで出力トークンの方が高額です)。
  5. トークン数スライダーを調整するか数値を手入力して、出力側の想定レスポンス長をモデリングします。
  6. Copy をクリックするか Ctrl+Shift+C でコスト内訳をクリップボードにコピーして共有や文書化に使えます。
  7. Clear ボタンで入力をリセットし、新しい見積もりを開始します。

よくある質問

データは安全ですか?

はい。トークンカウントは文字ベースの推定アルゴリズムを使用してブラウザ内で完全に処理されます。OpenAI、Anthropic、Google、その他いかなるサービスへのAPI呼び出しも行いません。テキストがマシンの外に出ることは一切ありません。ブラウザのDevToolsのNetworkタブを開くと、ツール使用中に送信リクエストがゼロであることを確認できます。

トークン数はどの程度正確ですか?

このツールは各プロバイダーの実際のトークナイザー(OpenAIのtiktokenなど)を実行するのではなく、文字からトークンへのヒューリスティックを使用しています。標準的な英語散文では、推定値は通常実際のカウントの10-15%以内です。コード、URL、JSON中心のコンテンツでは20-30%程度ずれることもあります。コスト予算策定やモデル比較には十分な信頼性がありますが、正確な請求照合には適しません。

同じテキストでもモデルによってトークン数が違うのはなぜですか?

各LLMプロバイダーは独自の語彙を持つ異なるトークナイザーを使用しています。GPT-4oはo200k_baseトークナイザー、Claudeは独自のトークナイザー、GeminiはSentencePieceを使用します。あるシステムで1トークンの単語が、別のシステムでは2トークンに分割されることがあります。このツールはプロバイダー固有の比率を適用してこれらの違いを近似しています。

日本語テキストのトークン数はどう計算されますか?

日本語(およびCJK全般)の文字は、ほとんどのLLMトークナイザーでラテン文字よりも効率が低くトークン化されます。1つの日本語文字がモデルによっては2-3トークンになることがあります。このツールはCJK文字範囲を検出し、それらのセグメントに高いトークン/文字比率を適用することで、単純な単語数除算よりも現実的な見積もりを提供します。

料金データは最新ですか?

料金はツール最終更新時点の公式公開レートに基づいてハードコードされています。LLMプロバイダーは定期的に料金を変更します(例: OpenAIはGPT-4oの料金をリリース以降何度も引き下げています)。正確な現行レートが必要な場合はプロバイダーの公式料金ページをご確認ください。絶対値が変動しても、モデル間の相対的なコスト比較は引き続き有用です。

複数ターンの会話全体のコストを見積もれますか?

このツールは一度に1つのテキストブロックのコストを推定します。複数ターンの会話では、各API呼び出しが会話履歴全体を入力トークンとして送信することを覚えておいてください。完全な会話コンテキスト(システムプロンプト+過去の全ターン)を貼り付けて累積入力コストを取得し、想定レスポンス長に対する出力コストは別途見積もってください。

入力トークンと出力トークンの料金の違いは何ですか?

ほとんどのLLMプロバイダーは入力トークン(プロンプト)と出力トークン(モデルの応答)に異なる料金を設定しています。出力トークンは通常、入力トークンの3-5倍高額です。生成には読み取りよりも多くの計算が必要なためです。最新の料金はプロバイダーの公式ページをご確認ください(頻繁に変更されます)。このツールでは入力と出力の料金を切り替えてリクエストの両面をモデリングできます。

関連ツール