Embedding コスト比較:text-embedding-3-small vs Cohere vs Voyage

Embedding はチャットとは別の価格体系。text-embedding-3-small が $0.02/1M で、多言語対応が必要でない限り大半のRAGパイプラインで圧勝する理由を解説。

Model comparison

詳細な説明

Embedding はまったく別の価格世界

チャットモデルは入力 + 出力トークンに課金しますが、Embedding モデルは入力のみで、補完がありません。単価も1桁違います:

モデル $/1M トークン 次元数
OpenAI text-embedding-3-small $0.020 1536
OpenAI text-embedding-3-large $0.130 3072
Cohere embed-v3 multilingual $0.100 1024
Voyage voyage-3 $0.060 1024
Cohere embed-v3 light $0.020 384
Gemini text-embedding-004 無料(制限あり) 768

10,000,000 トークン(約750万語、中規模エンジニアリング Wiki 程度)のナレッジベースを text-embedding-3-small で1回 Embedding するコストは $0.20。四半期に1回再 Embedding しても実質無料です。

上位モデルが必要な場面

  • 多言語検索:コーパスやクエリに複数言語が混在する場合、Cohere multilingual と Voyage が OpenAI を上回ります。
  • コード検索:Voyage のコード特化版がセマンティックコード検索で text-embedding-3-small より高精度です。
  • レイテンシ重視:1536次元の text-embedding-3-small は 3072次元の large より検索時に2倍速く、多くのベンチマークで関連度の差はわずかです。

ストレージ考慮事項

Embedding コストは API 呼び出しだけではありません。fp32 で1次元あたり4バイトです。10M トークン ÷ 1.5 トークン/チャンク = 6.7M チャンク × 1536次元 = 約40 GB を fp32 で消費します。Pinecone、Qdrant、Chroma はいずれも fp16 / int8 の量子化に対応しており、2〜4倍の削減が可能です。

再計算頻度

コーパス全体の再 Embedding が必要なのは Embedding モデルそのものが変わったとき(稀)か、ベクトル DB を移行するときだけです。新規ドキュメントの追加は同じトークン単価で増分更新されます。

ユースケース

RAG パイプラインの Embedding ステップを設計するとき、ベクトル DB プロバイダーを比較するとき、より高価な多言語プロバイダーではなく OpenAI を選ぶ理由を説明するときに使ってください。

試してみるプロンプト トークン費用計算ツール

フルツールを開く