各LLMのAPI費用・カットオフ時期・ベンチマーク比較

まえがき

LLMのAPI費用、カットオフ時期、ベンチマーク比較について、ChatGPTのDeep Researchで調査しました。
※2025年2月27日時点の情報です。変化が激しい業界のため、最新の数値はご自身でご確認ください。

今後、毎月リサーチを行い、その変化を観察すると面白そうなので、定期的に実施してみます。

API費用の比較

主要なLLMのAPI利用コスト（トークン単価）と月額プランを以下の表にまとめます。トークン単価は1,000トークンあたりの価格で表記し、括弧内に1M（100万）トークンあたりの価格を示しています。月額プランがある場合は併記しています。

モデル	API料金（入力 / 出力）	月額プラン
OpenAI GPT-4 (8K)	$0.03 / $0.06 （$30M / $60M）	ChatGPT Plus $20/月（GPT-4利用可）
OpenAI GPT-4 (32K)	$0.06 / $0.12 （$60M / $120M）	同上
OpenAI GPT-4 o (Omni, 2024)	$0.00375 / $0.015 （$3.75M / $15M）	API専用モデル
OpenAI GPT-3.5 Turbo (16K)	$0.0005 / $0.0015 （$0.5M / $1.5M）	なし（ChatGPT無料版で利用可能）
Anthropic Claude 3.5 (Sonnet)	$0.003 / $0.015 （$3M / $15M）	Claude.ai 無料（制限有） Claude Pro $20/月
Anthropic Claude 3 (Opus)	$0.015 / $0.075 （$15M / $75M）	同上（Proで利用可能）
Anthropic Claude 3 (Haiku)	$0.0008 / $0.004 （$0.8M / $4M）	同上（Proで利用可能）
Google Gemini Ultra 1.0	$0.0005 / $0.0015 （$0.5M / $1.5M）	Google One AIプレミアム $19.99/月
Google Gemini 1.5 Pro	$0.0035～$0.007 / $0.0105～$0.021 （$3.5M～$7M / $10.5M～$21M）	（Workspace向け機能統合）
Google Gemini 2.0 Flash (最新)	$0.0001 / $0.0004 （$0.10M / $0.40M）	（API無料枠・有料枠あり）
Meta LLaMA 2 (70B)	無料（OSS） ※	商用利用は要ライセンス
Meta LLaMA 2 (各種)	（Azure/AWS経由で提供例: ~$0.4M～$0.8M程度） (^[1])	なし
Mistral Nemo 12B	$0.00015 / $0.00015 （$0.15M / $0.15M） (^[2])	無料枠あり (^[3])
Mistral Small 22B	$0.0002 / $0.0006 （$0.2M / $0.6M） (^[2])	無料枠あり
Mistral Large 2 123B	$0.002 / $0.006 （$2M / $6M） (^[2])	無料枠あり
Cohere Command R+ (大型)	$0.0025 / $0.01 （$2.50M / $10M）	フリーティア有 (^[4])
Cohere Command R (標準)	$0.00015 / $0.0006 （$0.15M / $0.60M）	フリーティア有

※MetaのLLaMA2はオープンソースモデルのため、自前でホストする場合は無料です（クラウドサービス経由の場合はそのサービスの従量課金となります）。

各社とも従量課金制（pay-as-you-go）が基本ですが、OpenAIやAnthropic、Googleなどは上記のように月額のサブスクリプションプランも提供しています。OpenAIはChatGPT Plus（月額$20）でGPT-4へのアクセスを提供し、AnthropicはClaude Pro（月額$20）で高性能モデル（OpusやHaiku）の優先利用が可能です。Googleは個別のAPI課金に加え、Google OneのAIプレミアムプラン（月額$19.99）で最上位モデル（Gemini Ultra 1.0）の利用を含めています。MistralやCohereは開発者向けの無料枠を設けつつ、使用量に応じた低価格の料金体系を提供しており、Mistralは最近すべてのモデルで価格を大幅に引き下げました (^[3])。

価格動向: 2023年から2024年にかけて、OpenAIはGPT-4の価格を大幅に値下げし、2024年8月の新モデル(GPT-4 o)では従来の約1/8の価格（入力$3.75M/出力$15M）で提供しています。AnthropicもClaudeの廉価版モデル（Claude 3 Haikuなど）を低価格（$0.8M/$4M）で提供開始しました。GoogleはGemini 2.0で非常に安価な料金（入力$0.10M/出力$0.40M）を設定し、Mistralは開発者向け無料APIと大幅な値下げ（Smallモデルは80%引き）を打ち出しています (^[3])。全体的にLLM利用のコストは低下傾向にあり、特に出力トークン単価は2023年以前に比べ著しく安くなっています（GPT-4出力は当初$0.06/1K→現在$0.015/1Kと4分の1以下）。

知識カットオフ時期の比較

各モデルが学習に用いたデータの知識カットオフ（学習データの最終時期）を比較します。基本的に、LLMはトレーニング終了時点までの情報を知識として保持し、それ以降の出来事は知らないため、このカットオフ時期が重要です（インターネット接続機能がない場合）。

モデル	知識データの最終時期（カットオフ）
OpenAI GPT-3.5	2021年9月頃（ChatGPT公開時点）
OpenAI GPT-4	2021年9月頃（GPT-4 Turboで2023年4月に延長）
Anthropic Claude 2 (2023)	2023年初頭 (^[5])（Claude 1系統はいずれも早期2023年）
Anthropic Claude 3 Haiku	2023年8月 (^[5])（Claude 3世代で更新）
Anthropic Claude 3.5 (Haiku)	2024年7月 (^[5])（最新のClaude 3.5は2024年中盤）
Anthropic Claude 3.7 (Sonnet)	2024年10月 (^[6])（最新モデルは2024年末まで網羅）
Google Bard (PaLM2)	2023年初頭（PaLM 2ベース、Web検索で補完可能）
Google Gemini	2023年11月 (^[4])（Geminiファミリ共通）
Meta LLaMA 2	前訓練データ: 2022年9月 (^[7]) 微調整データ: 2023年7月 (^[8])
Mistral 7B (2023)	2023年前半頃（詳細非公開、公開データ中心）
Mistral Large 2 (2024)	2024年前半頃（詳細非公開、最新モデルのため新しい情報を反映）
Cohere Command R+ (08-2024)	2024年8月 (^[9])（最新版は2024年夏まで網羅）

各社ともモデル世代が進むごとに学習データの新鮮さが増しており、OpenAIはGPT-4 Turboで知識範囲を2023年春まで拡張し、AnthropicはClaude 3.5/3.7で2024年の出来事まで含めています (^[5])。GoogleのGeminiは2023年末までのデータで訓練されており、MetaのLLaMA2は前回の更新（2023年7月の微調整）までを反映しています (^[8])。今後も各モデルの知識カットオフは新モデルやアップデートによって徐々に最新化していく傾向にあります。

補足: 一部のサービスはカットオフ後の情報に対応するため、プラグインやインターネット検索機能を提供します。例えばChatGPTはBrowse機能、BardはGoogle検索連携でリアルタイム情報を補完できます。

ベンチマークスコアの比較推移

LLMの性能を測る指標として、MMLU（知識・推論テスト）, GSM8K（数学的問題）, HumanEval（コード生成テスト）などのベンチマークスコアを比較します。以下の表に主要モデルのスコアを列挙し、過去モデルとの比較も示します（各スコアは正解率％）。太字は各項目で最高性能の値です。

モデル (年)	MMLU (5-shot)	GSM8K (解答正答率)	HumanEval (Python)
GPT-3 (175B, 2020)	約43% (^[10])	<20%（推定）	0%（コード未対応）
GPT-3.5 (ChatGPT, 2022)	70.0% (^[10])	57.1%	48.1%
GPT-4 (2023)	86.4% (^[10])	85–92% (^[11])	67.0%
Claude 2 (2023)	約78.5% (^[10])	88.0%	70.0%
Claude 3.5 (2024)	90%超? (推定・5-shot)	–	–
Google PaLM 2-L (Bard, 2023)	78.4%	80.0%	44.5%
Google Gemini Ultra (2024)	83.7% (5-shot) (^[11]) 90.0% (CoT多数投票) (^[11])	94.4% (多数投票) (^[11])	74.4% (^[11])
Meta LLaMA2 70B (2023)	68.0% (^[12])	56.8%	29.9%
Meta (次世代 Llama3?) (2024)	~80% (推定)	~85% (推定)	~63% (推定)
Mistral 7B (2023)	~65% (推定)	~40% (推定)	0%（コード弱）
Mistral Large 2 123B (2024)	84.0% (^[13])	~80%+ (推定)	85% (複数試行時) (^[13])
Cohere Command R+ (2024)	75% (^[14])	–	–

(^[15])上の表はGoogleの技術レポートから抜粋された各モデルのベンチマーク比較です（MMLUやGSM8Kなど）。この比較によると、最新モデルほど各種ベンチマークで大幅に性能向上していることが分かります。GPT-3.5（ChatGPT）の時点ではMMLU 70%程度でしたが、GPT-4で86%に飛躍し (^[10])、GoogleのGemini Ultraでは工夫次第で90%に達しています (^[15])。数学問題集のGSM8K正解率も、GPT-3.5が50%台だったものがGPT-4で85%、Claude 2で88%、Geminiでは90%超に及びます (^[15])。コード生成（HumanEval）は、GPT-3.5が約48%に対しGPT-4は67%と大幅改善し、Claude 2は71.2% (^[16])とGPT-4を上回りました。Gemini Ultraも74%を達成しており (^[15])、オープンソースのMistral Large 2も工夫次第では85%近くに迫ると報告されています (^[13])。

このように2023年以前 vs 現在(2024-2025)を比較すると、ベンチマーク上の性能は以下のような傾向が見られます。

知識・推論力: MMLUスコアは2021年のGPT-3世代で40-60%台だったものが、2023年GPT-4で80%台後半、最新のClaudeやGeminiで90%前後まで向上 (^[10]) (^[15])。わずか数年で大学レベル試験の正答率が人間専門家に匹敵する水準に達しました。
数学問題: GPT-3では殆ど解けなかった数学文章題も、チェインオブソート等の手法併用でGPT-4は~85%、Gemini Ultraは94.4%と人間並みに解けるようになりました (^[15])。
コード生成: 2021年のCodex（GPT-3派生）が30-40%台だったPython関数合成は、GPT-4で67%、Claude2で71%、最新Geminiで74%に達しています。モデルサイズやデータの増大に伴い大幅な精度向上が起きています。

各LLMのAPI費用・カットオフ時期・ベンチマーク比較

まえがき

API費用の比較

知識カットオフ時期の比較

ベンチマークスコアの比較推移

最新情報と過去データの比較

参考資料

プロフィール