AI Models Leaderboard

/

Filters:

Model ↕	Creator ↕	Context Window ↕	Intelligence ↓ⓘ	Price ($/M) ↕ⓘ	Speed (Tokens/s) ↕	Latency (First Chunk s) ↕	End-to-End Response (s) ↕
Claude Opus 5 (max) claude-opus-5-max	Anthropic	1M	61.00	$2.03/M	54 tok/s	50.61 s	59.92 s
Claude Opus 5 (xhigh) claude-opus-5-xhigh	Anthropic	1M	60.00	$1.56/M	51 tok/s	39.35 s	49.16 s
Claude Fable 5 (with fallback) claude-fable-5-with-fallback	Anthropic	1M	60.00	$2.75/M	73 tok/s	123.99 s	130.83 s
GPT-5.6 Sol (max) gpt-5-6-sol-max	OpenAI	1M	59.00	$1.54/M	71 tok/s	143.85 s	150.94 s
Claude Opus 5 (high) claude-opus-5-high	Anthropic	1M	59.00	$1.06/M	50 tok/s	13.61 s	23.62 s
GPT-5.6 Sol (xhigh) gpt-5-6-sol-xhigh	OpenAI	1M	58.00	$0.94/M	69 tok/s	33.92 s	41.22 s
Kimi K3 kimi-k3	Kimi	1.1M	57.00	$0.72/M	32 tok/s	4.44 s	81.51 s
Claude Opus 5 (medium) claude-opus-5-medium	Anthropic	1M	56.00	$0.62/M	47 tok/s	5.78 s	16.35 s
GPT-5.6 Sol (high) gpt-5-6-sol-high	OpenAI	1M	56.00	$0.62/M	68 tok/s	11.58 s	18.95 s
GPT-5.6 Terra (max) gpt-5-6-terra-max	OpenAI	1M	55.00	$0.78/M	139 tok/s	163.13 s	166.73 s
Grok 4.5 (high) grok-4-5-high	SpaceXAI	500k	54.00	$0.35/M	52 tok/s	8.10 s	17.71 s
GPT-5.6 Sol (medium) gpt-5-6-sol-medium	OpenAI	1M	54.00	$0.41/M	71 tok/s	4.13 s	11.19 s
Claude Sonnet 5 (max) claude-sonnet-5-max	Anthropic	1M	53.00	$1.53/M	75 tok/s	148.26 s	154.94 s
GPT-5.6 Terra (xhigh) gpt-5-6-terra-xhigh	OpenAI	1M	52.00	$0.45/M	125 tok/s	12.60 s	16.61 s
GPT-5.6 Luna (max) gpt-5-6-luna-max	OpenAI	1M	51.00	$0.29/M	197 tok/s	124.31 s	126.85 s
GLM-5.2 (max) glm-5-2-max	Z AI	1M	51.00	$0.27/M	198 tok/s	1.36 s	13.98 s
Muse Spark 1.1 (xhigh) muse-spark-1-1-xhigh	Meta	1.1M	51.00	$0.26/M	129 tok/s	1.67 s	21.01 s
Claude Opus 5 (low) claude-opus-5-low	Anthropic	1M	51.00	$0.36/M	48 tok/s	3.03 s	13.47 s
Gemini 3.5 Flash gemini-3-5-flash	Google	1M	50.00	$0.59/M	195 tok/s	22.56 s	25.13 s
Gemini 3.6 Flash gemini-3-6-flash	Google	1M	50.00	$0.50/M	236 tok/s	14.79 s	16.91 s
GPT-5.6 Sol (low) gpt-5-6-sol-low	OpenAI	1M	49.00	$0.24/M	66 tok/s	3.48 s	11.10 s
GPT-5.6 Luna (xhigh) gpt-5-6-luna-xhigh	OpenAI	1M	49.00	$0.19/M	189 tok/s	37.54 s	40.19 s
GPT-5.6 Terra (high) gpt-5-6-terra-high	OpenAI	1M	49.00	$0.32/M	113 tok/s	1.97 s	6.41 s
Gemini 3.1 Pro Preview gemini-3-1-pro-preview	Google	1M	46.00	$0.29/M	121 tok/s	33.70 s	37.82 s
GPT-5.6 Luna (high) gpt-5-6-luna-high	OpenAI	1M	46.00	$0.13/M	203 tok/s	7.33 s	9.80 s
Qwen3.7 Max qwen3-7-max	Alibaba	1M	46.00	$1.03/M	202 tok/s	2.56 s	16.94 s
GPT-5.6 Terra (medium) gpt-5-6-terra-medium	OpenAI	1M	46.00	$0.17/M	117 tok/s	1.54 s	5.82 s
Gemini 3.5 Flash (medium) gemini-3-5-flash-medium	Google	1M	45.00	—	187 tok/s	17.96 s	20.63 s
MiniMax-M3 minimax-m3	MiniMax	1M	44.00	$0.12/M	83 tok/s	1.46 s	31.57 s
DeepSeek V4 Pro (max) deepseek-v4-pro-max	DeepSeek	1M	44.00	$0.04/M	73 tok/s	1.53 s	68.12 s
GPT-5.3 Codex (xhigh) gpt-5-3-codex-xhigh	OpenAI	400k	44.00	—	123 tok/s	67.98 s	72.03 s
Motif 3 (Beta) motif-3-beta	Motif Technologies	262k	44.00	—	—	—	—
DeepSeek V4 Pro (high) deepseek-v4-pro-high	DeepSeek	1M	43.00	$0.04/M	72 tok/s	1.57 s	36.18 s
Muse Spark muse-spark	Meta	262k	43.00	—	—	—	—
MiMo-V2.5-Pro mimo-v2-5-pro	Xiaomi	1M	42.00	$0.04/M	64 tok/s	3.20 s	42.34 s
Kimi K2.7 Code kimi-k2-7-code	Kimi	256k	42.00	$0.20/M	39 tok/s	2.93 s	73.40 s
Claude Sonnet 5 (Non-reasoning) claude-sonnet-5-non-reasoning	Anthropic	1M	42.00	$0.37/M	62 tok/s	1.22 s	9.34 s
Hy3 hy3	Tencent	256k	41.00	$0.03/M	62 tok/s	2.64 s	43.14 s
GPT-5.6 Sol (Non-reasoning) gpt-5-6-sol-non-reasoning	OpenAI	1M	41.00	$0.26/M	67 tok/s	0.97 s	8.45 s
Nex-N2-Pro nex-n2-pro	Nex AGI	262k	41.00	—	131 tok/s	1.77 s	20.86 s
Inkling inkling	Thinking Machines	1M	41.00	—	83 tok/s	1.76 s	31.74 s
GPT-5.6 Terra (low) gpt-5-6-terra-low	OpenAI	1M	40.00	$0.15/M	124 tok/s	1.29 s	5.32 s
DeepSeek V4 Flash (max) deepseek-v4-flash-max	DeepSeek	1M	40.00	$0.02/M	117 tok/s	1.26 s	53.58 s
Qwen3.6 Plus qwen3-6-plus	Alibaba	1M	40.00	$0.31/M	53 tok/s	2.51 s	116.45 s
Qwen3.7 Plus qwen3-7-plus	Alibaba	1M	39.00	$0.21/M	53 tok/s	2.85 s	50.06 s
JT-4.1 Flash 236B A21B jt-4-1-flash-236b-a21b	China Mobile	256k	39.00	—	—	—	—
Agnes 2.5 Pro Alpha agnes-2-5-pro-alpha	Sapiens AI	1M	39.00	—	95 tok/s	1.66 s	27.88 s
GPT-5.6 Luna (medium) gpt-5-6-luna-medium	OpenAI	1M	38.00	$0.07/M	194 tok/s	1.99 s	4.57 s
Nemotron 3 Ultra nemotron-3-ultra	NVIDIA	262k	38.00	$0.38/M	187 tok/s	1.16 s	16.03 s
DeepSeek V4 Flash (high) deepseek-v4-flash-high	DeepSeek	1M	37.00	$0.05/M	—	—	—
MiMo-V2.5 mimo-v2-5	Xiaomi	1M	37.00	$0.01/M	75 tok/s	3.63 s	36.75 s
Qwen3.6 27B qwen3-6-27b	Alibaba	262k	37.00	$0.27/M	56 tok/s	3.66 s	114.75 s
Gemini 3.5 Flash-Lite gemini-3-5-flash-lite	Google	1M	36.00	$0.09/M	409 tok/s	7.79 s	9.01 s
MiMo-V2-Omni-0327 mimo-v2-omni-0327	Xiaomi	256k	36.00	—	—	—	—
Grok 4.3 (medium) grok-4-3-medium	SpaceXAI	1M	36.00	—	112 tok/s	10.86 s	15.31 s
Grok 4.3 (low) grok-4-3-low	SpaceXAI	1M	35.00	—	106 tok/s	5.65 s	10.36 s
MiMo-V2-Omni mimo-v2-omni	Xiaomi	256k	35.00	—	—	—	—
Gemini 3.5 Flash (minimal) gemini-3-5-flash-minimal	Google	1M	35.00	—	149 tok/s	0.94 s	4.29 s
Kimi K2.6 kimi-k2-6	Kimi	256k	35.00	—	37 tok/s	2.90 s	16.43 s
Claude Sonnet 4.6 (Non-reasoning, Low Effort) claude-sonnet-4-6-non-reasoning-low-effort	Anthropic	1M	34.00	—	42 tok/s	1.26 s	13.04 s
GLM-5.2 glm-5-2	Z AI	1M	34.00	—	87 tok/s	1.55 s	7.30 s
GPT-5.6 Terra (Non-reasoning) gpt-5-6-terra-non-reasoning	OpenAI	1M	34.00	$0.17/M	125 tok/s	0.72 s	4.72 s
KAT-Coder-Pro V2 kat-coder-pro-v2	KwaiKAT	256k	34.00	—	105 tok/s	1.47 s	6.23 s
Qwen3.5 397B A17B qwen3-5-397b-a17b	Alibaba	262k	34.00	$0.33/M	73 tok/s	2.31 s	52.69 s
Hy3-preview hy3-preview	Tencent	256k	34.00	—	155 tok/s	3.27 s	19.40 s
LongCat 2.0 longcat-2-0	LongCat	1M	33.00	$0.11/M	41 tok/s	2.72 s	63.50 s
GPT-5.6 Luna (low) gpt-5-6-luna-low	OpenAI	1M	33.00	$0.06/M	179 tok/s	1.54 s	4.33 s
MiMo-V2-Flash (Feb 2026) mimo-v2-flash-feb-2026	Xiaomi	256k	33.00	—	—	—	—
Qwen3.5 122B A10B qwen3-5-122b-a10b	Alibaba	262k	32.00	$0.24/M	133 tok/s	2.32 s	21.09 s
Qwen3.5 397B A17B qwen3-5-397b-a17b	Alibaba	262k	32.00	—	70 tok/s	2.27 s	9.43 s
Qwen3.6 35B A3B qwen3-6-35b-a3b	Alibaba	262k	32.00	$0.18/M	151 tok/s	2.24 s	41.29 s
DeepSeek V4 Pro deepseek-v4-pro	DeepSeek	1M	31.00	—	71 tok/s	1.57 s	8.59 s
Qwen3.5 Omni Plus qwen3-5-omni-plus	Alibaba	256k	31.00	—	53 tok/s	2.41 s	11.87 s
Ring-2.6-1T ring-2-6-1t	InclusionAI	262k	31.00	$0.35/M	120 tok/s	3.21 s	23.97 s
Qwen3.6 27B qwen3-6-27b	Alibaba	262k	30.00	$0.36/M	56 tok/s	3.65 s	12.64 s
o3 o3	OpenAI	200k	30.00	—	128 tok/s	5.73 s	9.64 s
Step 3.7 Flash step-3-7-flash	StepFun	262k	30.00	$0.09/M	400 tok/s	0.92 s	7.17 s
Mistral Medium 3.5 mistral-medium-3-5	Mistral	256k	30.00	$0.56/M	75 tok/s	1.95 s	35.33 s
Claude 4.5 Haiku claude-4-5-haiku	Anthropic	200k	30.00	$0.24/M	100 tok/s	14.57 s	19.57 s
Gemma 4 31B gemma-4-31b	Google	256k	29.00	$0.00/M	35 tok/s	1.12 s	65.11 s
GPT-5.5 Instant (June 2026) gpt-5-5-instant-june-2026	OpenAI	400k	29.00	$0.54/M	—	—	—
DeepSeek V4 Flash deepseek-v4-flash	DeepSeek	1M	29.00	—	113 tok/s	1.19 s	5.62 s
JT-35B-Flash jt-35b-flash	China Mobile	256k	28.00	—	—	—	—
KAT-Coder-Pro V1 kat-coder-pro-v1	KwaiKAT	256k	28.00	—	—	—	—
MiMo-V2.5-Pro mimo-v2-5-pro	Xiaomi	1M	28.00	—	62 tok/s	2.58 s	10.62 s
Qwen3.5 122B A10B qwen3-5-122b-a10b	Alibaba	262k	28.00	$0.18/M	150 tok/s	2.35 s	5.68 s
GPT-5.6 Luna (Non-reasoning) gpt-5-6-luna-non-reasoning	OpenAI	1M	27.00	$0.08/M	180 tok/s	0.73 s	3.51 s
Hy3-preview hy3-preview	Tencent	256k	26.00	—	164 tok/s	3.16 s	6.21 s
Ling-2.6-1T ling-2-6-1t	InclusionAI	262k	26.00	—	—	—	—
Doubao Seed Code doubao-seed-code	ByteDance Seed	256k	26.00	—	—	—	—
Gemini 2.5 Pro gemini-2-5-pro	Google	1M	26.00	$0.20/M	144 tok/s	22.27 s	25.75 s
Gemma 4 26B A4B gemma-4-26b-a4b	Google	256k	26.00	$0.04/M	—	—	—
NVIDIA Nemotron 3 Super nvidia-nemotron-3-super	NVIDIA	1M	25.00	$0.20/M	153 tok/s	1.70 s	18.08 s
Gemini 3.1 Flash-Lite gemini-3-1-flash-lite	Google	1M	25.00	$0.04/M	331 tok/s	5.85 s	7.36 s
Grok 4.3 (Non-reasoning) grok-4-3-non-reasoning	SpaceXAI	1M	25.00	$0.29/M	110 tok/s	0.75 s	5.30 s
MiMo-V2-Flash mimo-v2-flash	Xiaomi	256k	25.00	—	—	—	—
Qwen3.6 35B A3B qwen3-6-35b-a3b	Alibaba	262k	24.00	$0.60/M	173 tok/s	2.26 s	5.15 s
Qwen3.5 35B A3B qwen3-5-35b-a3b	Alibaba	262k	24.00	$0.23/M	157 tok/s	2.29 s	5.48 s
gpt-oss-120b (high) gpt-oss-120b-high	OpenAI	131k	24.00	$0.06/M	261 tok/s	0.82 s	10.40 s
Claude 4.5 Haiku claude-4-5-haiku	Anthropic	200k	24.00	—	91 tok/s	1.06 s	6.53 s
Command A+ command-a	Cohere	192k	23.00	$0.00/M	200 tok/s	0.41 s	12.94 s
K-EXAONE k-exaone	LG AI Research	256k	22.00	—	—	—	—
ERNIE 5.0 Thinking Preview ernie-5-0-thinking-preview	Baidu	128k	22.00	—	—	—	—
Gemma 4 12B gemma-4-12b	Google	256k	22.00	$0.07/M	45 tok/s	2.56 s	58.68 s
Gemma 4 31B gemma-4-31b	Google	256k	22.00	$0.03/M	73 tok/s	2.57 s	9.42 s
Nova 2.0 Pro Preview (medium) nova-2-0-pro-preview-medium	Amazon	256k	22.00	$0.17/M	116 tok/s	13.34 s	34.91 s
Qwen3.5 9B qwen3-5-9b	Alibaba	262k	21.00	$0.22/M	83 tok/s	1.60 s	31.89 s
Mercury 2 mercury-2	Inception	128k	21.00	$0.08/M	978 tok/s	3.34 s	3.85 s
Qwen3 Coder Next qwen3-coder-next	Alibaba	256k	21.00	$0.33/M	134 tok/s	1.37 s	5.10 s
Nova 2.0 Omni (medium) nova-2-0-omni-medium	Amazon	1M	21.00	—	—	—	—
Apriel-v1.6-15B-Thinker apriel-v1-6-15b-thinker	ServiceNow	128k	21.00	—	—	—	—
Qwen3.5 9B qwen3-5-9b	Alibaba	262k	20.00	—	—	—	—
EXAONE 4.5 33B exaone-4-5-33b	LG AI Research	262k	20.00	—	—	—	—
Gemma 4 26B A4B gemma-4-26b-a4b	Google	256k	20.00	—	52 tok/s	1.26 s	10.79 s
Qwen3.5 4B qwen3-5-4b	Alibaba	262k	20.00	—	19 tok/s	0.76 s	132.97 s
North Mini Code north-mini-code	Cohere	256k	20.00	$0.00/M	37 tok/s	0.51 s	68.13 s
Nova 2.0 Pro Preview (low) nova-2-0-pro-preview-low	Amazon	256k	20.00	$0.21/M	116 tok/s	9.19 s	30.68 s
Mistral Small 4 mistral-small-4	Mistral	256k	20.00	$0.10/M	145 tok/s	0.75 s	17.94 s
Devstral 2 devstral-2	Mistral	256k	19.00	$0.00/M	48 tok/s	1.21 s	11.55 s
Nova 2.0 Lite (medium) nova-2-0-lite-medium	Amazon	1M	19.00	—	138 tok/s	16.37 s	34.54 s
Qwen3.5 Omni Flash qwen3-5-omni-flash	Alibaba	256k	19.00	—	236 tok/s	1.86 s	3.97 s
JT-MINI jt-mini	China Mobile	128k	19.00	—	—	—	—
Nova 2.0 Lite (high) nova-2-0-lite-high	Amazon	1M	18.00	$0.25/M	128 tok/s	20.95 s	40.55 s
Trinity Large Thinking trinity-large-thinking	Arcee AI	512k	18.00	$0.15/M	174 tok/s	0.95 s	15.34 s
Magistral Medium 1.2 magistral-medium-1-2	Mistral	128k	18.00	$0.75/M	45 tok/s	1.74 s	56.80 s
Nova 2.0 Lite (low) nova-2-0-lite-low	Amazon	1M	18.00	—	152 tok/s	9.28 s	25.76 s
HyperNova 60B 2605 hypernova-60b-2605	Multiverse Computing	131k	18.00	$0.02/M	356 tok/s	0.89 s	7.92 s
Nemotron Cascade 2 30B A3B nemotron-cascade-2-30b-a3b	NVIDIA	1M	18.00	—	—	—	—
Devstral Small 2 devstral-small-2	Mistral	256k	17.00	$0.00/M	54 tok/s	1.25 s	10.53 s
K2 Think V2 k2-think-v2	MBZUAI Institute of Foundation Models	262k	17.00	—	—	—	—
LongCat Flash Lite longcat-flash-lite	LongCat	256k	17.00	—	—	—	—
HyperCLOVA X SEED Think (32B) hyperclova-x-seed-think-32b	Naver	128k	17.00	—	—	—	—
K-EXAONE k-exaone	LG AI Research	256k	17.00	—	—	—	—
Qwen3 Next 80B A3B qwen3-next-80b-a3b	Alibaba	262k	17.00	$0.17/M	207 tok/s	2.25 s	14.33 s
Nova 2.0 Omni (low) nova-2-0-omni-low	Amazon	1M	17.00	—	—	—	—
Mi:dm K 2.5 Pro mi-dm-k-2-5-pro	Korea Telecom	128k	16.00	—	—	—	—
G9v3-3B g9v3-3b	AI9Stars	131k	16.00	$0.00/M	—	—	—
Qwen3.5 4B qwen3-5-4b	Alibaba	262k	16.00	—	24 tok/s	0.76 s	21.65 s
Mistral Large 3 mistral-large-3	Mistral	256k	16.00	$0.06/M	46 tok/s	1.11 s	11.90 s
INTELLECT-3 intellect-3	Prime Intellect	131k	16.00	—	—	—	—
Solar Open 100B solar-open-100b	Upstage	128k	15.00	—	—	—	—
Nemotron 3 Nano Omni 30B A3B Reasoning nemotron-3-nano-omni-30b-a3b-reasoning	NVIDIA	256k	15.00	—	319 tok/s	0.96 s	8.80 s
gpt-oss-120b (low) gpt-oss-120b-low	OpenAI	131k	15.00	$0.02/M	286 tok/s	0.86 s	9.58 s
gpt-oss-20b (high) gpt-oss-20b-high	OpenAI	131k	15.00	$0.02/M	189 tok/s	0.81 s	14.06 s
Nova 2.0 Pro Preview nova-2-0-pro-preview	Amazon	256k	14.00	$0.25/M	92 tok/s	1.04 s	6.48 s
gpt-oss-20b (low) gpt-oss-20b-low	OpenAI	131k	14.00	—	196 tok/s	0.86 s	13.63 s
Llama 4 Maverick llama-4-maverick	Meta	1M	14.00	$0.03/M	104 tok/s	0.94 s	5.74 s
K2-V2 (high) k2-v2-high	MBZUAI Institute of Foundation Models	512k	14.00	—	—	—	—
NVIDIA Nemotron 3 Nano nvidia-nemotron-3-nano	NVIDIA	1M	14.00	$0.02/M	201 tok/s	1.18 s	13.59 s
Solar Pro 3 solar-pro-3	Upstage	128k	14.00	$0.11/M	107 tok/s	2.29 s	25.57 s
Ling 2.6 Flash ling-2-6-flash	InclusionAI	262k	14.00	—	116 tok/s	1.12 s	5.45 s
Qwen3 Next 80B A3B qwen3-next-80b-a3b	Alibaba	262k	14.00	—	181 tok/s	2.17 s	4.93 s
DiffusionGemma 26B A4B diffusiongemma-26b-a4b	Google	256k	13.00	—	—	—	—
Gemma 4 12B (Non-reasoning) gemma-4-12b-non-reasoning	Google	262k	13.00	—	34 tok/s	2.53 s	17.08 s
Motif-2-12.7B motif-2-12-7b	Motif Technologies	128k	13.00	—	—	—	—
Nova Premier nova-premier	Amazon	1M	13.00	—	33 tok/s	2.87 s	18.13 s
K2-V2 (medium) k2-v2-medium	MBZUAI Institute of Foundation Models	512k	12.00	—	—	—	—
Llama Nemotron Super 49B v1.5 llama-nemotron-super-49b-v1-5	NVIDIA	128k	12.00	—	77 tok/s	5.95 s	38.27 s
Mistral Small 4 mistral-small-4	Mistral	256k	12.00	—	147 tok/s	0.70 s	4.10 s
Tri-21B-Think tri-21b-think	Trillion Labs	32k	12.00	—	—	—	—
MiniCPM5-1B minicpm5-1b	OpenBMB	128k	12.00	—	—	—	—
Sarvam 105B (high) sarvam-105b-high	Sarvam	128k	12.00	—	—	—	—
Gemma 4 E4B gemma-4-e4b	Google	128k	12.00	—	90 tok/s	0.79 s	28.52 s
Nova 2.0 Lite nova-2-0-lite	Amazon	1M	12.00	—	139 tok/s	1.12 s	4.72 s
MiniCPM5-1B minicpm5-1b	OpenBMB	128k	12.00	—	—	—	—
Magistral Small 1.2 magistral-small-1-2	Mistral	128k	11.00	$0.25/M	88 tok/s	0.94 s	29.32 s
Nanbeige4.1-3B nanbeige4-1-3b	Nanbeige	256k	11.00	—	—	—	—
Ministral 3 14B ministral-3-14b	Mistral	256k	11.00	$0.15/M	76 tok/s	0.84 s	7.44 s
EXAONE 4.0 32B exaone-4-0-32b	LG AI Research	131k	11.00	—	—	—	—
Nova 2.0 Omni nova-2-0-omni	Amazon	1M	11.00	—	—	—	—
Llama 4 Scout llama-4-scout	Meta	10M	10.00	$0.01/M	84 tok/s	0.78 s	6.73 s
Hermes 4 70B hermes-4-70b	Nous Research	128k	10.00	—	90 tok/s	1.35 s	29.14 s
Falcon-H1R-7B falcon-h1r-7b	TII UAE	256k	10.00	—	—	—	—
Qwen3 Omni 30B A3B qwen3-omni-30b-a3b	Alibaba	66k	10.00	—	99 tok/s	1.94 s	27.15 s
Step3 VL 10B step3-vl-10b	StepFun	66k	9.00	—	—	—	—
Gemma 4 E2B gemma-4-e2b	Google	128k	9.00	—	—	—	—
Llama 3.3 70B llama-3-3-70b	Meta	128k	9.00	$0.08/M	83 tok/s	1.65 s	7.70 s
Llama Nemotron Ultra llama-nemotron-ultra	NVIDIA	128k	9.00	—	53 tok/s	2.31 s	49.84 s
ERNIE 4.5 300B A47B ernie-4-5-300b-a47b	Baidu	131k	9.00	—	—	—	—
Hermes 4 405B hermes-4-405b	Nous Research	128k	9.00	—	37 tok/s	2.40 s	70.51 s
NVIDIA Nemotron Nano 12B v2 VL nvidia-nemotron-nano-12b-v2-vl	NVIDIA	128k	9.00	—	79 tok/s	8.49 s	40.06 s
Ministral 3 8B ministral-3-8b	Mistral	256k	9.00	$0.18/M	118 tok/s	0.73 s	4.97 s
Gemma 4 E4B gemma-4-e4b	Google	128k	9.00	—	92 tok/s	0.76 s	6.19 s
Granite 4.1 30B granite-4-1-30b	IBM	131k	9.00	—	—	—	—
NVIDIA Nemotron Nano 9B V2 nvidia-nemotron-nano-9b-v2	NVIDIA	131k	9.00	—	107 tok/s	4.58 s	27.94 s
Hermes 4 405B hermes-4-405b	Nous Research	128k	9.00	—	37 tok/s	2.38 s	15.85 s
NVIDIA Nemotron 3 Nano 4B nvidia-nemotron-3-nano-4b	NVIDIA	262k	9.00	—	—	—	—
Llama Nemotron Super 49B v1.5 llama-nemotron-super-49b-v1-5	NVIDIA	128k	9.00	—	67 tok/s	4.54 s	11.96 s
K2-V2 (low) k2-v2-low	MBZUAI Institute of Foundation Models	512k	9.00	—	—	—	—
Kimi Linear 48B A3B Instruct kimi-linear-48b-a3b-instruct	Kimi	1M	9.00	—	—	—	—
Llama 3.1 405B llama-3-1-405b	Meta	128k	9.00	—	—	—	—
LFM2.5-8B-A1B lfm2-5-8b-a1b	Liquid AI	33k	8.00	—	339 tok/s	1.96 s	9.34 s
Ring-flash-2.0 ring-flash-2-0	InclusionAI	128k	8.00	—	—	—	—
Olmo 3.1 32B Think olmo-3-1-32b-think	Allen Institute for AI	66k	8.00	—	—	—	—
Command A command-a	Cohere	256k	8.00	—	60 tok/s	1.88 s	10.17 s
Llama 3.1 Nemotron 70B llama-3-1-nemotron-70b	NVIDIA	128k	8.00	—	73 tok/s	6.46 s	13.27 s
NVIDIA Nemotron 3 Nano nvidia-nemotron-3-nano	NVIDIA	1M	7.00	—	115 tok/s	0.91 s	5.25 s
NVIDIA Nemotron Nano 9B V2 nvidia-nemotron-nano-9b-v2	NVIDIA	131k	7.00	—	162 tok/s	1.60 s	4.69 s
Qwen3.5 2B qwen3-5-2b	Alibaba	262k	7.00	—	—	—	—
Hermes 4 70B hermes-4-70b	Nous Research	128k	7.00	—	95 tok/s	1.34 s	6.62 s
Granite 4.1 8B granite-4-1-8b	IBM	131k	7.00	—	98 tok/s	0.79 s	5.87 s
Sarvam 30B (high) sarvam-30b-high	Sarvam	66k	7.00	—	—	—	—
Olmo 3.1 32B Instruct olmo-3-1-32b-instruct	Allen Institute for AI	66k	6.00	—	—	—	—
Gemma 4 E2B gemma-4-e2b	Google	128k	6.00	—	—	—	—
R1 1776 r1-1776	Perplexity	128k	6.00	—	—	—	—
Ministral 3 3B ministral-3-3b	Mistral	256k	6.00	$0.13/M	253 tok/s	0.61 s	2.59 s
Llama 3.2 90B (Vision) llama-3-2-90b-vision	Meta	128k	6.00	—	—	—	—
Phi-4 Mini phi-4-mini	Microsoft	128k	6.00	$0.00/M	45 tok/s	0.83 s	11.89 s
EXAONE 4.0 32B exaone-4-0-32b	LG AI Research	131k	6.00	—	—	—	—
Qwen3.5 2B qwen3-5-2b	Alibaba	262k	6.00	—	—	—	—
Qwen3.5 0.8B qwen3-5-0-8b	Alibaba	262k	5.00	—	—	—	—
DeepHermes 3 - Mistral 24B deephermes-3-mistral-24b	Nous Research	32k	5.00	—	—	—	—
Jamba 1.7 Large jamba-1-7-large	AI21 Labs	256k	5.00	—	55 tok/s	1.42 s	10.54 s
Granite 4.0 H Small granite-4-0-h-small	IBM	128k	5.00	—	365 tok/s	10.23 s	11.60 s
Qwen3 Omni 30B A3B qwen3-omni-30b-a3b	Alibaba	66k	5.00	—	95 tok/s	1.89 s	7.17 s
LFM2 24B A2B lfm2-24b-a2b	Liquid AI	33k	5.00	—	—	—	—
Phi-4 phi-4	Microsoft	16k	5.00	—	29 tok/s	4.01 s	21.17 s
Nova Micro nova-micro	Amazon	130k	5.00	—	268 tok/s	0.96 s	2.83 s
Granite 4.1 3B granite-4-1-3b	IBM	131k	5.00	—	—	—	—
NVIDIA Nemotron Nano 12B v2 VL nvidia-nemotron-nano-12b-v2-vl	NVIDIA	128k	5.00	—	165 tok/s	2.43 s	5.47 s
Phi-4 Multimodal phi-4-multimodal	Microsoft	128k	5.00	—	18 tok/s	0.81 s	29.15 s
MiniCPM-V 4.6 1.3B minicpm-v-4-6-1-3b	OpenBMB	262k	4.00	—	—	—	—
Jamba Reasoning 3B jamba-reasoning-3b	AI21 Labs	262k	4.00	—	—	—	—
Reka Flash 3 reka-flash-3	Reka AI	128k	4.00	—	—	—	—
Olmo 3 7B Think olmo-3-7b-think	Allen Institute for AI	66k	4.00	—	—	—	—
Molmo 7B-D molmo-7b-d	Allen Institute for AI	4k	4.00	—	—	—	—
Ling-mini-2.0 ling-mini-2-0	InclusionAI	131k	4.00	—	—	—	—
Llama 3.2 11B (Vision) llama-3-2-11b-vision	Meta	128k	3.00	—	5 tok/s	5.64 s	103.98 s
Qwen3.5 0.8B qwen3-5-0-8b	Alibaba	262k	3.00	—	—	—	—
Exaone 4.0 1.2B exaone-4-0-1-2b	LG AI Research	64k	3.00	—	—	—	—
Olmo 3 7B olmo-3-7b	Allen Institute for AI	66k	3.00	—	—	—	—
Exaone 4.0 1.2B exaone-4-0-1-2b	LG AI Research	64k	3.00	—	—	—	—
LFM2.5-1.2B-Thinking lfm2-5-1-2b-thinking	Liquid AI	32k	3.00	—	—	—	—
Jamba 1.7 Mini jamba-1-7-mini	AI21 Labs	258k	3.00	—	—	—	—
LFM2 2.6B lfm2-2-6b	Liquid AI	33k	3.00	—	—	—	—
LFM2.5-1.2B-Instruct lfm2-5-1-2b-instruct	Liquid AI	32k	3.00	—	—	—	—
Granite 4.0 H 1B granite-4-0-h-1b	IBM	128k	3.00	—	—	—	—
Gemma 3 270M gemma-3-270m	Google	32k	2.00	—	—	—	—
Apertus 70B Instruct apertus-70b-instruct	Swiss AI Initiative	66k	2.00	—	—	—	—
Granite 4.0 Micro granite-4-0-micro	IBM	128k	2.00	—	—	—	—
DeepHermes 3 - Llama-3.1 8B deephermes-3-llama-3-1-8b	Nous Research	128k	2.00	—	—	—	—
Granite 4.0 1B granite-4-0-1b	IBM	128k	2.00	—	—	—	—
Molmo2-8B molmo2-8b	Allen Institute for AI	37k	2.00	—	—	—	—
LFM2 8B A1B lfm2-8b-a1b	Liquid AI	33k	2.00	—	—	—	—
LFM2.5-VL-1.6B lfm2-5-vl-1-6b	Liquid AI	32k	1.00	—	410 tok/s	1.62 s	2.84 s
Granite 4.0 350M granite-4-0-350m	IBM	33k	1.00	—	—	—	—
Tiny Aya Global tiny-aya-global	Cohere	8k	1.00	—	—	—	—
Apertus 8B Instruct apertus-8b-instruct	Swiss AI Initiative	66k	1.00	—	—	—	—
Granite 4.0 H 350M granite-4-0-h-350m	IBM	33k	1.00	—	—	—	—
Claude Sonnet 5 (low) claude-sonnet-5-low	Anthropic	1M	—	—	58 tok/s	1.94 s	10.63 s
EXAONE 4.5 33B exaone-4-5-33b	LG AI Research	262k	—	—	—	—	—
Claude Sonnet 5 (xhigh) claude-sonnet-5-xhigh	Anthropic	1M	—	—	69 tok/s	24.31 s	31.57 s
Gemini 3 Deep Think gemini-3-deep-think	Google	128k	—	—	—	—	—
Claude Sonnet 5 (high) claude-sonnet-5-high	Anthropic	1M	—	—	59 tok/s	6.99 s	15.44 s
Mi:dm K 2.5 Pro Preview mi-dm-k-2-5-pro-preview	Korea Telecom	128k	—	—	—	—	—
GPT-5.5 Pro (xhigh) gpt-5-5-pro-xhigh	OpenAI	922k	—	—	—	—	—
Cogito v2.1 cogito-v2-1	Deep Cogito	128k	—	—	—	—	—
Claude Sonnet 5 (medium) claude-sonnet-5-medium	Anthropic	1M	—	—	59 tok/s	2.32 s	10.86 s