Chọn đúng model. Trả đúng giá. Đổi bất cứ lúc nào.
14 model được route qua một API duy nhất. Giá lấy thẳng từ provider cộng markup minh bạch — không quảng cáo "unlimited" rồi gài throttle.
Một format message. Mười bốn model.
Credential provider luôn nằm phía server.
Model không hỗ trợ trả lỗi API có kiểu rõ ràng.
Streaming chunk giữ shape tương thích OpenAI.
Usage event ghi token, provider, model, latency và chi phí.
Tất cả model đang sẵn sàng cho production.
Giá hiển thị đã cộng markup 30% (top-tier) hoặc 50% (cheap models) so với giá nhà phát hành. Đồng bộ từ models.dev mỗi build.
GPT-4o
gpt-4o-2024-08-06
Đa năng, multimodal, độ trễ thấp cho production app.
Input
$3.25
325 credits
Output
$13.00
1300 credits
Claude Opus 4.7
claude-opus-4-7
Smartest model của Anthropic. Reasoning sâu, code quality cao.
Input
$6.50
650 credits
Output
$32.50
3250 credits
Claude Sonnet 4.6
claude-sonnet-4-6
Sweet spot price/intelligence cho production agent.
Input
$3.90
390 credits
Output
$19.50
1950 credits
DeepSeek V4 Pro
deepseek-v4-pro
Frontier reasoning của DeepSeek. Code & math top-tier, giá thấp hơn Opus 3 lần.
Input
$0.570
57 credits
Output
$1.13
113 credits
Gemini 2.5 Pro
gemini-2.5-pro
1M context, multimodal đầy đủ. Đọc video/audio/PDF native.
Input
$1.63
163 credits
Output
$13.00
1300 credits
Mistral Large 2
mistral-large-2411
EU-hosted, GDPR-native. Tool calling chắc tay.
Input
$2.60
260 credits
Output
$7.80
780 credits
Kimi K2.6
kimi-k2.6
Moonshot Kimi K2.6 — agentic + reasoning, 262K context, mạnh ở task dài.
Input
$1.23
123 credits
Output
$5.20
520 credits
GLM-4.6
glm-4.6
Z.AI GLM-4.6 — bilingual zh/en, code/agent tốt, giá sweet spot.
Input
$0.590
59 credits
Output
$1.95
195 credits
Llama 3.1 70B
llama-3.1-70b-instruct
Open weights. Cost-effective qua Together/Groq/Fireworks.
Input
$0.940
94 credits
Output
$0.940
94 credits
Qwen 2.5 72B
qwen2.5-72b-instruct
Mạnh nhất dòng open Asia. Code & math tốt.
Input
$0.450
45 credits
Output
$0.520
52 credits
GPT-4o mini
gpt-4o-mini-2024-07-18
Rẻ nhất, đủ thông minh cho classify, extract, mass workloads.
Input
$0.220
22 credits
Output
$0.900
90 credits
o3 mini
o3-mini-2025-01-31
Reasoning step-by-step giá hợp lý cho code & STEM.
Input
$1.43
143 credits
Output
$5.72
572 credits
Claude Haiku 4.5
claude-haiku-4-5
Nhanh nhất, rẻ nhất trong dòng Claude. Latency thấp.
Input
$1.50
150 credits
Output
$7.50
750 credits
Gemini 2.5 Flash
gemini-2.5-flash
Multimodal nhanh, rẻ, thay thế cho gemini-2.0-flash đã EOL.
Input
$0.450
45 credits
Output
$3.75
375 credits
Mistral Small 3
mistral-small-latest
Open-weight, chạy được local. Cheap multilingual.
Input
$0.220
22 credits
Output
$0.900
90 credits
DeepSeek V4 Flash
deepseek-v4-flash
Reasoning fast tier rẻ kinh khủng. 1M context, $0.14 input/1M.
Input
$0.210
21 credits
Output
$0.420
42 credits
Pricing snapshot tự động đồng bộ từ models.dev (MIT, do team SST duy trì) — chạy `pnpm sync:models` mỗi tháng.
Reasoning tổng quát, multimodal chat và tool calling cho production app.
Code quality cao, reasoning sâu, 1M context, prompt caching giảm chi phí.
Multimodal đầy đủ (video/audio/PDF), 1M context, latency thấp.
DeepSeek + Moonshot + Z.AI — reasoning mạnh, giá rẻ, context dài 200K-1M.
EU-hosted, open-weight, có thể chạy self-host qua OpenAI-compatible adapter.