AI 模型 | 𝐗𝐀𝐈 𝐑𝐨𝐮𝐭𝐞𝐫

OpenAI

gpt-5.3-codex

256K tokens

OpenAI

gpt-5.4

400K tokens

Anthropic

claude-opus-4-6

200K tokens / 1M tokens (beta)

Google AI Studio

gemini-3.1-pro-preview

输入 1M / 输出 64K tokens

文本

$2.5 in$15 out$0.25 缓存命中

OpenAI

gpt-5.4

OpenAI 2026 最新旗舰模型，支持 400K 上下文与缓存命中计费，兼顾推理、代码与多模态理解

400K tokens大语言模型 (LLM)

文本

$1.75 in$14 out$0.175 缓存命中

OpenAI

gpt-5.3-chat

OpenAI 2026 最新对话模型，在推理、代码、创意写作等方面表现卓越，支持缓存加速

256K tokens大语言模型 (LLM)

文本

$30 in$180 out

OpenAI

gpt-5.4-pro

OpenAI 2026 最强专业版模型，面向高难度推理、复杂分析与生产级任务

400K tokens大语言模型 (LLM, Pro)

文本

$21 in$168 out

OpenAI

gpt-5.2-pro

OpenAI 2025 最强专业版模型，在复杂推理、代码生成等方面表现卓越

256K tokens大语言模型 (LLM)

文本

$1.75 in$14 out$0.175 缓存命中

OpenAI

gpt-5.2

OpenAI 2025 最新旗舰模型，在推理、代码、创意写作等方面全面升级，支持缓存加速

256K tokens大语言模型 (LLM)

文本

$1.25 in$10 out$0.125 缓存命中

OpenAI

gpt-5.1-codex-max

OpenAI 2025 旗舰代码专用模型，具备最强代码理解和生成能力，支持超大上下文和复杂代码任务

gpt-4.1

OpenAI GPT-4 系列升级版，在推理和创意任务上表现优异

128K tokens大语言模型 (LLM)

文本

$5 in$25 out

Anthropic

claude-opus-4-6

我们最智能的模型，适合构建智能体与编程

200K tokens / 1M tokens (beta)支持

文本

$0.75 in$4.5 out$0.075 缓存命中

OpenAI

gpt-5.4-mini

OpenAI GPT-5.4 轻量版本，兼顾成本、质量与缓存支持，可用于 API 与 Codex 工作流

轻量级大语言模型平衡成本与质量，适合通用开发、自动化与日常推理

文本

$3 in$15 out$3.75 缓存创建$0.30 缓存命中

Anthropic

claude-sonnet-4-6

Anthropic 最新旗舰模型，在代码生成、分析、写作等任务上表现卓越，支持缓存加速

200K tokens大语言模型 (LLM)

文本

$1.25 in$10 out$0.125 缓存命中

OpenAI

gpt-5.1-codex

OpenAI 2025 代码专用模型，专注于代码理解、生成和优化，支持缓存加速

gpt-4.1-mini

GPT-4.1 轻量版本，在保持优秀性能的同时更经济高效

128K tokens大语言模型 (LLM)

文本

$3 in$15 out

Anthropic

claude-sonnet-4-5-20250929

Anthropic 2025 旗舰模型，在代码生成、分析、写作等任务上表现卓越

200K tokens大语言模型 (LLM)

文本

$0.2 in$1.25 out$0.02 缓存命中

OpenAI

gpt-5.4-nano

OpenAI GPT-5.4 超轻量版本，以极低成本处理简单任务，当前仅通过 API 提供

超轻量级大语言模型简单问答、分类、抽取等低成本任务

文本

$1.75 in$14 out$0.175 缓存命中

OpenAI

gpt-5.3-codex

OpenAI 2025 代码专用模型，专注于代码理解、生成和优化，支持缓存加速

256K tokens代码专用模型

文本

¥3.2 in¥16 out¥0.64 缓存命中

字节跳动

doubao-seed-2-0-pro-260215

首推

字节跳动豆包 2.0 Pro，侧重长链路推理能力与复杂任务稳定性，适配真实业务中的复杂场景

256K tokens256K tokens

文本

$0.1 in$0.4 out

OpenAI

gpt-4.1-nano

GPT-4.1 超轻量版本，极致性价比适合简单快速任务

128K tokens大语言模型 (LLM)

文本

¥3.2 in¥16 out¥0.64 缓存命中

字节跳动

doubao-seed-2-0-code-preview-260215

首推

字节跳动豆包 Seed 2.0 的编程加强版，面向 Agentic Coding 场景优化

256K tokens256K tokens

文本

$1.75 in$14.0 out$0.175 缓存命中

OpenAI

gpt-5.3-codex-spark

OpenAI 于 2026 年发布的超低时延代码模型，面向实时编程协作与快速迭代，支持缓存加速

128K tokens超低时延代码模型（小型）

图像

$2 in$12 out$0.2 缓存命中

Google AI Studio

gemini-3-pro-image-preview

Google AI Studio 文生图预览模型，支持 1K/2K/4K 分辨率、思维链推理与 Search Grounding

输入 65K / 输出 32K tokens默认 1K，可选 2K / 4K，支持多种纵横比

文本

$0.375 in$3 out$0.0375 缓存命中

OpenAI

gpt-5.1-codex-mini

OpenAI 2025 轻量级代码模型，在保持高质量代码能力的同时提供更快的响应速度和更低的成本

kimi-for-coding

月之暗面 Kimi 代码专用模型,专注于代码理解、生成和优化

128K tokens代码专用模型

文本

¥0.6 in¥3.6 out¥0.12 缓存命中

字节跳动

doubao-seed-2-0-lite-260215

首推

字节跳动豆包 2.0 Lite，兼顾生成质量与响应速度，适合作为通用生产级模型

256K tokens224K tokens

文本

$1.5 in$10 out

Google AI Studio

gemini-2.5-pro

Google AI Studio 2025 旗舰多模态模型，支持超长上下文和强大的多模态理解能力

gemini-3.1-pro-preview

Google AI Studio 预览版多模态模型，支持 1M 上下文与 64K 输出，适合复杂推理与高质量生成

输入 1M / 输出 64K tokens2025年1月

文本

¥1.2 in¥8 out

字节跳动

ark-code-latest

字节跳动豆包代码专用模型,专注于代码理解、生成和优化

doubao-seed-translation-250915

字节跳动豆包翻译专用模型，提供高质量的多语言翻译服务

deepseek-v3

DeepSeek 最新旗舰模型 V3.2，6850 亿参数，推理能力媲美 GPT-5，支持 128K 上下文

nova-pro

AWS 推出的高性能多模态模型，支持文本和图像理解

300K tokens多模态大语言模型

文本

¥0.2 in¥2 out¥0.04 缓存命中

字节跳动

doubao-seed-2-0-mini-260215

首推

字节跳动豆包 2.0 Mini，面向低时延、高并发与成本敏感场景，支持四档位思考与多模态理解

256K tokens224K tokens

文本

$1.5 in$10 out

Google Vertex AI

google/gemini-2.5-pro

Google Vertex AI 旗舰多模态模型，支持超长上下文和强大的多模态理解能力

deepseek-r1

国产开源推理模型，在数学、代码、科学推理等任务上媲美 o1，性价比极高

nova-lite

AWS Nova 轻量版，提供快速且经济的多模态能力

gemini-3.1-flash-image-preview

极速预览版

Google AI Studio 面向速度与效率的图像生成预览模型，适合快速交互响应和高吞吐场景

Google AI Studio为速度与效率设计，适合快速交互响应与高吞吐图像生成

文本

$0.5 in$3 out$0.05 缓存命中

Google AI Studio

gemini-3-flash-preview

极速多模态

Google AI Studio 高速多模态预览模型，低时延高性价比

nova-micro

AWS Nova 超轻量版，提供极致性价比的文本处理能力

128K tokens大语言模型 (LLM)

文本

$5 in$15 out

xAI

grok-4

xAI 最新旗舰模型，具备实时互联网搜索能力，知识更新及时

128K tokens大语言模型 (LLM)

文本

¥0 in¥0 out

Alibaba Cloud

qwen3-32b

免费

阿里云通义千问 32B 参数大模型，免费商用的强大AI助手

grok-code-fast

xAI 代码优化模型，专为快速代码生成和理解设计

128K tokens代码生成模型

文本

¥1 in¥10 out¥0.2 缓存命中

阿里云

qwen3-vl-plus

阿里通义千问 3.0 视觉语言增强模型，支持图文理解与多模态推理

tencent/Hunyuan-MT-7B

免费

腾讯混元机器翻译模型，超低成本的多语言翻译服务

moonshotai/kimi-k2-instruct-0905

极速

国产超长上下文模型，支持 200 万字输入，擅长长文档分析和处理

grok-4-fast

xAI Grok-4 快速版本，在保持强大能力的同时提供更快响应速度

128K tokens大语言模型 (LLM)

文本

¥0.8 in¥4.8 out¥1 缓存创建¥0.8 缓存命中

阿里云

qwen3.5-plus

Qwen3.5 原生视觉语言 Plus 模型，融合线性注意力与稀疏 MoE 架构，兼顾深度推理、多模态理解与推理效率

128K tokens原生视觉语言 Plus（线性注意力 + 稀疏 MoE）

嵌入

¥0.7 in¥0 out

字节跳动

doubao-embedding-vision

字节跳动豆包视觉嵌入模型，支持图像和多模态内容的向量化

kimi-k2-thinking

深度推理开源

月之暗面推理增强模型，具备交织思考与工具调用能力，擅长复杂推理和代理任务

256K tokens推理增强 MoE 模型

重排

¥0.5 in

阿里云

qwen3-rerank

阿里通义千问 3.0 文本重排模型，用于检索结果相关性排序

qwen3-max

阿里通义千问 3.0 旗舰模型，中文能力强，性价比高

128K tokens大语言模型 (LLM)

嵌入

¥0.7 in¥0 out

字节跳动

doubao-embedding-large-text

字节跳动豆包大型文本嵌入模型，提供更高质量的文本向量化能力

大型文本嵌入模型2048 维

文本

¥0.15 in¥1.5 out¥0.03 缓存命中

阿里云

qwen3-vl-flash

阿里通义千问 3.0 轻量高速视觉语言模型，低时延高性价比

mistral-large-latest

Mistral AI 旗舰级 MoE 开源模型，675B 总参数，支持多模态和 256K 上下文

256K tokensMoE (41B/675B)

重排

¥1.8 in

阿里云

qwen3-vl-rerank

阿里通义千问 3.0 多模态重排模型，支持图文检索结果重排

多模态重排模型 (Rerank)文本 + 图像

嵌入

¥0.5 in¥0 out

字节跳动

doubao-embedding-text

字节跳动豆包文本嵌入模型，用于文本向量化和语义检索

gpt-image-1

OpenAI 2025 最新图像生成模型，理解能力和图像质量全面提升

最高 4K (4096x4096)图像生成

音频

$0.006/ 分钟

OpenAI

whisper-1

强大的语音识别模型，支持多语言转录和翻译

text-embedding-3-large

高性能文本嵌入模型，用于语义搜索和相似度计算

gemini-2.5-flash

多模态

Google AI Studio 快速多模态模型，支持超长上下文

google/gemini-2.5-flash

Google Vertex AI 快速多模态模型，支持超长上下文，企业级可靠性

gemini-2.5-flash-lite

极速

Google AI Studio 超轻量级多模态模型，极速响应

google/gemini-2.5-flash-lite

Google Vertex AI 超轻量级多模态模型，极速响应，企业级部署

ministral-14b-latest

Mistral AI 边缘优化大型模型，14B 参数，支持视觉理解和推理能力

ministral-8b-latest

Mistral AI 边缘优化中型模型，8B 参数，支持视觉理解和滑动窗口注意力机制

ministral-3b-latest

Mistral AI 边缘优化小型模型，3B 参数，支持视觉理解和 128K 上下文

128K tokens3B 参数

文本

¥2.1 in¥8.4 out¥0.21 缓存命中

MiniMax

MiniMax-M2.5

MiniMax 于 2026 年发布的新一代推理模型，在编程、工具调用与搜索、办公等生产力场景表现突出

sonar

Perplexity 在线搜索模型，实时访问互联网获取最新信息

在线搜索模型实时网络搜索

文本

¥4.2 in¥33.6 out¥0.42 缓存命中

MiniMax

MiniMax-M2.5-highspeed

MiniMax-M2.5 的高速版本（对应 M2.5-Lightning），能力对齐标准版，适合低时延与高吞吐 Agent 场景

推理模型高速版（M2.5-Lightning）约 100 TPS

文本

$3 in$15 out

Perplexity

sonar-pro

Perplexity 高性能在线搜索模型，提供更强大的推理和信息整合能力

glm-4.7

智谱AI最新旗舰模型，代码能力对齐 Claude Sonnet 4，支持 200K 超长上下文，具备深度推理和工具调用能力

200K tokens大语言模型 (LLM)

文本

¥0 in¥0 out

智谱AI

glm-4.7-flash

免费

智谱AI GLM-4.7 极速版，低时延高吞吐，适合实时对话与轻量任务，免费使用

200K tokens大语言模型 (LLM)