自研深度研究模型,类似cursor plan模式,先对研究内容进行规划然后逐步进行,主要面向深度研究场景,适用于需要生成结构化研究报告、进行复杂信息整合和深度分析的应用。典型的应用场景包括学术研究、投资分析、政策研究、行业调研、竞品分析等。在这些场景中,用户通常需要系统性地收集大量信息,进行批判性分析,并产出具有一定深度和洞察力的研究报告。对于需要深度专业分析的研究任务,v1 Pro是更合适的选择。v1 Pro擅长研究推理,能够从收集材料中分析和提出专业见解。对于需要高质量专业分析报告的场景,如学术论文撰写、投资尽职调查、战略咨询报告等,U1 Pro更强的推理能力和内容核查功能能够带来更高的研究质量,从而实现更好的投入产出比。v1 Pro支持的内容核查功能在这种场景下尤为重要,能够显著降低AI幻觉对报告质量的影响.
自研深度研究模型,类似cursor plan模式,先对研究内容进行规划然后逐步进行,主要面向一般的深度研究需求,建议优先选择v2模型。v2作为第二代通用深度研究模型,提供了更新的技术能力和可能的性能改进。v2擅长信息挖掘和快速深度搜索整合,适用于大多数以信息收集和初步分析为主的研究任务。例如,在进行市场调研时,U2能够快速收集行业动态、竞品信息、市场规模等数据,并整合成结构化的调研报告。
支持200K上下文窗口,1M token上下文窗口处于beta阶段,最大输出128K token,可处理大规模文本内容;在代理式编程、复杂代码库运作、长时间代理任务中表现出色,能自主完成复杂编码任务,规划周密且可发现自身错误;金融、法律等领域知识处理能力突出,相关专项测试领先;可集成进Excel、PowerPoint等办公软件,处理复杂数据并生成演示文稿,提升办公效率;支持扩展思考实现深度推理,还可参与自身调试部署,构建AI自我改进与自动化开发闭环。
自研深度搜索模型,类似cursor plan模式,结合最新版本glm、kimi、claude sonnet(模型版本动态更新最新版)调用各种工具组合分析搜索内容进行深度搜索及事实核查,主要面向深度搜索场景,适用于需要快速获取准确信息、进行事实核查和初步信息收集的应用。典型的应用场景包括实时信息查询、人物背景调查、事件追踪、知识问答、内容创作辅助等。在这些场景中,用户通常需要快速获得准确、全面的信息,而不是深度的分析见解。
自研深度搜索模型,类似cursor plan模式,结合最新版本glm、kimi、claude sonnet(模型版本动态更新最新版)调用各种工具组合分析搜索内容进行深度搜索及事实核查,主要面向深度搜索场景,适用于需要快速获取准确信息、进行事实核查和初步信息收集的应用。典型的应用场景包括实时信息查询、人物背景调查、事件追踪、知识问答、内容创作辅助等。在这些场景中,用户通常需要快速获得准确、全面的信息,而不是深度的分析见解。
Claude Sonnet 4.5-20250929是Anthropic推出的全能型模型,核心优势如下: 顶尖编程能力:号称全球最强编码模型,SWE-bench测试达77.2%,擅长多文件代码修改、复杂bug调试、代码审查与创意代码生成,支持完整代码库分析,搭配VS Code扩展、代码分析可视化等开发者工具。 卓越智能体与实操能力:可自主持续执行复杂多步骤任务超30小时,能处理电子表格等办公文件,具备网络安全相关能力,适配实际智能体应用场景。 高效长任务与记忆机制:动态追踪可用token并自动清理陈旧工具结果,跨会话传承关键信息;支持最高100万token大上下文窗口,可处理数百份文档、维护大量工具交互历史。 综合性能优异:在推理、数学、企业数据处理等领域表现突出,兼顾性能、速度与成本,还配备安全升级。
Claude Sonnet 4.6是Anthropic推出的中阶大模型,兼顾高性能与成本效益,适配高吞吐量生产工作负载,核心优势如下: 搜索与长文本能力大幅跃升:在MRCR v2 8-needle 1M「大海捞针」基准测试中得分76%,远高于前代Claude Sonnet 4.5的18.5%,长文本信息检索精度显著提升。 编程与推理能力卓越:优化日常开发任务,代码自动化、逻辑推理表现突出;支持「扩展思考」模式,可深入处理复杂问题,指令遵循精度更高。 多模态与通用场景适配:支持文字、图片输入及文字输出,具备多语言能力,可胜任客服对话、数据分析、代码生成、文档处理等多元场景。 工具与任务管理升级:支持并行工具调用,具备本地文件记忆能力,任务连续性强,减少无效捷径行为,提升任务执行可靠性。
Claude Sonnet 4.6是Anthropic推出的中阶大模型,兼顾高性能与成本效益,适配高吞吐量生产工作负载,核心优势如下: 搜索与长文本能力大幅跃升:在MRCR v2 8-needle 1M「大海捞针」基准测试中得分76%,远高于前代Claude Sonnet 4.5的18.5%,长文本信息检索精度显著提升。 编程与推理能力卓越:优化日常开发任务,代码自动化、逻辑推理表现突出;支持「扩展思考」模式,可深入处理复杂问题,指令遵循精度更高。 多模态与通用场景适配:支持文字、图片输入及文字输出,具备多语言能力,可胜任客服对话、数据分析、代码生成、文档处理等多元场景。 工具与任务管理升级:支持并行工具调用,具备本地文件记忆能力,任务连续性强,减少无效捷径行为,提升任务执行可靠性。
GLM-5 是智谱新一代的旗舰基座模型,面向 Agentic Engineering 打造,能够在复杂系统工程与长程 Agent 任务中提供可靠生产力。在 Coding 与 Agent 能力上,GLM-5 取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5,擅长复杂系统工程与长程 Agent 任务,是通用 Agent 助手的理想基座。
【官方模型】Qwen3.5-Plus是阿里推出的旗舰大模型,核心亮点如下: 架构革新,以小博大:采用线性注意力+稀疏MoE混合架构,总参数量达3970亿,每次推理仅激活170亿参数,性能超越万亿参数的Qwen3-Max模型。 性能顶尖,媲美闭源旗舰:多项能力媲美甚至超越GPT-5.2、Gemini 3 Pro等闭源顶级模型;在MMLU-Pro知识推理评测获87.8分(超GPT-5.2)、GPQA博士级难题测评获88.4分(高于Claude 4.5)、IFBench指令遵循获76.5分刷新纪录,多模态任务(MathVison、RealWorldQA、CC_OCR、RefCOCO-avg、MLVU等)均拿下最佳成绩。 效率飞跃,成本骤降:部署显存占用降低60%,推理吞吐量提升19倍,推理效率大幅提升,部署成本显著下降。 原生多模态,能力全面:支持文本、图像、视频输入,实现视觉与语言统一理解,具备像素级空间定位、视频因果时序理解、手绘草图转代码、图片文字识别、画作风格判断等跨模态能力;在复杂推理、编程、Agent智能体、具身智能等领域表现领先同级模型。
Gemini 3 Pro 是 Google 最先进的推理模型,具备处理复杂问题的卓越能力。拥有 100 万 token 的超大上下文窗口,能够理解海量数据集和来自文本、音频、图像、视频、PDF 甚至完整代码库等多种信息源的复杂问题。引入了 thinkinglevel (低/高推理级别)、mediaresolution (多模态输入的视觉处理分辨率)等新功能,支持更严格的思维签名验证、多模态函数响应和流式函数调用,在多模态理解、代理任务和编程方面表现领先。
GPT-5.2 是 OpenAI 最新的旗舰模型,专为编程和代理任务设计。拥有 400,000 个 token 的超大上下文窗口,在通用智能、长上下文理解、代理工具调用和视觉能力方面都有显著提升。特别擅长创建电子表格、构建演示文稿、编写代码和处理复杂的多步骤项目,是当前最适合专业工作和长期运行代理的模型。
GPT-5.2-2025-12-11 是 GPT-5.2 的特定日期快照版本,于 2025 年 12 月 11 日发布。该版本固定了模型的参数和行为,确保在生产环境中的稳定性和一致性。在 SWE-bench 等编程基准测试中达到 71.80% 的高分,是需要精确版本控制的企业级应用的理想选择。
GPT-5.2-chat-latest 指向 ChatGPT 当前使用的 GPT-5.2 快照版本,专门针对聊天场景进行了优化。该模型会自动更新到最新的聊天优化版本,适合希望测试 OpenAI 最新聊天改进的开发者。对于大多数 API 使用场景,官方推荐使用标准的 gpt-5.2 模型。
GPT-5.2 Pro 是 GPT-5.2 的增强版本,产生更智能、更精确的响应。该模型专为处理复杂困难问题设计,支持 medium、high、xhigh 三个推理强度级别。仅通过 Responses API 提供,支持多轮模型交互和高级 API 功能。由于专注于复杂任务,某些请求可能需要数分钟才能完成,建议使用后台模式避免超时。
GPT-5.2-pro-2025-12-11 是 GPT-5.2 Pro 的特定日期快照版本,于 2025 年 12 月 11 日发布。该版本锁定了增强推理能力的模型状态,确保在处理复杂专业任务时的行为一致性。支持多级推理强度控制,是需要最高精度和深度思考能力的企业级应用的最佳选择。
Claude Haiku 4.5 是 Anthropic 最快、性价比最高的小型模型,在编程、计算机使用和代理任务方面达到接近前沿水平的性能,与 Claude Sonnet 4 相当。该模型以三分之一的成本和两倍以上的速度提供类似的编程性能,特别擅长实时、低延迟任务如聊天助手、客户服务代理和配对编程。在 SWE-bench Verified 上得分 73.3%,是首个配备扩展思考功能的 Haiku 模型,适合需要高智能与快速响应相结合的场景。
中文人设对话场景
中文人设对话场景
英文等多语种人设对话场景
abab6.5s-chat是MiniMax推出的万亿参数MoE大语言模型,采用Transformer架构与混合注意力机制,核心特点如下: 指令遵循能力突出,出token速度极快,适配实时语音交互、拟人化对话场景; 支持最大245k上下文窗口,可处理超长文本,适配通用及复杂生产力任务,还支持搜索、function call等功能; 在MMLU、推理测试等学术基准中表现优异,支持多语言,上下文理解能力出色,可胜任问答、闲聊、任务型对话等多类任务。
abab6.5t-chat是MiniMax推出的超大规模语言模型,核心优势如下: 针对中文人设对话场景深度优化,人设保持、指令遵从、意图理解能力出色,生成内容富有趣味; 基于Transformer架构,依托6.5万亿参数捕捉细微语言特征,上下文理解能力突出,对话连贯准确; 多语言支持优秀,特定语言表现更优,具备多任务处理能力,可胜任文本生成、问答、摘要等多种语言任务; 支持函数调用,适配多类实际场景需求。
bce-reranker-base_v1是网易有道开发的BCEmbedding系列交叉编码器重排序模型,专为检索增强生成(RAG)场景打造: 多语言覆盖:支持中、英、日、韩四种语言,适配跨语种语义精排需求; 精排能力突出:可对初检索结果二次排序,输出0-1的相关性分数(一般以0.35-0.4为低质内容过滤阈值),能深度分析文本对语义关联,精排效果优于多数开源及闭源同类模型; 适配场景广:可搭配bce-embedding-base_v1组成两阶段检索系统,适用于教育内容发现、法律文档搜索、多语言FAQ系统等领域; 商业友好:采用Apache 2.0许可证;仅当候选内容数量较多时,精排处理时间会有所增加,可能影响响应效率。
将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。
由智源研究院研发的中文版文本表示模型,可将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。
由智源研究院研发的重排模型,与嵌入模型不同,重排序器以问题和文档作为输入,直接输出相似度而非嵌入。您可以通过向重排序器输入查询和文章来获得相关性分数。该分数可通过sigmoid函数映射到[0,1]区间内的浮点值。
CharGLM-4(charglm-4)是智谱AI推出的超拟人大模型,核心优势为拟人化对话能力:支持基于人设的角色扮演,具备超长多轮记忆,可实现千人千面的角色对话;擅长适配情感陪伴、游戏智能NPC打造、网红/明星/影视剧IP分身、数字人/虚拟主播、文字冒险游戏等拟人对话或游戏类场景,具备情感模拟与记忆网络功能,能满足多种人格化AI交互需求。
chatgpt-4o-latest 模型版本持续指向 ChatGPT 中使用的 GPT-4o 版本,并在有重大变化时最快更新。
于2024年10月22日发布的快照版本,Claude 3.5 Haiku在各项技能上都有所提升,包括编码、工具使用和推理。作为Anthropic系列中速度最快的模型,它提供快速响应时间,适用于需要高互动性和低延迟的应用,如面向用户的聊天机器人和即时代码补全。它在数据提取和实时内容审核等专业任务中也表现出色,使其成为各行业广泛应用的多功能工具。它不支持图像输入。
于2024年6月20日发布的快照版本,Claude 3.5 Sonnet是一个平衡了性能和速度的模型,在保持高速度的同时提供顶级性能,支持多模态输入。