前言

作为大模型应用的最热门赛道,AI 编程一直以来都被国外闭源模型垄断,从OpenAI的CodeX,到谷歌的Gemini Cli 再到 Claude Code,这些AI编程智能体几乎没见到开源模型的身影。我国苦“无超强代码大模型”久矣,尽管DeepSeek-R1-0528模型和Kimi K2模型都试图在AI编程方面发力,但无论是模型性能还是编程的工具生态,比起国外的闭源模型尤其是Claude4还有不小的差距。

难道国产大模型在代码编程领域一个能打的都没有?开源模型的神——“源神”Qwen3第一个不同意。北京时间7月23日,Qwen3正式开源最新一代编程旗舰模型——Qwen3 Coder。它不仅在编程和Agent能力评分方面全面追平Claude 4, 并且在实际编程过程中,无论是用户理解还是物理遵循,无论是前端的视觉设计还是交互设计,Qwen3-Coder都有非常亮眼的表现。

秉持着大模型研究者的严谨性,笔者通宵对Qwen3-Coder模型进行了性能测试,总结Qwen3-Coder模型的特点,体验Qwen3-Code-Agnet智能体原生对Qwen3-Coder模型的有力支撑。本篇分享我将结合官方报道和实际评测,向大家分享Qwen3 Coder模型的核心亮点!一起来看看吧~

一、Qwen3-Coder核心特性

作为全球开源模型的领军人物,Qwen3模型最近迎来一批重大升级,前两天才刚发布了最新的旗舰对话模型Qwen3-235B-A22B。7月22日千问团队进一步发布了尺寸更大的编程模型Qwen3-Coder-480B-A35B。虽然Qwen3 Coder模型采用了与Qwen3旗舰对话模型相同的MoE架构,但总参数量更大达到480B,是Qwen3旗舰对话模型参数量的两倍,单次推理激活35B参数,个人本地部署最低需要160G的显存,企业部署至少需要320G的显存才能保障并发。

1.1 官方报告性能显著

根据官方发布的评测结果,Qwen3-Coder-480B-A35B模型在编程题目测试、Agentic Coding、浏览器自动化Agentic Browser-Use和工具调用Agentic Tool-Use这四方面都是性能最强的开源模型没有之一。在各大评分榜单上,Qwen3-Coder不仅全面领先Kimi-K2、DeepSeek-V3和GPT-4.1, 更是追平了Claude 4 Sonnet模型性能,也就是说Qwen3-Coder就是目前开源模型中编程性能和Agent性能的双料冠军。同时从评测中也可以看出,Qwen3 Coder的Agent性能和Claude 4也不分伯仲,不仅能够高效准确完成工具调用,同时在面对复杂问题时能长期保持解决问题的一致性,并在执行失败时自主反思调整策略。

1.2 超长上下