全球第一:阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI 大模型榜单

阅读量:53

2 月 5 日消息,1 月 29 日新年之际,阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型,号称在多个基准测试中超越 DeepSeek V3 等竞争对手。

阿里云今日宣布,Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。

同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。

图片

IT之家查询公开资料获悉,Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,目前集成了 190 多种模型。

该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。因此,Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权威榜单之一,也是全球顶级大模型的最重要竞技场。

图片

阿里云表示,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。

图片
  • Avatar photo

    小杉

    网站小编

    Related Posts

    阿里云本月将在韩国设立第二座数据中心,加速全球扩张

    阅读量:77  6 月 19 日消息,据彭博社今日…

    硅基流动入驻阿里云云市场,核心 API 服务将全面接入百炼平台

    阅读量:76 6 月 18 日消息,据阿里云官方消息,硅基流…

    重新回味

    vivo X300 Pro与iPhone 16 Pro Max对比图出炉:6.78英寸超窄边直屏

    • 小杉
    • 8 9 月, 2025
    • 5409 views
    vivo X300 Pro与iPhone 16 Pro Max对比图出炉:6.78英寸超窄边直屏

    无法再安装!微软宣布停用Outlook Lite轻量版

    • 小杉
    • 7 9 月, 2025
    • 5206 views
    无法再安装!微软宣布停用Outlook Lite轻量版

    博主体验小米澎湃OS 3:最大感受就是稳

    • 小杉
    • 6 9 月, 2025
    • 5158 views
    博主体验小米澎湃OS 3:最大感受就是稳

    你看到过吗 微信刷掌已在全国30多个省市上线

    • 小杉
    • 5 9 月, 2025
    • 5228 views
    你看到过吗 微信刷掌已在全国30多个省市上线

    华为Mate XTs上架官网:实体双SIM卡 不支持eSIM

    • 小杉
    • 4 9 月, 2025
    • 5429 views
    华为Mate XTs上架官网:实体双SIM卡 不支持eSIM

    NVIDIA旧显卡安全凭证即将到期:或导致Windows 11启动后黑屏

    • 小杉
    • 3 9 月, 2025
    • 5171 views
    NVIDIA旧显卡安全凭证即将到期:或导致Windows 11启动后黑屏