全球第一:阿里云宣布通义千问 Qwen2.5-Max 数学及编程能力登顶最新 AI 大模型榜单

阅读量:28

2 月 5 日消息,1 月 29 日新年之际,阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型,号称在多个基准测试中超越 DeepSeek V3 等竞争对手。

阿里云今日宣布,Qwen2.5-Max 在 Chatbot Arena 大模型盲测中超越 DeepSeek-V3、Open AI o1-mini 和 Claude-3.5-Sonnet 等模型,以 1332 分位列全球第七名,也是非推理类的中国大模型冠军。

同时,Qwen2.5-Max 在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。

图片

IT之家查询公开资料获悉,Chatbot Arena 是由 LMSYS Org 推出的大模型性能测试平台,目前集成了 190 多种模型。

该榜单采用匿名方式将大模型两两组队,交给用户进行盲测,用户根据真实对话体验对模型能力进行投票。因此,Chatbot Arena LLM Leaderboard 成为业界公认的最公正、最权威榜单之一,也是全球顶级大模型的最重要竞技场。

图片

阿里云表示,在 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 及 MMLU-Pro 等主流基准测试中,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及 Llama-3.1-405B。

图片
  • Avatar photo

    小杉

    网站小编

    Related Posts

    阿里云本月将在韩国设立第二座数据中心,加速全球扩张

    阅读量:57  6 月 19 日消息,据彭博社今日…

    硅基流动入驻阿里云云市场,核心 API 服务将全面接入百炼平台

    阅读量:53 6 月 18 日消息,据阿里云官方消息,硅基流…

    重新回味

    PC版已上线!鸿蒙微信手机版负责人:我们终极目标对齐安卓和iOS 甚至超过iOS

    • 小杉
    • 5 7 月, 2025
    • 4075 views
    PC版已上线!鸿蒙微信手机版负责人:我们终极目标对齐安卓和iOS 甚至超过iOS

    iPhone在中国销量两年来首次增长背后:苹果不降价你还会买吗

    • 小杉
    • 5 7 月, 2025
    • 4274 views
    iPhone在中国销量两年来首次增长背后:苹果不降价你还会买吗

    全系爆款 比亚迪海洋网今年销量已破100万辆

    • 小杉
    • 4 7 月, 2025
    • 4128 views
    全系爆款 比亚迪海洋网今年销量已破100万辆

    抖音新规出炉:未满16周岁禁止出镜直播

    • 小杉
    • 4 7 月, 2025
    • 4861 views
    抖音新规出炉:未满16周岁禁止出镜直播

    配置缩水严重!消息称RTX 5090中国新定制版8月上市:仍要卖16499元

    • 小杉
    • 3 7 月, 2025
    • 4177 views
    配置缩水严重!消息称RTX 5090中国新定制版8月上市:仍要卖16499元

    马斯克炒掉心腹高管 亲自接管销售大权

    • 小杉
    • 3 7 月, 2025
    • 4148 views
    马斯克炒掉心腹高管 亲自接管销售大权