中國阿里雲發佈Qwen2.5-Max，模型性能超越DeepSeek-V3

08:05, 30 1月 2025

CC0 / Gerd Altmann /

1月29日，阿里雲通義千問旗艦版模型Qwen2.5-Max正式發佈。阿里雲表示，新模型展現出極強勁的綜合性能，在多項公開主流模型評測基準上錄得高分，全面超越了目前全球領先的開源MoE模型以及最大的開源稠密模型。

阿里雲稱，Qwen2.5-Max在知識（測試大學水平知識的MMLU-Pro）、編程（LiveCodeBench）、全面評估綜合能力的（LiveBench）以及人類偏好對齊（Arena-Hard）等主流權威基準測試上，展現出全球領先的模型性能。通義團隊分別對Qwen2.5-Max的指令（Instruct）模型版本和基座（base）模型版本性能進行了評估測試。

據悉，指令模型是所有人可直接對話體驗到的模型版本，在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中，Qwen2.5-Max比肩Claude-3.5-Sonnet，並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。

基座模型反映模型裸性能，由於無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型，通義團隊將Qwen2.5-Max與目前領先的開源MoE模型 DeepSeek V3、最大的開源稠密模型Llama-3.1-405B，以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了對比。評估結果顯示，在所有11項基準測試中，Qwen2.5-Max全部超越了對比模型。

目前，Qwen2.5-Max已在阿里雲百鍊平台上架，模型名稱qwen-max-2025-01-25`，企業和開發者都可通過阿里雲百鍊調用新模型API。同時，也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max，直接與模型對話，或者使用artifacts、搜索等功能。

據路透社報道，選擇在大年初一髮布Qwen 2.5-Max是較為特殊的時間點，也顯示了深度求索（DeepSeek）過去三周迅速崛起，給中國境內外競爭對手帶來壓力。

深度求索1月20日發佈推理模型DeepSeek-R1後，字節跳動旗下豆包更新版大模型1.5-pro於22日正式發佈。據悉，1.5-pro模型增強了綜合能力，在知識、代碼、推理、中文等多個測評基準上，綜合得分優於GPT-4o、Claude 3.5 Sonnet 等模型。

中國初創公司 DeepSeek 震撼市場，標誌著中美人工智能競賽進入新時代

1月29日, 17:35