阿里雲稱,Qwen2.5-Max在知識(測試大學水平知識的MMLU-Pro)、編程(LiveCodeBench)、全面評估綜合能力的(LiveBench)以及人類偏好對齊(Arena-Hard)等主流權威基準測試上,展現出全球領先的模型性能。通義團隊分別對Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能進行了評估測試。
據悉,指令模型是所有人可直接對話體驗到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,並幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
基座模型反映模型裸性能,由於無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團隊將Qwen2.5-Max與目前領先的開源MoE模型 DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進行了對比。評估結果顯示,在所有11項基準測試中,Qwen2.5-Max全部超越了對比模型。
目前,Qwen2.5-Max已在阿里雲百鍊平台上架,模型名稱qwen-max-2025-01-25`,企業和開發者都可通過阿里雲百鍊調用新模型API。同時,也可以在全新的Qwen Chat平台上中使用Qwen2.5-Max,直接與模型對話,或者使用artifacts、搜索等功能。
據路透社報道,選擇在大年初一髮布Qwen 2.5-Max是較為特殊的時間點,也顯示了深度求索(DeepSeek)過去三周迅速崛起,給中國境內外競爭對手帶來壓力。
深度求索1月20日發佈推理模型DeepSeek-R1後,字節跳動旗下豆包更新版大模型1.5-pro於22日正式發佈。據悉,1.5-pro模型增強了綜合能力,在知識、代碼、推理、中文等多個測評基準上,綜合得分優於GPT-4o、Claude 3.5 Sonnet 等模型。