阿里通义Qwen2成斯坦福大模子榜单最强开源模子

发布日期：2024-06-25 05:52 点击次数：71

【行家网科技详尽报谈】6月20日音信，斯坦福大学的大模子测评榜单HELM MMLU发布最新着力，斯坦福大学基础模子接头中心主任Percy Liang发文暗意，阿里通义千问Qwen2-72B模子成为名次最高的开源大模子，性能特出Llama3-70B模子。

MMLU（Massive Multitask Language Understanding，大规模多任务谈话倡导）是业界最有影响力的大模子测评基准之一，涵盖了基础数学、打算机科学、法律、历史等57项任务，用以测试大模子的全国常识和问题处理才气。但在履行测评中，不同参评模子的测评着力随机缺少一致性、可比性，原因包括使用非尺度指示词时候、莫得长入遴荐开源评价框架等等。

斯坦福大学基础模子接头中心（CRFM，Center for Research on Foundation Models）建议的基础模子评估框架HELM（A holistic framework for evaluating foundation models），旨在创造一种透明、可复现的评估关节。该关节基于HELM框架，对不同模子在MMLU上的评估着力进行尺度化和透明化处理，从而克服现存MMLU评估中存在的问题。比如，针对整个参评模子，齐遴荐交流的指示词；针对每项测试主题，齐给模子提供不异的5个示例进行情境学习，等等。

日前，斯坦福大学基础模子接头中心主任Percy Liang在外交平台发布了HELM MMLU最新榜单，阿里巴巴的通义千问开源模子Qwen2-72B名循序5，仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4，是名循序一的开源大模子，亦然名次最高的中国大模子。

据悉，通义千问Qwen2于6月初开源，包含5个尺寸的预考验和指示微调模子，当今Qwen系列模子下载量还是冲破1600万。

上一篇：能聊天、懂科普全球首只全真大熊猫入驻QQ浏览器

下一篇：弗兰克：二比零时应该踢得智谋些，比赛后半程咱们犯了许多错