你的位置:济宁刃戏商贸有限公司 > 同轴连接器(RF) >
发布日期:2024-06-25 05:52 点击次数:71
【行家网科技详尽报谈】6月20日音信,斯坦福大学的大模子测评榜单HELM MMLU发布最新着力,斯坦福大学基础模子接头中心主任Percy Liang发文暗意,阿里通义千问Qwen2-72B模子成为名次最高的开源大模子,性能特出Llama3-70B模子。
MMLU(Massive Multitask Language Understanding,大规模多任务谈话倡导)是业界最有影响力的大模子测评基准之一,涵盖了基础数学、打算机科学、法律、历史等57项任务,用以测试大模子的全国常识和问题处理才气。但在履行测评中,不同参评模子的测评着力随机缺少一致性、可比性,原因包括使用非尺度指示词时候、莫得长入遴荐开源评价框架等等。
斯坦福大学基础模子接头中心(CRFM,Center for Research on Foundation Models)建议的基础模子评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估关节。该关节基于HELM框架,对不同模子在MMLU上的评估着力进行尺度化和透明化处理,从而克服现存MMLU评估中存在的问题。比如,针对整个参评模子,齐遴荐交流的指示词;针对每项测试主题,齐给模子提供不异的5个示例进行情境学习,等等。
日前,斯坦福大学基础模子接头中心主任Percy Liang在外交平台发布了HELM MMLU最新榜单,阿里巴巴的通义千问开源模子Qwen2-72B名循序5,仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是名循序一的开源大模子,亦然名次最高的中国大模子。
据悉,通义千问Qwen2于6月初开源,包含5个尺寸的预考验和指示微调模子,当今Qwen系列模子下载量还是冲破1600万。