大模型评测体系司南OpenCompass2.0发布,年度大模型榜单揭晓,司南合作伙伴计划启动

1月30日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大模型技术创新提供坚实的技术支撑。

OpenCompass2.0同时揭晓了2023年度大模型公开评测榜单,评测结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

自诞生以来,OpenCompass在学术界和产业界引起了广泛关注,并迅速成为全球领先的大模型能力评测体系。截至目前,评测榜单涉及的大语言模型和多模态大模型超过150个,已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用OpenCompass助力开展技术研发。

基于全新升级的大模型评测体系,OpenCompass启动“司南大模型评测伙伴计划”,将携手各行业的头部企业机构共同推进大模型落地赋能千行百业。

司南OpenCompass2.0评测体系官网:

https://opencompass.org.cn/

GitHub主页:

https://github.com/open-compass/OpenCompass/

年度榜单:

GPT-4稳坐头把交椅,开源模型未来可期

OpenCompass2.0对过去一年来主流开源模型和商业API模型进行了全面评测,分析结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,与此同时,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。

据了解,更多企业也在陆续发布新的大模型。截至榜单发布时,部分新的大模型尚未纳入本次榜单,期待它们在后续更新的榜单中有优秀的表现。

OpenCompass2.0大语言模型中英双语客观评测前十名(采用百分制;商用闭源模型通过API形式测试,开源模型直接在模型权重上测试)

基于语言、知识、推理、数学、代码、智能体等六个维度,OpenCompass构建了超过1.5万道高质量中英文双语问题,并引入OpenCompass首创的循环评估(Circular Evalution)策略,系统地分析了国内外大模型的综合客观性能。客观评测结果显示:

大语言模型整体能力仍有较大提升空间:由于采用了更加准确的循环评测策略,OpenCompass2.0实现了对模型真实能力分析。在百分制的客观评测基准中,GPT-4 Turbo也仅达到61.8分的及格水平。此结果显示,复杂推理仍然是大模型面临的重要难题,需要进一步的技术创新来攻克。

闭源商业模型主客观能力均衡:在综合性客观评测中,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0也获得了不错的成绩,反映了这些模型具有较为均衡和全面的性能。上述模型在语言和知识等基础能力维度上可以比肩GPT-4 Turbo。

推理、数学、代码、智能体是国内大模型的短板:GPT-4 Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型,在复杂推理、可靠地解决复杂问题等方面,仍需下大功夫。

主客观性能需综合参考:不少开源模型在客观性能和主观性能方面和API模型仍存在相当程度的差距,这说明整个社区不仅需要提升客观性能夯实能力基础,更需要在人类偏好对齐上下足功夫。合理科学地使用评测基准,对模型能力进行细致对比和分析,是模型厂商不断提升模型能力的不二法门。

基于语言、知识、创作、数学与推理等五个维度,OpenCompass2.0构建超过500道高质量中文问题,采用基于大语言模型对战的方式评测主流模型在开放场景下的对话体验。基于主观评测分析,研究人员得到一些有趣的观察:

国内模型在中文场景下相比海外模型具有性能优势:在中文语言理解、中文知识和中文创作上,国内商业模型相比 GPT-4 Turbo 具有极强的竞争力,甚至部分模型实现了单个维度上对 GPT-4 Turbo 的超越。

中文闭源大语言模型接近GPT-4 Turbo水平:不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,阿里巴巴Qwen-Max、智谱清言 GLM-4、百度文心4.0都取得了优秀的成绩;期待随着更多厂商的新模型发布,赶超GPT-4 Turbo迈出更坚实的步伐。

开源社区未来可期:开源社区的Yi-34B-Chat、InternLM2-Chat-20B在综合性对话体验上达到了所有主流开源模型的第一梯度,并以中轻量级的参数量、接近商业闭源模型的性能,为学界和业界提供了良好的应用基础。

“铁三角”支撑大模型能力评测体系

本次发布的OpenCompass2.0,首次推出支撑大模型评测的“铁三角”:权威评测榜单CompassRank、高质量评测基准社区CompassHub、评测工具链体系CompassKit。

基于全新升级的能力体系和工具链,OpenCompass2.0构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面对大模型进行评测分析。通过高质量、多层次的综合性能力评测基准,OpenCompass2.0创新了多项能力评测方法,实现了对模型真实能力的全面诊断。

OpenCompass2.0能力评测铁三角

CompassRank:中立全面的性能榜单

作为OpenCompass2.0中各类榜单的承载平台,CompassRank不受任何商业利益干扰,保持中立性。同时,依托CompassKit工具链体系中的各类评测手段,保证了CompassRank的客观性。CompassRank不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。

CompassRank 榜单地址:https://rank.opencompass.org.cn/home


CompassHub:高质量评测基准社区

CompassHub是面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。OpenCompass2.0欢迎评测用户在CompassHub上传各自构建的高质量评测基准,发布相应的性能榜单,汇聚社区力量助力大模型社区整体快速发展。

CompassHub社区地址:https://hub.opencompass.org.cn/home


CompassKit:大模型评测全栈工具链

OpenCompass2.0对广受欢迎的初代评测工具库进行了全面优化,推出大模型评测全栈工具链CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

CompassKit工具链地址:https://github.com/open-compass

 CompassKit中包含:

• OpenCompass升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。

• VLMEvalKit多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。

• Code-Evaluator代码评测服务工具:提供基于docker的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。

• MixtralKit MoE模型入门工具:为MoE模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。


全面评测维度,高质量评测基准

OpenCompass2.0的评测维度包括基础能力和综合能力两个层级,涵盖了语言、知识、理解、数学、代码、长文本、智能体等12个一级能力维度,综合设计了50余个二级能力维度。能力维度设计具备可扩展性和增长性,同时可根据未来的大模型应用场景进行动态更新和迭代。

基础能力维度以语言、知识、理解、数学、代码为核心,包括意图识别、情感分析、内容评价与总结、多语言翻译、汉语与中国传统文化、常识百科、自然科学、人文社科、计算能力、数学应用能力、多编程语言代码等20余项细分任务。而综合能力旨在考察模型在综合运用知识、数学推理、代码工具等多种能力完成复杂任务的水平。

在全方位评测维度的基础上,高质量的评测基准对模型评测统一至关重要。OpenCompass2.0团队构建了一批高质量中英双语大模型能力评测基准,涵盖数学计算与应用、工具调用、代码解释器、中文创作等多个方向,综合评估模型执行复杂任务的能力。

• MathBench:多知识点全学段的数学能力评测基准

面向大语言模型数学能力评估的评测基准,题目覆盖从基础计算到小学、中学、高中和大学教育阶段的全部范围,使用自研的循环评估方法来真实地反映模型的实际能力。

• T-Eval:大模型细粒度工具能力评测基准

通过将任务细分为多个子维度,如规划、推理、检索、理解、遵循指令和审查等,提供更细致的视角来评估LLM的工具调用能力。它设计了专门的评测指标,全面度量工具调用性能,并为改进模型提供指导。

CIBench:代码解释器能力评测基准

通过构造丰富的任务场景和软件库的多样性,以及采用模拟真实用户场景的多轮对话方式,全面评估大模型在意图识别、代码撰写、工具调用、代码分析与推理等方面的能力。

CreationBench: 多场景中文创作能力评测基准

通过模型对战、打分和细粒度评分等多种评估方式,实时反映大语言模型的创作能力。

CriticBench:多维度的LLM反思能力评估基准

通过提供全面的反思形式、丰富的场景数据、多样的反思任务、海量的数据集规模和高质量的参考反思,提升了LLM反思能力评估的准确性和全面性,推动LLM的自我改进和稳健性。

F-Eval:大模型基础能力评测基准

包含中文和英文两种语言,考察了表达能力、常识能力和逻辑能力三个主要维度和15个子维度。

评测促发展,司南伙伴计划启动

模型的能力评测不仅是技术进步的度量衡,更是推动模型迭代和优化的重要驱动力。OpenCompass2.0将通过对模型客观性能的反馈,为产业及学术界提供具备权威度的参考指标,与各界一道深入分析评测数据,针对性提出性能提升策略,以评测促进技术发展。

目前,OpenCompass2.0已和合作伙伴共同推出了多个垂直领域的评测基准和数据集,包括:

法律领域:联合南京大学推出 LawBench 评测基准,全面评估大模型在法律任务中的应用能力。

金融领域:和东方财富等行业伙伴共同推出全场景金融开源测评数据集 OpenFinData,涵盖从基础数据到专业金融场景的广泛层次。

医疗领域:与上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室等医疗机构和企业共同推出面向中文医疗大语言模型的评测系统 MedBench,覆盖医学语言理解、生成、知识问答、推理及安全和伦理等方面。

网络安全领域:与腾讯朱雀实验室、腾讯安全科恩实验室、清华大学以及香港理工大学等研究团队共同打造首个网络安全大模型评测平台 SecBench,专注于评估大模型在网络安全领域的应用能力。

基于OpenCompass2.0大模型评测体系,司南大模型评测伙伴计划正式启动。未来,司南将与各行业的头部企业机构一起,构建各类高质量的行业评测基准,致力于推进大模型在千行百业应用落地和实践。

司南能力体系合作伙伴:共同建立面向未来大模型技术演进的能力体系,构建通用大模型能力评价维度,参与大模型相关重要标准和规范的制定。

司南行业评测基准合作伙伴: 共同建立行业大模型评测集,共同发布行业榜单,为行业大模型能力发展提供方向指引。

司南工具链合作伙伴:诚邀各类大模型及应用相关企业,基于OpenCompass工具链体系共同研发高质量评测工具链,面向大语言模型、多模态大模型等方向,建设全面科学高效的自动化评测服务,共同提高模型和应用的研发效率。

本文文字及图片出自 上海人工智能实验室

余下全文(1/3)
分享这篇文章:

请关注我们:

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注