https://cevalbenchmark.com/static/leaderboard_zh.html 是 中文大模型评估基准 C-Eval 的官方排行榜页面,主要用于展示不同大语言模型(LLMs)在多层次、多学科中文任务中的综合能力排名。以下是对其核心功能和特点的详细介绍:
一、核心功能
- 模型能力排名
提供实时更新的中文大模型性能排行榜,涵盖国内外主流模型(如 GPT-4、GLM、ChatGPT 等),通过标准化分数直观对比模型在复杂任务中的表现。 - 多层次评估体系
- 学科覆盖:包含 52 个学科,覆盖初中、高中、大学、专业四大难度级别,例如数学、物理、化学、法学、医学等。
- 题目类型:13,948 道选择题,题目来源包括 PDF/Word 解析和人工标注,避免训练数据污染。
- 挑战性子集(C-Eval Hard):从评估集中筛选 8 个高难度科目(如高等数学、离散数学),测试模型的深度推理能力。
- 评估模式支持
- Answer-Only(AO):直接输出答案。
- Chain-of-Thought(CoT):要求模型生成推理过程后再回答,部分科目中 CoT 可显著提升性能(如 GPT-4 在概率统计科目上提升 8.4%)。
- 开发者工具
- 测试集提交:用户可将模型预测结果提交至网站,系统自动生成分数并更新排名,测试集标签保密以保证公平性。
- 数据防污染设计:采用非结构化数据格式(如 LaTeX)和人工审核,减少预训练数据泄露风险。
二、典型应用场景
- 模型研发优化:帮助开发者识别模型在特定学科或难度级别的短板,针对性优化训练策略。
- 技术选型参考:企业可根据排行榜选择适合自身场景的模型(如教育、医疗、法律等领域)。
- 学术研究支持:为研究中文大模型能力边界、多任务学习机制等提供数据基础。
三、榜单示例(截至搜索结果时间)
排名 | 模型 | 综合得分 | 特点 |
---|---|---|---|
1 | GLM-4 | 87.2 | 国内领先的推理能力 |
2 | GPT-4 | 85.0 | 多学科均衡表现 |
3 | Claude-3 | 78.5 | 逻辑推理优势显著 |
四、访问与使用
- 官网入口:https://cevalbenchmark.com
- 数据下载:提供开发集和验证集标签,测试集需通过提交预测结果参与评估。
如需更详细的评估方法或学科分类,可参考 C-Eval 论文 或访问官网文档。
上月数据概览
月访问量 | 2927.41 | 对比上月 | 0.00% | 月PV | 6582 |
---|---|---|---|---|---|
平均访问时长 | 90秒 | 跳出率 | 43.20% | 人均访问页面数 | 2 |
热门国家/地区访客分布
国家 | 流量占比 | 月访问量 | 人均访问时长 | 人均访问页数 | 跳出率 |
---|---|---|---|---|---|
中国台湾 | 9.73% | -66.98% | 62秒 | 1 | 78.08% |
中国香港 | 10.33% | 0.00% | 0秒 | 1 | 52.13% |
美国 | 12.45% | -68.97% | 0秒 | 1 | 47.43% |
新加坡 | 13.73% | 32.93% | 5秒 | 1 | 58.93% |
中国大陆 | 53.78% | -59.28% | 282秒 | 2 | 13.76% |
©版权声明: 本网站(猫目,网址:https://maomu.com/ )所有内容,包括但不限于文字、图片、图标、数据、产品描述、页面设计及代码,均受中华人民共和国著作权法及国际版权法律保护,归本站所有。未经书面授权,任何个人、组织或机构不得以任何形式复制、转载、修改、传播或用于商业用途。 对于任何侵犯本网站版权的行为,我们保留追究其法律责任的权利,包括但不限于要求停止侵权、赔偿损失及提起诉讼。
你可能还喜欢

AGI-Eval评测社区
是由上海交通大学、同济大学、华东师范大学以及 DataWhale 等高校和机构合作推出的大模型评测社区

Ai-Ceping
领先的大模型评测平台
Chatbot Arena
LMArena.ai 的核心目标是通过用户偏好评估 AI 模型,构建公开的排行榜,促进 AI 技术的进步。

Prompt Llama
一个专注于文本到图像提示生成和模型性能测试的平台,适合对生成模型感兴趣的用户、开发者和创意人士。其核心功能包括生成高质量提示、跨模型测试和结果比较,主要服务于艺术创作、模型研究和提示优化等领域。虽然目前信息有限,但它定位于提供用户友好的工具,帮助用户探索和评估文本到图像生成技术的潜力。
MMLU
MMLU 是一个广泛使用的基准,测试模型在多个学科和任务上的语言理解能力,涵盖高中、大学和专业水平的知识。
Open LLM Leaderboard
由 open-llm-leaderboard 团队创建。它的主要目的是跟踪、排名和评估开源大语言模型(LLMs)和聊天机器人,为用户提供一个透明、可比较的平台,以了解不同模型的性能表现。

MMBench
MMBench 的官方排行榜页面,由 OpenCompass 社区维护。

OpenCompass司南 - 评测榜单
OpenCompass 平台的 LLM(大语言模型)排行榜页面,由 OpenCompass 社区维护。