LLM-Ceping 全面的大语言模型评测知识库

✨ 用数据淘金，人工智能需要你助力！ ✨

简介 • 用户贡献 • AI-Ceping 大模型测评知识库 • wiki • FAQ • 相关文献

背景

在人工智能领域，大型语言模型（Large Language Model）的发展迅猛，它们通过深度学习和大量数据训练，在语言理解、生成和翻译等方面取得了显著进步。随着ChatGPT等模型的出现，LLM的应用范围不断扩大，展现出巨大潜力。

但LLM的快速发展也带来了挑战，如何有效评估它们的性能和安全性变得尤为关键。传统评测方法依赖专家主观判断，缺乏客观性和可重复性。同时，随着模型规模和复杂性的增加，单一评测指标已不足以全面反映模型能力。

AI.ceping.mp4

简介

⭐LLM-Ceping AI-Ceping，一个由同济大学开发的大模型评测数据收集平台。是为了应对大语言模型（LLM）评测的迫切需求，尤其是在 ChatGPT 掀起的研究和应用浪潮之后。使命是构建一个权威、公正、透明的评测环境，以客观评估大型语言模型的能力，并反映这些模型需要解决的问题。

Tip

评测方法通过用户提问和撰写参考答案来参与大模型的训练和评测。用户可以通过向模型提问，让三个大模型生成回答，并获得一定的奖励。此外，用户还可以选择喜欢的模型回答，涉及文字、语音和视频等多模态内容
评测标准评测方法包括使用强模型（如 GPT-4）来打分评测回答质量，衡量模型的指令遵循能力和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项.
目标期望通过每位用户对大模型应用的理解以及自身具备的不同领域的知识，设计高质量的评测数据来对大模型进行综合的评估。通过这个平台，用户可以为大模型的训练与评测注入活力， AI-Ceping 还提供了详细的任务概况说明，包括背景、奖励规则、活动须知、反作弊说明和活动安排等，以确保评测活动的顺利进行。通过这个平台，用户可以为大模型的训练与评测注入活力，同时也有机会获得现金奖励

用户贡献

Important

我们的平台已经吸引超过 22,415 名来自不同地区的用户。已经累积了 348,576 条数据提交记录，其中覆盖了众多主题和领域。包含超 563 种不同的标签
在此列举了平台核心用户（前十名）

平台核心功能

以下包含了平台核心功能
	单条数据｜向大模型提真实问题向模型提问，让三个大模型生成回答，即可获得奖励
数据扩写｜撰写问答对，给大模型出题提问并撰写参考答案，为大模型训练与评测注入血液
	评测任务｜做选择题，选择你满意的内容 pick你喜欢的模型回答，回答涉及文字、语音和视频等多模态内容，等你来评价！
模型擂台｜最强大模型，由你来评随机派送2个大模型为你服务，输入问题，选择你喜欢的回答，看看哪个模型表现好

AI-Ceping大模型测评知识库

这里我们与社区用户共建了《AI-Ceping 大模型测评知识库》，帮助大家快速了解入门AI大模型：

Note

📕 AI 大模型评测知识分享。从0到1带大家入门大模型评测，成为Prompt大师和大语言模型评测专家。
📗 各赛道大模型榜单维护。从市面上繁杂的大模型排行榜甄选出最具参考价值的LeaderBoard，降低用户的时间成本。
📘 大模型资讯更新。最终标杆模型最新动态，快速捕捉大模型发现最前沿讯息。
📙 数据集渠道整合。从海量开源数据集筛选优质数据集，方便大模型使用者快速微调、评测。
📙 共建 AI-Ceping（爱测评）社区：大模型数据灵感众筹平台。由同济大学发起，鼓励用户通过自己的创意和灵感，贡献真实的AI语料，以助于大模型的持续迭代和维护。

FAQ

请先访问我们的项目Wiki，这里汇集了常见问题的解答和操作指南。如果Wiki中没有你要找的答案，欢迎提出你的问题，我们会尽快回复。

Prompt Engineering 提示词工程

资源名称	资源描述	资源链接
吴恩达讲ChatGPT提示工程	吴恩达与OpenAI官方合作的ChatGPT提示工程课程	Bilibili 视频
大模型时代的科研基础之：Prompt Engineering	微软亚洲研究院高级研究员王晋东讲提示词工程	Bilibili 视频知乎文字版

LeaderBord （社区评测榜单）

基础模型榜单

榜单名🚀	榜单介绍💬	榜单详情📄
Leaderboard	LMSYS Chatbot Arena 是一个由众包方式建立的大型语言模型（LLM）评估开放平台,已经收集了超过 1,000,000 人工成对比较数据，并使用 Bradley-Terry 模型对 LLM 进行排名，并在 Elo 评分系统中显示模型评分。	HuggingFace🤗 Blog🎞 GitHub🔧 DataSet📂
C-Eval: A Multi-Level Multi-Discipline Chinese EvaluationSuite for Foundation Models	C-Eval是全面的中文基础模型评估套件，涵盖了52个不同学科的13948个多项选择题，分为四个难度级别。	🌐 网站 https://cevalbenchmark.com • 🤗 Hugging Face • ⏬ 数据 • 📃 论文 📖 教程

多模态榜单

榜单名🚀	榜单介绍💬	榜单详情📄
OpenCompass 多模态评测月度榜单	展示了不同多模态模型在各项多模态评测基准上的性能，以平均分的降序排序。目前榜单基于以下 8 个数据集进行平均分计算：MMBench v1.1 (中英测试集), MMStar, MMMU (验证集), MathVista (迷你测试集), HallusionBench, AI2D (测试集), OCRBench, MMVet。本榜单目前仅包含开源模型或是公众可访问的 API 模型。如果你想在榜单上添加新模型，并确认它符合条件，请在 VLMEvalKit 中提交 PR 以支持新模型，我们会随后完成评测与榜单更新。	🌐 官方网站 · 📖 数据集社区 · 📊 性能榜单 · 📘 文档教程 · 🛠️ 安装
OpenVLM Leaderboard	这个排行榜上分享了通过VLMEvalKit开源框架获得的VLM的评估结果	https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

Name		Name	Last commit message	Last commit date
Latest commit History 177 Commits
images		images
README.md		README.md

以下包含了平台核心功能
	单条数据｜向大模型提真实问题向模型提问，让三个大模型生成回答，即可获得奖励
数据扩写｜撰写问答对，给大模型出题提问并撰写参考答案，为大模型训练与评测注入血液
	评测任务｜做选择题，选择你满意的内容 pick你喜欢的模型回答，回答涉及文字、语音和视频等多模态内容，等你来评价！
模型擂台｜最强大模型，由你来评随机派送2个大模型为你服务，输入问题，选择你喜欢的回答，看看哪个模型表现好

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM-Ceping 全面的大语言模型评测知识库

背景

简介

用户贡献

平台核心功能

AI-Ceping大模型测评知识库

FAQ

相关文献

Prompt Engineering 提示词工程

LeaderBord （社区评测榜单）

基础模型榜单

多模态榜单

Star History

About

Releases

Packages

Contributors 5

AI-Ceping/LLM-Ceping

Folders and files

Latest commit

History

Repository files navigation

LLM-Ceping 全面的大语言模型评测知识库

背景

简介

用户贡献

平台核心功能

AI-Ceping大模型测评知识库

FAQ

相关文献

Prompt Engineering 提示词工程

LeaderBord （社区评测榜单）

基础模型榜单

多模态榜单

Star History

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 5

Packages