Skip to content

全方位大模型评测知识库 | 提示词工程(Prompt Engineer)、各渠道大模型榜单(LeaderBoard)、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音识别、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科考试、医学、信息学、心理学、指代消解、常识推理、知识问答...

Notifications You must be signed in to change notification settings

AI-Ceping/LLM-Ceping

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 

Repository files navigation

Your Logo

LLM-Ceping 全面的大语言模型评测知识库

✨ 用数据淘金,人工智能需要你助力! ✨

license
feishu Wechat BiliBili Xiaohongshu

简介  •  用户贡献  •  AI-Ceping 大模型测评知识库  •  wiki  •  FAQ  •  相关文献


背景

在人工智能领域,大型语言模型(Large Language Model)的发展迅猛,它们通过深度学习和大量数据训练,在语言理解、生成和翻译等方面取得了显著进步。随着ChatGPT等模型的出现,LLM的应用范围不断扩大,展现出巨大潜力。

但LLM的快速发展也带来了挑战,如何有效评估它们的性能和安全性变得尤为关键。传统评测方法依赖专家主观判断,缺乏客观性和可重复性。同时,随着模型规模和复杂性的增加,单一评测指标已不足以全面反映模型能力。

AI.ceping.mp4

简介

LLM-Ceping AI-Ceping,一个由同济大学开发的大模型评测数据收集平台。是为了应对大语言模型(LLM)评测的迫切需求,尤其是在 ChatGPT 掀起的研究和应用浪潮之后。使命是构建一个权威、公正、透明的评测环境,以客观评估大型语言模型的能力,并反映这些模型需要解决的问题。

Tip

  • 评测方法 通过用户提问和撰写参考答案来参与大模型的训练和评测。用户可以通过向模型提问,让三个大模型生成回答,并获得一定的奖励。此外,用户还可以选择喜欢的模型回答,涉及文字、语音和视频等多模态内容
  • 评测标准 评测方法包括使用强模型(如 GPT-4)来打分评测回答质量,衡量模型的指令遵循能力和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项.
  • 目标 期望通过每位用户对大模型应用的理解以及自身具备的不同领域的知识,设计高质量的评测数据来对大模型进行综合的评估。通过这个平台,用户可以为大模型的训练与评测注入活力, AI-Ceping 还提供了详细的任务概况说明,包括背景、奖励规则、活动须知、反作弊说明和活动安排等,以确保评测活动的顺利进行。通过这个平台,用户可以为大模型的训练与评测注入活力,同时也有机会获得现金奖励

用户贡献

Important

  • 我们的平台已经吸引超过 22,415 名来自不同地区的用户。已经累积了 348,576 条数据提交记录,其中覆盖了众多主题和领域。包含超 563 种不同的标签
  • 在此列举了平台核心用户 (前十名)
  • 截图于24/11/20

平台核心功能

以下包含了平台核心功能
单条数据|向大模型提真实问题
向模型提问,让三个大模型生成回答,即可获得奖励
数据扩写 |撰写问答对,给大模型出题
提问并撰写参考答案,为大模型训练与评测注入血液
评测任务|做选择题,选择你满意的内容
pick你喜欢的模型回答,回答涉及文字、语音和视频等多模态内容,等你来评价!
模型擂台|最强大模型,由你来评
随机派送2个大模型为你服务,输入问题,选择你喜欢的回答,看看哪个模型表现好​

AI-Ceping大模型测评知识库

这里我们与社区用户共建了《AI-Ceping 大模型测评知识库》,帮助大家快速了解入门AI大模型 :

Note

📕 AI 大模型评测知识分享。从0到1带大家入门大模型评测,成为Prompt大师和大语言模型评测专家。
📗 各赛道大模型榜单维护。从市面上繁杂的大模型排行榜甄选出最具参考价值的LeaderBoard,降低用户的时间成本。
📘 大模型资讯更新。最终标杆模型最新动态,快速捕捉大模型发现最前沿讯息。
📙 数据集渠道整合。从海量开源数据集筛选优质数据集,方便大模型使用者快速微调、评测。
📙 共建 AI-Ceping(爱测评) 社区:大模型数据灵感众筹平台。由同济大学发起,鼓励用户通过自己的创意和灵感,贡献真实的AI语料,以助于大模型的持续迭代和维护。

FAQ

请先访问我们的项目Wiki,这里汇集了常见问题的解答和操作指南。如果Wiki中没有你要找的答案,欢迎提出你的问题,我们会尽快回复。

相关文献

Prompt Engineering 提示词工程

资源名称 资源描述 资源链接
吴恩达讲ChatGPT提示工程 吴恩达与OpenAI官方合作的ChatGPT提示工程课程 Bilibili 视频
大模型时代的科研基础之:Prompt Engineering 微软亚洲研究院高级研究员王晋东讲提示词工程 Bilibili 视频 知乎文字版

LeaderBord (社区评测榜单)

基础模型榜单

榜单名🚀 榜单介绍💬 榜单详情📄
Leaderboard LMSYS Chatbot Arena 是一个由众包方式建立的大型语言模型(LLM)评估开放平台,已经收集了超过 1,000,000 人工成对比较数据,并使用 Bradley-Terry 模型对 LLM 进行排名,并在 Elo 评分系统中显示模型评分。 image
HuggingFace🤗
Blog🎞
GitHub🔧
DataSet📂
C-Eval: A Multi-Level Multi-Discipline Chinese EvaluationSuite for Foundation Models image C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。 image image
🌐 网站 https://cevalbenchmark.com • 🤗 Hugging Face • ⏬ 数据 • 📃 论文 📖 教程

多模态榜单

榜单名🚀 榜单介绍💬 榜单详情📄
OpenCompass 多模态评测月度榜单 展示了不同多模态模型在各项多模态评测基准上的性能,以平均分的降序排序。目前榜单基于以下 8 个数据集进行平均分计算:MMBench v1.1 (中英测试集), MMStar, MMMU (验证集), MathVista (迷你测试集), HallusionBench, AI2D (测试集), OCRBench, MMVet。
本榜单目前仅包含开源模型或是公众可访问的 API 模型。如果你想在榜单上添加新模型,并确认它符合条件,请在 VLMEvalKit 中提交 PR 以支持新模型,我们会随后完成评测与榜单更新。
image
🌐 官方网站 · 📖 数据集社区 · 📊 性能榜单 · 📘 文档教程 · 🛠️ 安装
OpenVLM Leaderboard 这个排行榜上分享了通过VLMEvalKit开源框架获得的VLM的评估结果 image
https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

Star History

Star History Chart

About

全方位大模型评测知识库 | 提示词工程(Prompt Engineer)、各渠道大模型榜单(LeaderBoard)、标杆数据集、安全检测、对抗攻击、智能体、优质数据、文本分类、关系抽取、语音识别、语音合成、多模态、文本生成图片、文本生成视频、点云、智能对话、摘要总结、问答、字词释义、知识问答、学科考试、医学、信息学、心理学、指代消解、常识推理、知识问答...

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published