简介 • 用户贡献 • AI-Ceping 大模型测评知识库 • wiki • FAQ • 相关文献
在人工智能领域,大型语言模型(Large Language Model)的发展迅猛,它们通过深度学习和大量数据训练,在语言理解、生成和翻译等方面取得了显著进步。随着ChatGPT等模型的出现,LLM的应用范围不断扩大,展现出巨大潜力。
但LLM的快速发展也带来了挑战,如何有效评估它们的性能和安全性变得尤为关键。传统评测方法依赖专家主观判断,缺乏客观性和可重复性。同时,随着模型规模和复杂性的增加,单一评测指标已不足以全面反映模型能力。
AI.ceping.mp4
⭐LLM-Ceping AI-Ceping,一个由同济大学开发的大模型评测数据收集平台。是为了应对大语言模型(LLM)评测的迫切需求,尤其是在 ChatGPT 掀起的研究和应用浪潮之后。使命是构建一个权威、公正、透明的评测环境,以客观评估大型语言模型的能力,并反映这些模型需要解决的问题。
Tip
- 评测方法 通过用户提问和撰写参考答案来参与大模型的训练和评测。用户可以通过向模型提问,让三个大模型生成回答,并获得一定的奖励。此外,用户还可以选择喜欢的模型回答,涉及文字、语音和视频等多模态内容
- 评测标准 评测方法包括使用强模型(如 GPT-4)来打分评测回答质量,衡量模型的指令遵循能力和有用性。打分维度包括事实正确性、满足用户需求、清晰度、完备性、丰富度等多项.
- 目标 期望通过每位用户对大模型应用的理解以及自身具备的不同领域的知识,设计高质量的评测数据来对大模型进行综合的评估。通过这个平台,用户可以为大模型的训练与评测注入活力, AI-Ceping 还提供了详细的任务概况说明,包括背景、奖励规则、活动须知、反作弊说明和活动安排等,以确保评测活动的顺利进行。通过这个平台,用户可以为大模型的训练与评测注入活力,同时也有机会获得现金奖励
Important
这里我们与社区用户共建了《AI-Ceping 大模型测评知识库》,帮助大家快速了解入门AI大模型 :
Note
📕 AI 大模型评测知识分享。从0到1带大家入门大模型评测,成为Prompt大师和大语言模型评测专家。
📗 各赛道大模型榜单维护。从市面上繁杂的大模型排行榜甄选出最具参考价值的LeaderBoard,降低用户的时间成本。
📘 大模型资讯更新。最终标杆模型最新动态,快速捕捉大模型发现最前沿讯息。
📙 数据集渠道整合。从海量开源数据集筛选优质数据集,方便大模型使用者快速微调、评测。
📙 共建 AI-Ceping(爱测评) 社区:大模型数据灵感众筹平台。由同济大学发起,鼓励用户通过自己的创意和灵感,贡献真实的AI语料,以助于大模型的持续迭代和维护。
请先访问我们的项目Wiki,这里汇集了常见问题的解答和操作指南。如果Wiki中没有你要找的答案,欢迎提出你的问题,我们会尽快回复。
资源名称 | 资源描述 | 资源链接 |
---|---|---|
吴恩达讲ChatGPT提示工程 | 吴恩达与OpenAI官方合作的ChatGPT提示工程课程 | Bilibili 视频 |
大模型时代的科研基础之:Prompt Engineering | 微软亚洲研究院高级研究员王晋东讲提示词工程 | Bilibili 视频 知乎文字版 |
榜单名🚀 | 榜单介绍💬 | 榜单详情📄 |
---|---|---|
Leaderboard | LMSYS Chatbot Arena 是一个由众包方式建立的大型语言模型(LLM)评估开放平台,已经收集了超过 1,000,000 人工成对比较数据,并使用 Bradley-Terry 模型对 LLM 进行排名,并在 Elo 评分系统中显示模型评分。 | HuggingFace🤗 Blog🎞 GitHub🔧 DataSet📂 |
C-Eval: A Multi-Level Multi-Discipline Chinese EvaluationSuite for Foundation Models | C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别。 | 🌐 网站 https://cevalbenchmark.com • 🤗 Hugging Face • ⏬ 数据 • 📃 论文 📖 教程 |
榜单名🚀 | 榜单介绍💬 | 榜单详情📄 |
---|---|---|
OpenCompass 多模态评测月度榜单 | 展示了不同多模态模型在各项多模态评测基准上的性能,以平均分的降序排序。目前榜单基于以下 8 个数据集进行平均分计算:MMBench v1.1 (中英测试集), MMStar, MMMU (验证集), MathVista (迷你测试集), HallusionBench, AI2D (测试集), OCRBench, MMVet。 本榜单目前仅包含开源模型或是公众可访问的 API 模型。如果你想在榜单上添加新模型,并确认它符合条件,请在 VLMEvalKit 中提交 PR 以支持新模型,我们会随后完成评测与榜单更新。 |
🌐 官方网站 · 📖 数据集社区 · 📊 性能榜单 · 📘 文档教程 · 🛠️ 安装 |
OpenVLM Leaderboard | 这个排行榜上分享了通过VLMEvalKit开源框架获得的VLM的评估结果 | https://huggingface.co/spaces/opencompass/open_vlm_leaderboard |