Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

move attachments to a folder #159

Merged
merged 1 commit into from
Dec 2, 2024
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
File renamed without changes.
29 changes: 12 additions & 17 deletions docs/zh/docs/dtx/dataset.md
Original file line number Diff line number Diff line change
@@ -1,11 +1,6 @@
---
hide:
- toc
---

# 数据集

[dataset_info.json](dataset_info.json) 包含了所有可用的数据集。
[dataset_info.json](attach/dataset_info.json) 包含了所有可用的数据集。
如果您希望使用自定义数据集,请 **务必** 在 `dataset_info.json` 文件中添加 **数据集描述** ,并通过修改 `dataset: 数据集名称` 配置来使用数据集。

目前我们支持 **Alpaca** 和 **Sharegpt** 格式的数据集,以及 **人工评测** 类和 **自定义评测** 类型的数据集。
Expand Down Expand Up @@ -52,7 +47,7 @@ hide:

### 指令监督微调数据集

查阅[样例数据集](alpaca_zh_demo.json)。
查阅[样例数据集](attach/alpaca_zh_demo.json)。

在指令监督微调时,`instruction` 列对应的内容会与 `input` 列对应的内容拼接后作为人类指令,即人类指令为 `instruction\ninput`。而 `output` 列对应的内容为模型回答。

Expand Down Expand Up @@ -92,7 +87,7 @@ hide:

### 预训练数据集

查阅[样例数据集](c4_demo.json)。
查阅[样例数据集](attach/c4_demo.json)。

在预训练时,只有 `text` 列中的内容会用于模型学习。

Expand Down Expand Up @@ -162,7 +157,7 @@ KTO 数据集需要提供额外的 `kto_tag` 列。详情请参阅 [sharegpt](#s

### 指令监督微调数据集

参阅[样例数据集](glaive_toolcall_zh_demo.json)。
参阅[样例数据集](attach/glaive_toolcall_zh_demo.json)。

相比 alpaca 格式的数据集,sharegpt 格式支持 **更多的角色种类** ,
例如 human、gpt、observation、function 等等。它们构成一个对象列表呈现在 `conversations` 列中。
Expand Down Expand Up @@ -216,7 +211,7 @@ KTO 数据集需要提供额外的 `kto_tag` 列。详情请参阅 [sharegpt](#s

### 偏好数据集

参阅[样例数据集](dpo_zh_demo.json)。
参阅[样例数据集](attach/dpo_zh_demo.json)。

Sharegpt 格式的偏好数据集同样需要在 `chosen` 列中提供更优的消息,并在 `rejected` 列中提供更差的消息。

Expand Down Expand Up @@ -266,7 +261,7 @@ Sharegpt 格式的偏好数据集同样需要在 `chosen` 列中提供更优的

### KTO 数据集

参阅[样例数据集](kto_en_demo.json)。
参阅[样例数据集](attach/kto_en_demo.json)。

KTO 数据集需要额外添加一个 `kto_tag` 列,包含 bool 类型的人类反馈。

Expand Down Expand Up @@ -303,7 +298,7 @@ KTO 数据集需要额外添加一个 `kto_tag` 列,包含 bool 类型的人

### 多模态图像数据集

参阅[样例数据集](mllm_demo.json)。
参阅[样例数据集](attach/mllm_demo.json)。

多模态图像数据集需要额外添加一个 `images` 列,包含输入图像的路径。

Expand Down Expand Up @@ -389,11 +384,11 @@ OpenAI 格式仅仅是 sharegpt 格式的一种特殊情况,其中第一条消

该类型的数据集仅支持 .csv 和 .jsonl 文件格式。
参考文档:
https://evalscope.readthedocs.io/zh-cn/latest/advanced_guides/custom_dataset.html
https://evalscope.readthedocs.io/zh-cn/latest/advanced_guides/custom_dataset.html

### 选择题(MCQ)

参阅 [mcq.csv](mcq.csv) 和 [mcq.jsonl](mcq.jsonl)。
参阅 [mcq.csv](attach/mcq.csv) 和 [mcq.jsonl](./attach/mcq.jsonl)。
其中csv文件需要为下面的格式:

```csv
Expand All @@ -420,7 +415,7 @@ id,question,A,B,C,answer

### 问答题(QA)

参阅 [qa.csv](qa.csv) 和 [qa.jsonl](qa.jsonl)。
参阅 [qa.csv](attach/qa.csv) 和 [qa.jsonl](./attach/qa.jsonl)。
其中csv文件需要为下面的格式:

```csv
Expand All @@ -445,11 +440,11 @@ question,answer

## 人工评测类型

参阅 [mcq.csv](mcq.csv) 和 [qa.jsonl](qa.jsonl)。
参阅 [mcq.csv](attach/mcq.csv) 和 [qa.jsonl](./attach/qa.jsonl)。
该类型的数据集仅支持 .jsonl 文件格式。

```jsonline
{"query": "中国的首都是哪里?", "response": "中国的首都是北京"}
{"query": "世界上最高的山是哪座山?", "response": "是珠穆朗玛峰"}
{"query": "为什么北极见不到企鹅?", "response": "因为企鹅大多生活在南极"}
```
```
7 changes: 3 additions & 4 deletions docs/zh/docs/dtx/model-evaluate.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,11 +38,11 @@ hide:

5. 点击右下角 **确定** 按钮创建模型评测。

## 模型评测详情查看
## 查看模型评测详情

1. 点击模型评测任务的名称,进入模型评测详情页。
点击模型评测任务的名称,进入模型评测详情页。

![评测详情](images/eval-details.jpg)
![评测详情](images/eval-details.jpg)

## 人工评测

Expand All @@ -53,4 +53,3 @@ hide:
2. 对所有运行次数的每一条数据进行打分。

![人工评测](images/eval-manual02.jpg)

12 changes: 6 additions & 6 deletions docs/zh/docs/dtx/model-export.md
Original file line number Diff line number Diff line change
Expand Up @@ -29,14 +29,14 @@ hide:

![创建模型导出](images/model-export01.jpg)

## 模型导出详情查看
## 查看模型导出详情

1. 点击模型导出任务的名称,进入模型导出详情页。
点击模型导出任务的名称,进入模型导出详情页。

![模型导出详情](images/model-export-detail.jpg)
![模型导出详情](images/model-export-detail.jpg)

## 导出模型查看
## 查看导出的模型

1. 去到模型中心下的模型广场下,查看导出的模型,并部署和对话
在模型中心下的模型广场,查看导出的模型,并部署和对话

![导出模型查看](images/model-export02.jpg)
![导出模型查看](images/model-export02.jpg)
Loading