[Feature Request] preference datagen for DOP\ORPO traing etc #1403

zjrwtx · 2025-01-06T08:38:05Z

Required prerequisites

I have searched the Issue Tracker and Discussions that this hasn't already been reported. (+1 or comment there if it has.)
Consider asking first in a Discussion.

Motivation

The preference dataset is used for reward model training, DPO training, and ORPO training. For system instructions and human inputs, the preference dataset provides a better answer and a worse answer.
so i think preference datagen is really important

Solution

core and cookbook

Alternatives

No response

Additional context

No response

Wendong-Fan · 2025-01-09T17:34:30Z

lead: @zjrwtx ; support & review: @mohamadkav , @AveryYay

zjrwtx · 2025-01-10T14:24:35Z

#1432

zjrwtx added enhancement New feature or request Data Related to camel data processing call for contribution labels Jan 6, 2025

Wendong-Fan removed the call for contribution label Jan 9, 2025

Wendong-Fan assigned zjrwtx Jan 9, 2025

Wendong-Fan added this to Project Camel Jan 9, 2025

Wendong-Fan added this to the Sprint 21 milestone Jan 9, 2025

Wendong-Fan assigned mohamadkav and AveryYay Jan 9, 2025

zjrwtx linked a pull request Jan 10, 2025 that will close this issue

feat:preference datagen for DOP\ORPO traing etc #1432

Draft

13 tasks

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Request] preference datagen for DOP\ORPO traing etc #1403

[Feature Request] preference datagen for DOP\ORPO traing etc #1403

zjrwtx commented Jan 6, 2025

Wendong-Fan commented Jan 9, 2025

zjrwtx commented Jan 10, 2025

[Feature Request] preference datagen for DOP\ORPO traing etc #1403

[Feature Request] preference datagen for DOP\ORPO traing etc #1403

Comments

zjrwtx commented Jan 6, 2025

Required prerequisites

Motivation

Solution

Alternatives

Additional context

Wendong-Fan commented Jan 9, 2025

zjrwtx commented Jan 10, 2025