코드 베이스에 따른 점수가 다르게 나오는 문제 #22

simigami · 2024-10-13T05:31:23Z

simigami
Oct 13, 2024
Collaborator

같은 모델을 사용하는데 코드가 달라서 점수가 다르게 나오는 문제를 파악하고 있고, 해결 방안을 찾고 있습니다.

각자 실험하고 있는 내용과 문제점 등을 공유하면 좋을 것 같아 discussion을 남깁니다. 자유롭게 의견 부탁드립니다.

변인 통제를 위해 다음의 하이퍼파라미터 설정을 해주세요

시드 번호 default 42로 통일 -> set_seed 함수를 사용하면 됩니다.
learning rate 1e-5 통일
배치 사이즈 16
lr_scheduler_type = 'constant'로 설정

위의 설정은 trainer 인스턴스 정의 직전에 다음의 코드를 넣으면 됩니다.

training_args.learning_rate = 1e-5
training_args.num_train_epochs = 3
training_args.per_device_train_batch_size = 16
training_args.per_device_eval_batch_size = 16
training_args.lr_scheduler_type = 'constant'

simigami · 2024-10-13T05:39:27Z

simigami
Oct 13, 2024
Collaborator Author

저의 경우 테스트용으로 "yjgwak/klue-bert-base-finetuned-squad-kor-v1" 모델을 사용하였고, aistage 기본 제공 코드와 baseline 코드를 비교 분석을 하고 있습니다.

모델 훈련에는 9분 정도 소모됩니다.
aistage 코드 점수가 baseline 코드 점수 보다 높습니다 (notion의 benchmark 점수를 참고해주세요)
max_seq_length가 달라 이터레이션 횟수가 다릅니다. 이에 따라 train, validation 할 때 학습되는 횟수가 달라 점수에 문제를 주는 지 확인 중입니다.
두 코드에서 validation할 때 eval_sample 개수가 다릅니다. aistage는 474, baseline은 351입니다.

4 replies

simigami Oct 13, 2024
Collaborator Author

3의 경우 점수에 문제를 주지 않는 것을 확인하였습니다.

simigami Oct 13, 2024
Collaborator Author

제 augmentation 브랜치에서 train 이후에 eval할 때 train 한 모델이 아니고 huggingface 원본 모델을 불러와서 사용하는 것을 수정하였고, 이에 따라 F1 점수가 5점 정도 향상하였습니다. (aistages에 제출)

그럼에도 불구하고 같은 모델, 같은 하이퍼파라미터를 사용했는데 점수 차이가 8점 정도 나서 더 확인하고 있습니다.

simigami Oct 14, 2024
Collaborator Author

인자 순서를 dev의 main.sh를 그대로 채용하였더니 점수가 @ssunbear가 올린 점수와 동일해졌습니다.
그리고 라이브러리 버전도 전부 @LHANTAEK가 준 것을 기준으로 하였습니다.

라이브러리 버전이 영향을 미치는지 다시 버전-업을 하여서 테스트 하고 있습니다.

수정된 코드는 아예 feature/aug_template라고 하는 remote로 새로 생성하였습니다.

의견 없으시면 기존 PR은 삭제하고 새로운 PR을 작성할 예정입니다.

simigami Oct 14, 2024
Collaborator Author

https://github.com/boostcampaitech7/level2-mrc-nlp-15/tree/feature/aug_template
브랜치 새로 올렸습니다.

ssunbear · 2024-10-13T09:17:22Z

ssunbear
Oct 13, 2024
Collaborator

training_args.learning_rate = 1e-5
training_args.num_train_epochs = 3
training_args.per_device_train_batch_size = 16
training_args.per_device_eval_batch_size = 16

기존에 위와 같은 환경에서 저는 실험을 진행하고 있었고
아래의 constant 설정만 따로 해뒀는데 성능발전이 나지는 않았습니다.
training_args.lr_scheduler_type = 'constant'

1 reply

simigami Oct 14, 2024
Collaborator Author

@ssunbear tmp/ 리모트 브랜치는 삭제해도 됨

LHANTAEK · 2024-10-14T08:18:39Z

LHANTAEK
Oct 14, 2024
Collaborator

시드 번호 default 42로 통일 -> set_seed 함수를 사용하면 됩니다.
-> 시드 번호 default 2024로 통일해서 진행해야 될 것 같네요. (baseline code에서 정해준 것)

1 reply

simigami Oct 14, 2024
Collaborator Author

새로 올린 제 브랜치 기준으로 seed만 2024로 바꿔서 테스트 해보겠습니다.

doraemon500 · 2024-10-14T08:59:10Z

doraemon500
Oct 14, 2024
Collaborator

sandbox/template_code 브랜치에서 uomnf97/klue-roberta-finetuned-korquad-v2 를 가지고
seed 에 따라서 동일 조건이라도 성능이 천마만별 일 수도 있겠다는 가정하에 실험을 진행함.

동일 하이퍼파라미터 조건에서 seed 42 -> 2024로 모두 맞춘 후 진행해 봤으나
58.3300%/70.1700% 라는 좋은 성능을 보여주지 못함. 오히려 seed 42 이고 다른 건 모두 같은 상황에서 진행한 결과와 비슷하게 나옴

1 reply

doraemon500 Oct 14, 2024
Collaborator

develop 브랜치에서 uomnf97/klue-roberta-finetuned-korquad-v2 를 가지고 진행

동일 하이퍼파라미터 조건에서 seed 42 -> 2024로 모두 맞춘 후 진행해 봤으나
마찬가지로 55.4200%/67.5000%라는 좋은 성능을 보여주지 못함.

LHANTAEK · 2024-10-14T10:03:39Z

LHANTAEK
Oct 14, 2024
Collaborator

베이스라인 코드(utils_qa.py에 seed함수가 42로 되어있으나, inference.py를 제외하고 나머지는 seed가 2024로 직접 할당됨)를 참고해서 아래와 같은 실험을 해봤어요. 최고 성능을 냈던 모델(uomnf97/klue-roberta-finetuned-korquad-v2)은 베이스라인 코드에서 정해준대로 seed를 썼기 때문인데요.

A-> 기존 dev 방식대로 set_seed 함수를 통해 42로 고정
B-> 위의 조건대로 seed 할당()

결과는 거의 동일한 수준으로 큰 의미는 없었어요.

0 replies

simigami · 2024-10-23T04:43:51Z

simigami
Oct 23, 2024
Collaborator Author

#26 Seed 문제 해결로 본 Discussion은 종료합니다.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

코드 베이스에 따른 점수가 다르게 나오는 문제 #22

{{title}}

{{editor}}'s edit

{{editor}}'s edit

Replies: 6 comments 7 replies

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{title}}

{{editor}}'s edit

{{editor}}'s edit

{{title}}

{{title}}

{{title}}

Select a reply

코드 베이스에 따른 점수가 다르게 나오는 문제 #22

simigami Oct 13, 2024 Collaborator

Replies: 6 comments · 7 replies

simigami Oct 13, 2024 Collaborator Author

simigami Oct 13, 2024 Collaborator Author

simigami Oct 13, 2024 Collaborator Author

simigami Oct 14, 2024 Collaborator Author

simigami Oct 14, 2024 Collaborator Author

ssunbear Oct 13, 2024 Collaborator

simigami Oct 14, 2024 Collaborator Author

LHANTAEK Oct 14, 2024 Collaborator

simigami Oct 14, 2024 Collaborator Author

doraemon500 Oct 14, 2024 Collaborator

doraemon500 Oct 14, 2024 Collaborator

LHANTAEK Oct 14, 2024 Collaborator

simigami Oct 23, 2024 Collaborator Author

simigami
Oct 13, 2024
Collaborator

Replies: 6 comments 7 replies

simigami
Oct 13, 2024
Collaborator Author

simigami Oct 13, 2024
Collaborator Author

simigami Oct 13, 2024
Collaborator Author

simigami Oct 14, 2024
Collaborator Author

simigami Oct 14, 2024
Collaborator Author

ssunbear
Oct 13, 2024
Collaborator

simigami Oct 14, 2024
Collaborator Author

LHANTAEK
Oct 14, 2024
Collaborator

simigami Oct 14, 2024
Collaborator Author

doraemon500
Oct 14, 2024
Collaborator

doraemon500 Oct 14, 2024
Collaborator

LHANTAEK
Oct 14, 2024
Collaborator

simigami
Oct 23, 2024
Collaborator Author