The level1-semantictextsimilarity-nlp-04 from boostcampaitech6

[FEAT] data 전처리 및 증강

Background

데이터 전처리 및 증강 기법 모듈입니다.

To do

전처리
copy
swap

[EXP] `label==0.0` drop하기

Background

0.0이 다른 label에 비해서 많다고 판단되어서 줄여보고 과연 test에서도 잘 작동하는지 실험하려 합니다.

To Do

50% 줄여보기
75% 줄여보기
텍스트 길이 분석하기
결과 공유

[FEAT] 프로젝트 템플릿 수정

Background

프로젝트 템플릿 구조 수정.
inference.py 를 돌릴 때 train 한 데이터와 config 을 알고 있어야하는 상황이 생김.
- 학습을 시키면서 자동으로 output 데이터를 내보내주는 파일 생성 요청이 있었음.

To do

프로젝트 템플릿 수정
run.py 을 train.py 로 변경
run.py 를 train + inference 한 번에 작동하도록 변경
max_epoch 로 오탈자 수정

[FEAT] Issue Templates 추가

Background

팀 협업 기반을 다지고, 의사소통 기록을 남기기 위하여 템플릿을 우선 작성한다

To do

기능 구현 이슈 템플릿 추가 - feat, refactoring, style, etc.
버그 픽스 이슈 템플릿 추가 - fix

[EXP] 기존 task를 classification task로 변환

Background

성능 개선을 위한 새로운 방법 탐색

To Do

기존 라벨의 0~5값을 10구간으로 나누어 점수에 따라 분류함.

[FEAT] 학습 모니터링 기능 추가

Background

모델 학습을 깊이 이해할 수 있도록 학습 모니터링 기능을 추가한다.

To do

wandb 기능 추가

[EXP] kakaobrain data concatenate

Background

카카오 브레인 데이터 셋

데이터 증강

To Do

tsv 파일 받기
csv 파일 변환
기존 csv 파일에 연결
새로운 파일로 저장

[FEAT] PR 템플릿을 추가한다

Background

Pull request에서 사용할 템플릿을 추가한다.

To do

PR Template 추가

[FEAT] wandb에 scatter plot 기능 추가

Background

예측값과 실제값의 선형 관계를 파악하기 용이하도록 scatter plot 기능 구현

To do

validation dataset을 log 기능에 추가

[FEAT] lr_scheduler 추가

Background

�학습 중에 lr을 조절하여 더 나은 학습을 진행할 수 있도록 'lr_scheduler' 추가

To do

transformers.get_linear_scheduler_with_warmup 추가

[FEAT] utils 폴더 생성

Background

concat.py, data_argument.py 등 모델 학습과 상관 없는 파일들을 옮기기 위함

To do

디렉토리 생성 후 해당하는 파일들 옮기기

[FEAT] 'ModelCheckpoint' 기능 추가

Background

모델 훈련 결과를 아카이빙하는 것도 의미있을 것 같습니다.

To do

'Trainer'에 'checkpoint_callback' 추가
checkpoint를 저장할 디렉토리 추가

[FEAT] 'run.py'에 early stopping 기능을 추가한다

Background

충분한 epoch 수로 모델을 학습할 수 있도록 early stopping 기능을 추가합니다.

To do

early stopping 추가

[BUG] `concat_data.py` 학습이 가능하도록 수정

Describe the bug

concat_data.py를 통해 만들어진 데이터로는 학습이 불가능합니다.

To Reproduce

python ./utils/concat_data.py로 데이터를 생성할 수 있습니다.

Expected behavior

Val 피어슨 상관계수가 NaN으로 나오는 문제가 발생합니다.

[FEAT] commit template 추가

Background

git commit -m 으로 진행하는 것이 아니라 git commit 을 하면 나오는 템플릿을 만들기
- commit 할 때 footer [#이슈넘버] 를 넣으면 바로 연동 됨
- 문서화에 도움이 될 듯 함

To do

commit template 생성

[FEAT] 데이터 중복제거, 산점도 그래프 저장

Background

기대효과

데이터에 중복된 id를 가진 것을 제거할 수 있습니다.
-> config.yaml파일의 train_path의 파일을 참조합니다.
-> 새롭게 생성된 파일의 접두사는 'sorted_'입니다.
학습한 모델을 가지고 scatter plot을 저장할 수 있습니다.

To do

create rm_duplicates+sort.py
create scatter.py

[BUG] seed 함수 및 pearson_corrcoef 수정

Describe the bug

seed 값 설정을 위한 함수 개편
pearson 값이 음수로 나오는 문제

To Reproduce

seed 값 설정 기능
pearson_corrcoef 계산 값을 float32 -> float64로 변경

[EXP] team-lucid/deberta-v3-base-korean 모델 사용

Background

DeBERTa는 Disentangled Attention과 Enhanced Masked Language Model을 통해 BERT의 성능을 향상시킨 모델입니다. 그중 DeBERTa V3은 ELECTRA-Style Pre-Training에 Gradient-Disentangled Embedding Sharing을 적용사여 DeBERTA를 개선했습니다.

[BUG] collate_fn 수정

Describe the bug

일부 모델의 inference 과정에서 collate_fn 관련 에러가 발생함

To Reproduce

collate_fn 수정 및 모델 입출력 파이프라인 개선

Expected behavior

다양한 모델을 실험해볼 수 있는 모델 파이프라인 구축

Screenshos

[EXP] translation 을 data augmentation 으로 보지 않고, translation을 data pre-processing 방법론으로 보기

Background

google translator API가 text를 한국어 -> 영어 -> 한국어로 바꿔주면서 text를 교정해주는 역할을함.
google translator API로 증강한 데이터를 original 데이터와 붙여서 학습시 오히려 data 중복으로 인해서 overfitting 을 일으키고 있음
original raw data train, dev, test 를 모두 back-translation 으로 전처리 하듯이 처리해서 돌리면 어떨까?라는 생각이 들음

To Do

train, dev, test 데이터 모두 back-translation을 하여 sentence_1, sentence_2 칼럼의 모든 텍스트를 전처리시킴
추가 데이터 없이 전처리한 데이터 만으로 모델 돌려봄

[BUG] `set_seed` 함수 의존성과 parameter type

Describe the bug

set_seed() 함수에서 NameError: name 'np' is not defined가 나옵니다.
seed의 기본 type을 int로 하면서 default 값을 42로 설정하였습니다.

To Reproduce

python run.py

notebook 디렉토리 추가

[FEAT] Baseline model을 변경한다

Background

실험 결과를 바탕으로 Baseline model을 변경합니다.

To do

model_name: snunlp/KR-ELECTRA-discriminator
max_epoch: 10

[EXP] K-Fold 구현

Background

과적합을 줄이기 위해 Cross validation을 수행. 폴드 마다 예측

[FEAT] 프로젝트 템플릿 구성

Background

프로젝트 체계화를 위한 프로젝트 템플릿 구성

To do

모듈화 진행
디렉토리 생성
requirements 생성

[FEAT] .gitignore 수정

Background

config.yaml을 commit에서 제외

To do

.gitignore 수정

[FEAT] 토크나이저 토큰 추가 및 전처리

Background

데이터들을 전처리 하기 위함

To do

토큰 추가
스페이싱 및 맞춤법 검사 전처리 작업

[EXP] 절망편-binary classification으로의 regression Task 접근 시도

Background

binary classification 으로 binary label 을 0,1로 먼저 예측하고, 0,1에 대한 예측 regressor을 각각 만들어서 최종 regression 값 도출하는 아이디어를 생각해봄
binary classification 이 regresssion task 보다 더 쉬운 접근이라고 생각했음

To Do

binary classifier 구현
binary classifier 성능 확인
데이터 train - > train, dev 로 나누어서 실험 진행
0,1 각각의 regressor 구현
실제 test.csv 에 binary-label 예측하고, 이를 기반으로 최종 label 값 넣기

[BUG] inference.py에서 model path 불러오기

Describe the bug

.yaml 파일로 .pt 파일을 못불러옵니다.

To Reproduce

python3 inference.py

Expected behavior

.pt파일의 경로를 옮겨야 합니다.

Screenshos

[EXP] Rebalancing train dataset

Background

label의 구간 별 불균형을 고려

To Do

Undersampling
Oversampling (e.g SMOTE)

[FEAT] 'notebook' 디렉토리 추가

Background

Jupyter Notebook 파일을 저장할 수 있는 디렉토리가 필요

To do

#42

[FEAT] 실험 관련 Issue Template 추가

Background

템플릿 기능과 모델 관련 수정사항 명시적인 구분을 위해 작성

To do

실험 이슈 템플릿 추가

boostcampaitech6 / level1-semantictextsimilarity-nlp-04 Goto Github PK

level1-semantictextsimilarity-nlp-04's People

Stargazers

Forkers

level1-semantictextsimilarity-nlp-04's Issues

Background

To do

Background

To Do

Background

To do

Background

To do

Background

To Do

Background

To do

Background

To Do

Background

To do

Background

To do

Background

To do

Background

To do

Background

To do

Background

To do

Describe the bug

To Reproduce

Expected behavior

Background

To do

Background

기대효과

To do

Describe the bug

To Reproduce

Background

Describe the bug

To Reproduce

Expected behavior

Screenshos

Background

To Do

Describe the bug

To Reproduce

Background

To do

Background

Background

To do

Background

To do

Background

To do

Background

To Do

Describe the bug

To Reproduce

Expected behavior

Screenshos

Background

To Do

Background

To do

Background

To do

Recommend Projects

Recommend Topics

Recommend Org