Giter Site home page Giter Site logo

level1-semantictextsimilarity-nlp-04's People

Stargazers

 avatar

level1-semantictextsimilarity-nlp-04's Issues

[EXP] `label==0.0` drop하기

Background

  • 0.0이 다른 label에 비해서 많다고 판단되어서 줄여보고 과연 test에서도 잘 작동하는지 실험하려 합니다.

To Do

  • 50% 줄여보기
  • 75% 줄여보기
  • 텍스트 길이 분석하기
  • 결과 공유

[FEAT] 프로젝트 템플릿 수정

Background

  • 프로젝트 템플릿 구조 수정.
  • inference.py 를 돌릴 때 train 한 데이터와 config 을 알고 있어야하는 상황이 생김.
    • 학습을 시키면서 자동으로 output 데이터를 내보내주는 파일 생성 요청이 있었음.

To do

  • 프로젝트 템플릿 수정
  • run.py 을 train.py 로 변경
  • run.py 를 train + inference 한 번에 작동하도록 변경
  • max_epoch 로 오탈자 수정

[FEAT] Issue Templates 추가

Background

  • 팀 협업 기반을 다지고, 의사소통 기록을 남기기 위하여 템플릿을 우선 작성한다

To do

  • 기능 구현 이슈 템플릿 추가 - feat, refactoring, style, etc.
  • 버그 픽스 이슈 템플릿 추가 - fix

[FEAT] lr_scheduler 추가

Background

  • �학습 중에 lr을 조절하여 더 나은 학습을 진행할 수 있도록 'lr_scheduler' 추가

To do

  • transformers.get_linear_scheduler_with_warmup 추가

[FEAT] utils 폴더 생성

Background

  • concat.py, data_argument.py 등 모델 학습과 상관 없는 파일들을 옮기기 위함

To do

  • 디렉토리 생성 후 해당하는 파일들 옮기기

[FEAT] 'ModelCheckpoint' 기능 추가

Background

  • 모델 훈련 결과를 아카이빙하는 것도 의미있을 것 같습니다.

To do

  • 'Trainer'에 'checkpoint_callback' 추가
  • checkpoint를 저장할 디렉토리 추가

[BUG] `concat_data.py` 학습이 가능하도록 수정

Describe the bug

  • concat_data.py를 통해 만들어진 데이터로는 학습이 불가능합니다.

To Reproduce

  • python ./utils/concat_data.py로 데이터를 생성할 수 있습니다.

Expected behavior

  • Val 피어슨 상관계수가 NaN으로 나오는 문제가 발생합니다.

[FEAT] commit template 추가

Background

  • git commit -m 으로 진행하는 것이 아니라 git commit 을 하면 나오는 템플릿을 만들기
    • commit 할 때 footer [#이슈넘버] 를 넣으면 바로 연동 됨
    • 문서화에 도움이 될 듯 함

To do

  • commit template 생성

[FEAT] 데이터 중복제거, 산점도 그래프 저장

Background

기대효과

  1. 데이터에 중복된 id를 가진 것을 제거할 수 있습니다.
    -> config.yaml파일의 train_path의 파일을 참조합니다.
    -> 새롭게 생성된 파일의 접두사는 'sorted_'입니다.
  2. 학습한 모델을 가지고 scatter plot을 저장할 수 있습니다.

To do

  • create rm_duplicates+sort.py
  • create scatter.py

[BUG] seed 함수 및 pearson_corrcoef 수정

Describe the bug

  • seed 값 설정을 위한 함수 개편
  • pearson 값이 음수로 나오는 문제

To Reproduce

  • seed 값 설정 기능
  • pearson_corrcoef 계산 값을 float32 -> float64로 변경

[EXP] team-lucid/deberta-v3-base-korean 모델 사용

Background

  • DeBERTa는 Disentangled Attention과 Enhanced Masked Language Model을 통해 BERT의 성능을 향상시킨 모델입니다. 그중 DeBERTa V3은 ELECTRA-Style Pre-Training에 Gradient-Disentangled Embedding Sharing을 적용사여 DeBERTA를 개선했습니다.

[BUG] collate_fn 수정

Describe the bug

  • 일부 모델의 inference 과정에서 collate_fn 관련 에러가 발생함

To Reproduce

  • collate_fn 수정 및 모델 입출력 파이프라인 개선

Expected behavior

  • 다양한 모델을 실험해볼 수 있는 모델 파이프라인 구축

Screenshos

[EXP] translation 을 data augmentation 으로 보지 않고, translation을 data pre-processing 방법론으로 보기

Background

  • google translator API가 text를 한국어 -> 영어 -> 한국어로 바꿔주면서 text를 교정해주는 역할을함.
  • google translator API로 증강한 데이터를 original 데이터와 붙여서 학습시 오히려 data 중복으로 인해서 overfitting 을 일으키고 있음
  • original raw data train, dev, test 를 모두 back-translation 으로 전처리 하듯이 처리해서 돌리면 어떨까?라는 생각이 들음

To Do

  • train, dev, test 데이터 모두 back-translation을 하여 sentence_1, sentence_2 칼럼의 모든 텍스트를 전처리시킴
  • 추가 데이터 없이 전처리한 데이터 만으로 모델 돌려봄

[BUG] `set_seed` 함수 의존성과 parameter type

Describe the bug

  • set_seed() 함수에서 NameError: name 'np' is not defined가 나옵니다.
  • seed의 기본 type을 int로 하면서 default 값을 42로 설정하였습니다.

To Reproduce

  • python run.py

[EXP] K-Fold 구현

Background

  • 과적합을 줄이기 위해 Cross validation을 수행. 폴드 마다 예측

[EXP] 절망편-binary classification으로의 regression Task 접근 시도

Background

  • binary classification 으로 binary label 을 0,1로 먼저 예측하고, 0,1에 대한 예측 regressor을 각각 만들어서 최종 regression 값 도출하는 아이디어를 생각해봄
  • binary classification 이 regresssion task 보다 더 쉬운 접근이라고 생각했음

To Do

  • binary classifier 구현
  • binary classifier 성능 확인
  • 데이터 train - > train, dev 로 나누어서 실험 진행
  • 0,1 각각의 regressor 구현
  • 실제 test.csv 에 binary-label 예측하고, 이를 기반으로 최종 label 값 넣기

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.