Giter Site home page Giter Site logo

goorm's Introduction

Kaggle LLM - AI 생성 text 감지를 위한 분류모델 경진대회

학습방법 및 실험내용

학습 키워드와 핵심역할 :

 텍스트 정제, 토큰화       : 이호열, 김소연
 단어 빈도 분석            : 황석준
 감정 분석                 : 이재영, 임예리
 난독화                    : 정현기
  • 개요 (분류모델선정 이유 및 진행방향 요약)

    • LR, XGB
    • RF, CatBoost
  • 데이터 EDA

    • train_essay : (✔내용 추가 예정)

      • target의 불균형 유무
      • 이상치 유무
      • Null 값의 유무
      • 학습데이터의 크기 (외부데이터 확보 필요유무)
      • 로그스케일링 등 인코딩 방법 선정 (캐글 트래킹)
      • 새로운 특성의 생성 유무
    • train_prompt : 해당 text의 주제. - 0 : Car-free cities - 1 : Does the electoral college work?

    • 전처리 진행

      • 텍스트 정제, 토큰화

        • (✔내용 추가 예정)
      • 단어 빈도 분석

        • (✔내용 추가 예정)
      • 감정 분석

        • (✔내용 추가 예정)
      • 난독화

      • Augmentation (보류)

        • 직접조사
  • 모델학습

    • (✔내용 추가 예정)
    • (하이퍼파라미터, 학습률, 배치크기, 에포크 수)
  • 추론 및 대처, discussion

    • accuracy 향상을 위한 노력

개발환경

라이브러리 버전

pip

실행방법

sample parameter 설정

Test 및 Inference

goorm's People

Contributors

cody628 avatar hoyeol903 avatar hyungijung avatar nhyha avatar soyeon2018 avatar

Watchers

 avatar

Forkers

hoyeol903 cody628

goorm's Issues

데이터 EDA

각자의 키워드에 맞춰 깊이 있는 학습 실시

텍스트 정제, 토큰화 : 이호열, 김소연
단어 빈도 분석 : 황석준
감정 분석 : 이재영, 임예리
난독화 : 정현기

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.