Giter Site home page Giter Site logo

boostcampaitech5_mrc-nlp-01's Introduction

level2_mrc-nlp-01

해당 프로젝트는 네이버 커넥트재단 주최한 부스트캠프 AI Tech 5기 NLP 트랙 교육 과정 중 진행된 대회 프로젝트 입니다.


랩업 리포트

상세한 프로젝트 내용은 랩업 리포트를 참고해주세요!!
Wrap up


1. 프로젝트 개요

A. 프로젝트 주제

💡 Open-Domain Question Answering (ODQA)
  • **Question Answering (QA)**은 다양한 종류의 질문에 대해 대답하는 인공지능을 만드는 연구 분야입니다.
  • 다양한 QA 시스템 중 ODQA는 주어지는 지문이 따로 존재하지 않고 사전에 구축되어있는 Knowledge resource 에서 질문에 대답할 수 있는 문서를 찾는 과정이 추가되기 때문에 더 어려운 문제입니다.
  • 질문에 관련된 문서를 찾아주는 "retriever" 와 관련된 문서를 읽고 적절한 답변을 찾거나 만들어주는 "reader"를 구현하여 질문에 대한 원하는 답변을 얻을 수 있습니다.

B. 데이터셋

  • 데이터 유형 (Source) : wikipedia_documents (약 57,000개)
  • **Train_dataset 데이터 개수 : train (**3,952), validation (240)
  • Test_dataset 데이터 개수 : validation (600)

C. 평가지표

  • Exact Match (EM) : 모델의 예측과, 실제 답이 정확하게 일치할 때만 점수가 주어지는 평가방식
  • F1 Score : 일치하지 않더라도 겹치는 단어도 있는 것을 고려해 부분 점수가 주어지는 평가방식

image

제공된 학습 데이터셋 구성

2. 프로젝트 팀 구성 및 역할

  • 김효연 : Haystack, Elasticsearch(Retrieval), DPR(Retrieval)
  • 서유현 : 데이터 전처리/후처리, Question Generation, PEFT
  • 손무현 : 데이터 증강 (BackTranslation), Retrieval 실험 및 앙상블, PEFT
  • 이승진 : 데이터 전처리, Haystack, BM25(Retrieval), Reranker, DAPT-TAPT-Fine tuning(twice)
  • 최규빈 : 프로젝트 서칭, Base-code 작성, Curriculum learning
  • 황지원 : PM, 데이터 증강 (Hanspell), 데이터 샘플링 및 전처리, Bigbird(Reader), DPR(Retrieval)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.