Giter Site home page Giter Site logo

korpatbart's Introduction

KorPatBART: A Korean Patent Pre-trained Model for Generating Text from Patent Documents with BART

KorPatBART: 특허 문서 텍스트 생성을 위한 한국어 특허 도메인 사전학습 BART 모델

논문 : 한국정보과학회 2023 KSC(한국소프트웨어종합학술대회)

Abstract

특허 문서는 일반 문서와 사용하는 단어, 문법이 다르기 때문에 일반 도메인에서 학습 언어 모델은 특허 도메인의 자연어 처리 태스크를 수행하기 어렵다. KorPatELECTRA는 특허 도메인 문서로 사전학습하여 특허 도메인의 자연어 처리 태스크에서 우수한 성능을 달성하였다. 그러나 인코더 모델 기반 특성상 해당 모델로는 특허 문서 생성이 어렵다는 문제점이 있다. 본 연구에서는 이를 해결하기 위해 생성 성능이 뛰어난 인코더-디코더 기반 한국어 언어 모델인 KoBART를 특허명세서 데이터로 사전학습한 특허 도메인 자연어 처리 모델인 KorPatBART를 제안한다. 제안하는 방법은 특허 도메인에서 생성 태스크인 요약과 번역에서 우수한 성능을 보여주었다.

KorPatBART

KorPatBART는 특허 도메인에서의 문서 생성을 최적화하기 위해 한국어 BART 모델인 KoBART를 특허명세서 데이터로 사전학습한 언어모델이다.

Pre-training Dataset

2013년~2021년도 특허명세서 데이터 약 135만 건

image

Experiments

image

image

image

korpatbart's People

Contributors

na2na8 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.