Giter Site home page Giter Site logo

scientific-document-nlp-survey's People

Contributors

tetsu9923 avatar

Watchers

 avatar

scientific-document-nlp-survey's Issues

"Longformer: The Long-Document Transformer" [arXiv 2020]

0. 論文

タイトル: "Longformer: The Long-Document Transformer"
著者: Iz Beltagy, Matthew E. Peters, Arman Cohan

arXiv投稿日: Fri, 10 Apr 2020
学会/ジャーナル:

1. 要点

  • 長い文章に対しても計算量を抑えることができるTransformerベースのモデルLongformerを提案

2. 手法

  • 以下の3つを組み合わせてトークンの数nに対して計算量がO(n)となるようなTransformerベースのモデルを提案
    • 前後w/2の範囲にあるトークンのみを考慮するSliding Window(図b)
    • Sliding Windowの範囲をheadごとに拡張する(=考慮するトークン数は一定でストライドを大きくする)Dilated Sliding Window(図c)
    • 一部の単語に関しては全ての単語に考慮されるようにするGlobal Attention(図dの縦横線)
  • トークンの数をn、Window sizeをw、Global Attentionを適用するトークンの数をkとすると、O(nw+k) = O(n) (k << n, wは定数)

3. 実験・結果

  • RoBERTaの学習済み重みを利用して、ランダムにマスキングされたトークンを復元するという問題設定(Masked Language Modeling: MLM)でさらに学習を行う
  • 長い文章を入力とするQA、共参照解析(同一のモノを指す2つ以上の語句を対応付けるタスク)、文書分類タスクでRoBERTaの性能を上回る

メモ

Longformerのアイデア図(論文より引用)
行と列がそれぞれn個のトークンに対応しており、緑色の要素が考慮するAttentionの位置を表す
オリジナルのTransformer(図a)の計算量はO(n^2)
image

“ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks” [AAAI 2019]

0. 論文

タイトル: “ScisummNet: A Large Annotated Corpus and Content-Impact Models for Scientific Paper Summarization with Citation Networks”
著者: Michihiro Yasunaga, Jungo Kasai, Rui Zhang, Alexander R. Fabbri, Irene Li, Dan Friedman, Dragomir R. Radev

arXiv投稿日: Wed, 4 Sep 2019
学会/ジャーナル: AAAI 2019

1. 要点

  • 著者が書いたアブスト(著者が強調するポイント)と、引用する際に引用先が書いた文章(論文が研究コミュニティに与えた影響)を入力としてLSTMとGCNで要約を生成
    • 本文からアブストを生成するのではなく、アブストを引用情報を使って改善するタスク
  • 著者が書いたアブストと引用する際に引用先が書いた文章を利用して1000本の論文に対してゴールドサマリーを人手で作成し、従来よりも大規模なデータセットを作成

2. 手法

  • 文章の重要度の算出
    • 要約される論文(RP)内で、引用する際に引用先が書いた文章との類似度が上位2本の文章を抽出し、その文章の組(引用回数×2本)と著者のアブストからなる文章の集合Iをモデルの入力とする
    • I中の各入力文をノードとし、それらのtf-idf cosine similarityを重みとするエッジをはってグラフを生成する
    • 各引用文章について引用先の論文の被引用回数をauthority scoreとして考慮する
    • LSTMによって得られた文章埋め込みとauthority scoreをノードの特徴量とし、生成したグラフをGCNに入力して各文章(各ノード)のsalience scoreを出力する
    • ゴールドサマリーと各文章のROUGEスコアを正解ラベルとし、正解ラベルと出力salience scoreとのクロスエントロピー誤差が小さくなるように学習する
  • 要約生成
    • I中の全ての文章からsalience scoreの大きい順に長さ制限まで文章を追加し、元のRP上の登場順番に並べ替えて要約を生成する
    • I中の引用先が書いた文章からsalience scoreの大きい順に長さ制限まで文章を追加し、元のRP上の登場順番に並べ替えて元の要約に追加することで要約を生成する

3. 実験・結果

  • 従来のデータセットよりも今回作成したデータセットを使用したほうが提案手法の精度が大幅に上がる
  • 提案手法がベースライン(著者が書いたアブスト、引用情報のみを利用した場合)よりも精度が高い
    • 他手法との比較はない

メモ

モデルの概要図(論文より引用)
image

"SPECTER: Document-level Representation Learning using Citation-informed Transformers" [ACL 2020]

0. 論文

タイトル: "SPECTER: Document-level Representation Learning using Citation-informed Transformers"
著者: Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld

arXiv投稿日: Wed, 15 Apr 2020
学会/ジャーナル: ACL 2020

1. 要点

  • 引用情報を利用した科学文書埋め込みモデル学習手法
  • 引用リンクを共有する論文が共有しない論文よりも類似した表現を出力するように学習する
  • 科学文書埋め込み手法のベンチマークデータセットであるSciDocsを提案
    • タスク:論文分類、引用予測、Co-Views&Co-Reads予測、レコメンデーション

2. 手法

  • SciBERTにクエリ論文、クエリ論文が引用している論文、クエリ論文が引用していない論文(Negative sample)のタイトルとアブストを入力
  • Triplet lossを導入してクエリ論文が引用している論文とのL2距離が近くなるように、Negative sampleとのL2距離が遠くなるように学習する
  • Negative sampleの取り方:
    • Easy sample: ランダム
    • Hard sample: クエリ→P→sampleの引用関係はあるが、クエリ→sampleの引用関係がないような論文
  • 推論時には引用情報を使わない

3. 実験・結果

  • SciDocsを用いた実験でSciBERT等のベースラインと比較してSoTA
  • 本文は入力できていないので(メモリの制約・タダでアクセスできない)、そこは今後の課題

メモ

モデルの概要図(論文から引用)
image

“Keyphrase Generation for Scientific Document Retrieval” [ACL 2020]

0. 論文

タイトル: “Keyphrase Generation for Scientific Document Retrieval”
著者: Florian Boudin, Ygor Gallina, Akiko Aizawa

arXiv投稿日: Mon, 28 Jun 2021
学会/ジャーナル: ACL 2020

1. 要点

  • キーワード生成によって科学文書検索の精度が向上することを示した

2. 手法

  • 既存のドキュメント検索手法(ルールベース)、既存のキーワード生成手法(ニューラルベース)を組み合わせて実験
  • 手法そのものの新規性はない

3. 実験・結果

  • NTCIR-2データセットを使用
    • 論文のタイトル、アブスト、それに紐づく検索クエリ
    • 2001年のデータセット(古い!)
    • 文書同士が似ているか似ていないかを二値分類するshort2クエリを利用して評価
  • 著者キーワードが与えられている場合、与えられていない場合でいずれも生成キーワードを追加したほうが精度が高くなった

メモ

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.