cfiken / paper-reading Goto Github PK

View Code? Open in Web Editor NEW

34.0 34.0 3.0 4 KB

paper-reading's People

Contributors

Stargazers

Watchers

Forkers

himicrain lukliz

paper-reading's Issues

🚀[2016] Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning

0. 論文

タイトル

Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning

リンク

https://arxiv.org/abs/1506.02142

著者

Yarin Gal, Zoubin Ghahramani (University of Cambridge)

投稿日付

2015/06/06 ICML 2016

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] UniformFace: Learning Deep Equidistributed Representation for Face Recognition

0. 論文

タイトル

UniformFace: Learning Deep Equidistributed Representation for Face
Recognition

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Duan_UniformFace_Learning_Deep_Equidistributed_Representation_for_Face_Recognition_CVPR_2019_paper.pdf

著者

Yueqi Duana, Jiwen Lu, Jie Zhou

投稿日付

CVPR 2019

1. どんなもの？

顔認識タスクにおいて、各クラスの代表ベクトルが多様体上に均一に広がるような制約を加える損失関数である Uniform Loss を提案。
既存手法ではクラス間距離を大きく、クラス内分散を小さくするようなロスが多く使われているが、これは特徴空間の全体を考慮しておらず、良くない局所性やアンバランスな分布が発生する。

図は Fig. 1 より。2D, 3D ともにSphereFace と比べて均一な分布となっている。

MegaFace Challenge や YTF, LFW といった様々なタスクで実験により効果を示した。

2. 先行研究と比べてどこがすごい？

既存研究では着目されていなかった、多様体上でのクラス全体での分布に焦点を当てた。

3. 技術や手法のキモはどこ？

各クラスの代表ベクトルを単位量の電荷として考えると、UniformLoss は全代表ベクトルの位置エネルギーと考えることができ、問題を各クラス分の電荷による位置エネルギーの最小化問題と変えた。

4. どうやって有効だと検証した？

MegaFace Challenge1, IJB-A, YTF, LFW のデータセットで実験。実験数は多くはないが、CosFace, ArcFace などの既存手法と組合せて使用して、既存の性能を改善している。
表は Table 4 で MegaFace Challenge 1 での既存手法との組合せの例。

ただし、ArcFace の方が CosFace より悪かったり、CosFace のスコアが別の表と合わないなど少し変な点がある。

5. 議論はある？

今回は等価な電荷を考えたが、data-dependent な電荷を与えた上でのより細かい表現の分布を考えるのは面白そう

6. 次に読むべき論文は？

他とかぶるので割愛

[2019] Timeception for Complex Action Recognition

0. 論文

タイトル

Timeception for Complex Action Recognition

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Hussein_Timeception_for_Complex_Action_Recognition_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.01289

著者

Noureldien Hussein, Efstratios Gavves, Arnold W.M. Smeulders

投稿日付

CVPR 2019

1. どんなもの？

ビデオ内のいくつかの単純な one-action を複数含む complex-action を認識するために、時間方向の multi scale convolution である Timeception を提案した。
既存手法では 3D convolution を使用しており、長い時間方向のモデリングには計算コストが高くなってしまっていたが、Timeception は既存手法の8倍の長さ(2014 timesteps) のモデリングが可能。

2. 先行研究と比べてどこがすごい？

1024 timestep もの長い系列を、Pooling などで起こる短いスパンの情報損失なしにモデリングを行う手法は初。
また、complex-action の時間的な特徴 (個々の action の長さや順番が変わりうる) を考慮したモデリングを行っている。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

Charades, Breakfast Actions, MultiTHUMOS といった、複雑な action を含む長いレンジの認識タスクで SOTA を更新。

5. 議論はある？

6. 次に読むべき論文は？

[2019] 2.5D Visual Sound

0. 論文

タイトル

2.5D Visual Sound

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao_2.5D_Visual_Sound_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.04204

著者

Ruohan Gao, Kristen Grauman

投稿日付

CVPR 2019

1. どんなもの？

モノラルな音声を、映像から空間的な情報を取り込んで、バイノーラルな音声に変換する 2.5D visual sound を提案した。また、提案手法によって得られたバイノーラルな音声が、自己教師あり学習により audio-visual source separation タスクに効果的な表現を得られていることを示した。学習に使用した 5.2時間分のバイノーラルな音声データも公開されている。

2. 先行研究と比べてどこがすごい？

一般的な視界のビデオを用いて、モノラルな音声をバイノーラルな音声に変換する試みは初。
audio-visual source separation task に対してバイノーラルな音声特徴を用いるアプローチは初。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

FAIR で収集した FAIR-Play を始めとした4つのデータセットで、ambisonics (360度映像と音声) のためのモデルと、提案手法から少し情報を削ったモデル (Audio-only, Flipped-Visual, Mono-Mono) で実験し、autometric による評価も human test による評価も最も良い結果となった。
また、 source separation タスクについてもバイノーラルな表現がモノラル音声より分離に効果的であることを示した。

5. 議論はある？

6. 次に読むべき論文は？

[2019] Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

0. 論文

タイトル

Do Neural Dialog Systems Use the Conversation History Effectively? An Empirical Study

リンク

https://arxiv.org/abs/1906.01603
コード: https://github.com/chinnadhurai/ParlAI/

著者

Chinnadhurai Sankar, Sandeep Subramanian, Christopher Pal, Sarath Chandar, Yoshua Bengio

投稿日付

ACL 2019

1. どんなもの？

対話モデルに対する指摘の1つとして、過去の対話履歴を有効活用できていないというものがある。本研究では、対話履歴の並び替えや削除などの操作を行い対話モデルの履歴に対する sensitivity を調査することで、どのように過去のコンテキストを理解・活用しているかを調べる実験を行った。
対話履歴をめちゃくちゃにしてもモデルの返答が同じになったら、それは対話履歴を有効活用できてなくね? という話。
結果、 LSTM や Transformer ベースの一般的なモデルは対話履歴の変化にあまり sensitive でない(対話履歴の情報をそこまで活用していない) ことが分かった。

画像は行った Word-Level の Perturbation の例。文章はめちゃくちゃだが、返答は同じとなっている。

2. 先行研究と比べてどこがすごい？

対話応答生成のモデルは過去発話のコンテキストをちゃんと活用できていないという指摘を実験的に検証した。
言語モデルが何を学習しているのか、条件に pertubation などがあった場合どうなるか、などの研究はあるが、対話モデルでの対話履歴に着目し検証したのは初。

3. 技術や手法のキモはどこ？

utterance や word-level での perturbation を入れ、ベースラインモデルでテスト時の挙動を見る
ある perturbation を入れたときの単語ごとの PPL を計測し、大きく PPL が上がった (精度が下がった) 場合は「モデルがコンテキストを活用できている=良い」ということになる。
逆に PPL が上がらない (精度が高いまま) の場合は、モデルがコンテキストをあまり見ていないと判断できる。

4. どうやって有効だと検証した？

4つの multi turn dialogue dataset で LSTMベース、 Transformer ベースのモデルをそれぞれ学習し、上記の perturbation を加えてテスト推論を行い、PPL の変化を見ることでコンテキストの活用度合いを計測した。
結果、LSTM ベースも Transformer ベースもほとんど対話履歴を活用できておらず、まだ LSTM の方が Transformer よりマシ、という結論になっている。

5. 議論はある？

今回のコードは公開しているので、今後の会話モデルの理解が進むといいなー的なことが書かれている。

6. 次に読むべき論文は？

Related Work には同様に RNN や Transformer が具体的にどういった点を学習できた・できていないなどについてまとめた論文が紹介されていた。

[2019] Incremental Transformer with Deliberation Decoder for Document Grounded Conversations

nlp-survey-kb-response/nlp-survey-kb-response#41

[2020] Low-Resource Knowledge-Grounded Dialogue Generation

0. 論文

タイトル

Low-Resource Knowledge-Grounded Dialogue Generation

リンク

https://arxiv.org/abs/2002.10348

著者

Xueliang Zhao, Wei Wu, Chongyang Tao, Can Xu, Dongyan Zhao, Rui Yan

投稿日付

ICLR 2020

1. どんなもの？

知識を用いた対話システムを少ないデータリソースで効率よく学習するためのモデル・方法の提案。モデルのパラメータを通常の会話部分と知識による会話部分に分け、それぞれの部分で分けて事前学習を行い、disentangled された表現を decoder でうまく扱うことで効率化。
Wizard of Wikipedia, CMU Document Grounded Conversation の2つで実験し、既存モデルに対して 1/8 程度のデータ量で SoTA スコアを更新し、学習データとは異なるドメインに対しても少ないデータで適応できることを示した。

2. 先行研究と比べてどこがすごい？

少ない knowledge-grounded なデータリソースで知識を用いた対話モデルの学習を行う方法を提案した。
対話の表現・知識の表現をうまく disentangled する decoder を提案し、それぞれを別に pre-train することで知識を用いた対話の精度を上げる方法を提案した。

3. 技術や手法のキモはどこ？

次のようにコンポーネントを分けてモデルを作成。コンポーネント GRU + attn ベース, decoder は更に copy mechanism を入れたもの。
- encoder
  - encoding context: 会話履歴を GRU encode
  - encoding knowledge: 外部知識を BiGRU encode
- decoder
  - language model: 言語モデル
  - context processor: GRU + attention + copy mechanism
  - knowledge processor: GRU + 文レベルの attention + 単語レベル attention で copy
- decoder manager: 上記3つの出力から次の単語予測, gumbel softmax (必要か?)

パラメータを分けつつ pre-training や training を行う
- コンポーネントごとのパラメータを分けて pre-training
  - context encoder, decoder, context processor を対話データ (Reddit) で学習
  - language model を対話データ (Reddit) のそれぞれの文を使って学習, この時 decoder のパラメータは fixed
  - knowledge encoder を知識データ (wikipedia) を使って学習
  - 残りのパラメータ (knowledge processor, decoding manager) は知識付きの対話データ (Wizard of Wikipedia, CMU_DoG)で学習, この時他の全てのパラメータは fixed

4. どうやって有効だと検証した？

Wizard of Wikipedia, CMU_DoG データセットを、比較に Tranformer Memory Network (Wizard of Wikipedia のベースライン) と Incremental Transformer with Deliberation Decoder (ITDD) を使用して実験。提案手法については low-resource での効果を見るために、データセットを full, 1/2, 1/4, 1/8, 1/16 にして学習を行った。

結果はわかりやすい形になっており、Training と同じドメインのデータ (Test Seen) については ITDD が最も良いスコアだが、Test Unseen (Wizard of Wikipedia は test データが Test Seen と Test Unseen に分かれている) については ITDD の性能は大きく落ちているのに対して、提案手法はほとんど Test Seen と変わらない、かつそんなに悪くないスコアになっている。

5. 議論はある？

次の疑問について論文内で提示・実験を行っている。

Q1: 各コンポーネントを pre-train したモデルに knowledge-grounded なデータで finetune するとき、pre-train 部分を fix する/しないどっちがいい?
- 実験したところ、データが多いときはしないほうが良いが、データが少ないと finetune 時のデータに overfitting したのでしないほうが良い。
Q2: Transformer Memory Network にも同様に knowledge を含まない対話データ (Reddit) で pre-train したらどうなる? ( knowledge encode と decoder のパラメータを finetune)
- 実験したところ、依然として提案手法の方が高いスコアだった。明示的にパラメータを disentangled したのが効いていると考えられる。
Q3: component それぞれに pre-train をしているが、どれが効いている?
- ablation study を実施して、全て効いていることを確認。

6. 次に読むべき論文は？

Wizard of Wikipedia: Knowledge-Powered Conversational Agents
- https://qiita.com/cfiken/items/97c87e6162fbd4a806bc
- ベースラインモデル (TMN) & データセット (Wizard of Wikipedia)
Incremental Transformer with Deliberation Decoder for Document Grounded Conversations
- nlp-survey-kb-response/nlp-survey-kb-response#41
- ベースラインモデル ITDD
A Dataset for Document Grounded Conversations
- https://arxiv.org/abs/1809.07358
- データセット (CMU_DoG)

[2019] Towards Knowledge-Based Recommender Dialog System

0. 論文

タイトル

Towards Knowledge-Based Recommender Dialog System

リンク

https://arxiv.org/abs/1908.05391

著者

Qibin Chen, Junyang Lin, Yichang Zhang, Ming Ding, Yukuo Cen, Hongxia Yang, Jie Tang

投稿日付

EMNLP 2019

1. どんなもの？

対話ベースのレコメンドシステムについて、レコメンドシステムと対話システムを end-to-end に組み合わせることでそれぞれの性能を底上げする KBRD (Knowledge-Based Recommender Dialog) を提案した。
下記図のように、単純に対話システムとレコメンドシステムの出力を切り替えるだけではなく、お互いの情報をうまく活用することでそれぞれの精度を改善する。

2. 先行研究と比べてどこがすごい？

end-to-end にレコメンドシステムと対話システムを互いの情報を活かしつつ組み合わせる手法を提案した。

3. 技術や手法のキモはどこ？

次の手順でユーザの表現を得る。

対話の中から entity linking により item と non-item を問わない entity のリストを作成する
knowledge graph と GCN を用いて各 entity をエンコードする
self-attention を適用して固定次元の表現に変換し、これをユーザの表現とする
- これを (item の entity にのみ) softmax を取ることでレコメンドの確率分布となる

次いで、レコメンドシステムで得られた情報を対話システムに組み込む。

レコメンドシステムで得られたユーザ表現を語彙の次元に変換する
Transformer の decoder の最後の分類レイヤに bias として変換した表現を足す

4. どうやって有効だと検証した？

DIALog (REDIAL) という対話によるレコメンデーションのデータセットを使って検証。
レコメンド精度、対話評価ともに提案手法がベースラインモデルを上回った。ablation study も行い、モデルの変化(HRED -> Transformer)、外部知識の導入、対話情報の組み合わせのどれも改善に貢献していることがわかった。
特に対話においては、Transformer が PPL に大きく貢献し、他の手法によりモデル出力の多様性に大きく改善が見られた。

5. 議論はある？

分析により、対話内で言及される映画(item)の数が少ない場合は対話を取り入れた手法で大きく改善でき、対話内で言及される映画が多い場合は外部知識を取り入れた手法で大きく改善できることがわかった。

6. 次に読むべき論文は？

Extreme Adaptation for Personalized Neural Machine Translation
- Paul Michel, Graham Neubig, ACL 2018
- bias に他の情報載せる文脈で出てきた

[2019] Boosting Dialog Response Generation

0. 論文

タイトル

Boosting Dialog Response Generation

リンク

https://www.aclweb.org/anthology/P19-1005/

著者

Wenchao Du, Alan W Black

投稿日付

ACL 2019

1. どんなもの？

対話モデルの多様性の低さを Boosting を用いることで改善するアプローチの提案。
いくつかのトレーニング方法や decoding 方法 (MMI: Maximum Mutual Information, RAML: Reward-augmented maximum likelihood learning) でベースモデルを作成し、Boosting に組み合わせて学習したモデルの比較・実験を行った。
結果、定量的・定性的に Boosting モデルにより精度を落とさずに多様性向上が見られた。

2. 先行研究と比べてどこがすごい？

Boosting を用いて対話の多様性と妥当性をあげる試みは初。
対話のために RAML を boosting で学習を行ったのは初。

3. 技術や手法のキモはどこ？

MMI や RAML といった対話モデルの多様性を上げるためのアプローチと、Boosting を組合せて学習を行った点。

4. どうやって有効だと検証した？

いくつかの方法で学習したベースモデルと、その Boosting 版を比較実験し、対話の精度をあまり落とさないまま多様性が上がったことを auto metrics による評価と人手評価により示した。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Boosted Generative Models
- https://arxiv.org/abs/1702.08484
- Aditya Grover, Stefano Ermon
- AAAI 2018
- 元のアイディアとして頻繁に引用されている
A Diversity-Promoting Objective Function for Neural Conversation Models
- https://arxiv.org/abs/1510.03055
- Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, Bill Dolan
- NAACL 2016
- MMI の提案論文
Reward Augmented Maximum Likelihood for Neural Structured Prediction
- https://arxiv.org/abs/1609.00150
- Mohammad Norouzi, Samy Bengio, Zhifeng Chen, Navdeep Jaitly, Mike Schuster, Yonghui Wu, Dale Schuurmans
- NIPS 2016
- RAML の提案論文

[2019] AdaptiveFace: Adaptive Margin and Sampling for Face Recognition

0. 論文

タイトル

AdaptiveFace: Adaptive Margin and Sampling for Face Recognition

リンク

http://openaccess.thecvf.com/content_CVPR_2019/html/Liu_AdaptiveFace_Adaptive_Margin_and_Sampling_for_Face_Recognition_CVPR_2019_paper.html
https://github.com/haoliu1994/AdaptiveFace コード公開予定とのことだがまだない (2019/09/07)

著者

Hao Liu, Xiangyu Zhu, Zhen Lei, Stan Z. Li

投稿日付

CVPR 2019

1. どんなもの？

マージン付 Softmax Loss の提案により顔認識タスクの性能は大きく改善されたが、各クラスの分布を表現するサンプル数が十分にあるという前提があった。
マージンはクラスによって適応的に決められるべきという考え方で、Adaptive Margin Softmax という新しい損失関数を提案。
また学習時のサンプリングにも Hard Prototype Mining と Adaptive Data Sampling を導入し、これらをまとめて AdaptiveFace として提案した(詳細後述)。
LFW, LFWBLUFR, MegaFace で実験し、SOTA のスコアを更新した。

2. 先行研究と比べてどこがすごい？

各クラスに入れるマージンを learnable parameters とした softmax loss を提案した。
損失関数だけでなく、適応的なサンプリングや hard prototype mining を組み合わせた手法を提案した。

3. 技術や手法のキモはどこ？

Adaptive Margin Softmax
- CosFace の損失関数
- これの m を各クラスごとに持つ learnable parameters にした、CNN と一緒に学習する
Hard Prototype Mining
- ちょっと事前知識がなくて分からなかったので復讐したい
Adaptive Data Sampling
- 分類レイヤからデータレイヤに feedback layer をつないで、データのサンプリングの確率に手を入れる。
- 学習中に正しく分類された場合、サンプリング確率を下げる。
- 逆の場合はサンプリング確率を上げる。
- ノイズデータ対策のため、一定のしきい値を超えた差があった場合はサンプリング確率を大きく下げる。

4. どうやって有効だと検証した？

MegaFace Challenge 1, LFW, LFW BLUFR で実験。ベースラインは SoftMax, SphereFace, CosFace, ArcFace。
すべてで AdaptiveFace が最も高いスコアを獲得。
表は MegaFace Challenge 1 のケース。

Ablation study も行い、 CosFace のベースラインに対してそれぞれの手法だけでも効果があることを示している。

5. 議論はある？

6. 次に読むべき論文は？

SphereFace: Deep Hypersphere Embedding for Face Recognition
- https://arxiv.org/abs/1704.08063
- Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song
- CVPR 2017
- SphereFace 提案論文
CosFace: Large Margin Cosine Loss for Deep Face Recognition
- https://arxiv.org/abs/1801.09414
- Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei Liu
- CVPR 2018
- CosFace 提案論文その1
Additive Margin Softmax for Face Verification
- https://arxiv.org/abs/1801.05599
- Feng Wang, Weiyang Liu, Haijun Liu, Jian Cheng
- CosFace 提案論文その2
ArcFace: Additive Angular Margin Loss for Deep Face Recognition
- #20
- ArcFace 提案論文

[2019] Structured Binary Neural Networks for Accurate Image Classification and Semantic Segmentation

0. 論文

タイトル

Structured Binary Neural Networks for Accurate Image Classification and
Semantic Segmentation
https://arxiv.org/abs/1811.10413

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhuang_Structured_Binary_Neural_Networks_for_Accurate_Image_Classification_and_Semantic_CVPR_2019_paper.pdf

著者

Bohan Zhuang, Chunhua Shen, Mingkui Tan, Lingqiao Liu, Ian Reid

投稿日付

CVPR 2019

1. どんなもの？

画像分類などの CNN のモデルにおける重みと activation の両方を binary で表現する Binary NNs において、既存手法である元の(フル精度の)モデルの重みや activation の値を近似する value approximation ではなく、元のモデルのキャパシティを再現するような binary のモデルを設計する structure approximation によるアプローチを提案した。
画像分類だけでなく、semantic segmentation などにも拡張できる。
既存手法と比べて、accuracy と計算量のトレードオフで SOTA.

2. 先行研究と比べてどこがすごい？

今までの binary NNs の実現手法において、value approximation ではなく、元のモデルを再現できるように構造から変える structure approximation のアプローチは初。
また、semantic segmentation への応用として、分解したネットワークで異なる dilated rate を使う Binary Parallel Atrous Convolution を提案。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

前 SOTA だった ABC-Net を含む既存手法と ImageNet で比較し、binary, fixed-point の両方で SOTA を更新。
また、 semantic segmentation タスクである PASCAL VOC でも既存手法と比較し良いスコアとなった。

5. 議論はある？

6. 次に読むべき論文は？

[2019] Ranking and Sampling in Open-Domain Question Answering

0. 論文

タイトル

Ranking and Sampling in Open-Domain Question Answering

リンク

https://www.aclweb.org/anthology/D19-1245/

著者

Yanfu Xu, Zheng Lin, Yuanxin Liu, Rui Liu, Weiping Wang, Dan Meng

投稿日付

EMNLP IJCNLP 2019

1. どんなもの？

Open-domain Question Answering は質問にいくつかのパラグラフから答えを作成するが、既存手法の多くは質問とパラグラフの関係による教師あり学習を用いている。
本研究では、多くの候補となるパラグラフの中には noisy (回答の単語は含まれるが回答は導けない)や distracting (回答の単語が含まれない)が含まれるとし、パラグラフとパラグラフの関係を活用して有用なパラグラフを見つけるためのランキングモデルや、それを用いた学習時の sampling strategy を提案した。
Quasar-T, SearchQA, TriviaQA のデータセットでSoTAを更に改善。

2. 先行研究と比べてどこがすごい？

複数パラグラフの候補の中から回答を見つけるような QA タスクについて、質問-パラグラフの関係だけではなくパラグラフ間の関係に着目し、パラグラフのスコアを使った sampling strategy を提案した。

3. 技術や手法のキモはどこ？

bidirectional LSTM と attention を用いて各パラグラフのスコアを計算する。

計算したスコアを用いて学習時の sampling strategy を改良する。具体的には、スコアの高い k 個のパラグラフのみ学習に使う RK (Ranking) や、スコアを用いて sanpling する WS (Weighted Sampling) などを組み合わせている。

4. どうやって有効だと検証した？

Quasar-T, SearchQA, TriviaQA のデータセットを使って、多くのベースラインモデルと比較し、最も良い結果となった。

複数の実験と分析を行い、ranker, sampling strategy ともに性能に貢献していることを示した。

5. 議論はある？

6. 次に読むべき論文は？

[2019] Effective Adversarial Regularization for Neural Machine Translation

0. 論文

タイトル

Effective Adversarial Regularization for Neural Machine Translation

リンク

https://www.aclweb.org/anthology/P19-1020
http://sato-motoki.com/pdf/acl2019.pdf
https://github.com/pfnet-research/vat_nmt

著者

Motoki Sato, Jun Suzuki, Shun Kiyono

投稿日付

ACL 2019

1. どんなもの？

Neural Machine Translation (NMT) において、各 token の embedding に対して loss が大きくなる方向に摂動を付加する Adversarial Regularization の効果をメジャーなモデルで実験し、性能が改善されることを示した。
LSTM と Transformer で実験を行い、通常の Adversarial Regularization だけでなく VAT を使ったものや、Back-Translation によるデータ拡張を組み合わせた手法でも実験し、全てで改善を確認している。

2. 先行研究と比べてどこがすごい？

テキスト分類において Adversarial Regularization の効果を見る研究はあったが、NMT のような enc-dec モデルにおいて様々な比較を行ったのは初。

3. 技術や手法のキモはどこ？

adversarial な perturbation を (1) encoder only, (2) decoder only, (3) both とした比較や、LSTM ベースと Transformer ベースのモデルの比較、VAT との比較、及び Back-Translationを含んだ比較など、多岐にわたって検証を行った。

4. どうやって有効だと検証した？

同上。

5. 議論はある？

特になし
IMO: NMT 以外の enc-dec にも効果があるかは気になるところ。

6. 次に読むべき論文は？

Adversarial Training Methods for Semi-Supervised Text Classification
- Takeru Miyato, Andrew M. Dai, Ian Goodfellow
- https://arxiv.org/abs/1605.07725
- ICLR 2017
- text classification タスクでの adversarial regularization の効果検証を行った研究
Distributional Smoothing with Virtual Adversarial Training
- Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, Ken Nakae, Shin Ishii
- https://arxiv.org/abs/1507.00677
- ICLR 2016
- VAT

[2015] From Word Embeddings To Document Distances

0. 論文

タイトル

From Word Embeddings To Document Distances

リンク

http://mkusner.github.io/publications/WMD.pdf

著者

Kusner, M. J. and Sun, Y. and Kolkin, N. I. and Weinberger, K. Q.

投稿日付

ICML 2015

1. どんなもの？

Earth Mover's Distance をテキストに応用した Word Mover's Distance の提案。document の類似度を測る手法がまだ良いものがないとして、word2vec 空間での2つの文書間の距離を、それぞれを一致させるために必要な最小の移動量として定義(Earth Mover's Distance)し、Word Mover's Distance とした。
8つのタスクでで様々な他の指標と比較し、kNN による分類で最も低い誤差率となった。

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

2つの文書 d_0, d_1 の類似度を考えると、次のような文章は意味はほぼ同じだが同じ単語は含まれないため BOW 系の特徴量だと類似度はゼロになってしまう。
d_0: Obama speaks to the media in Illinois
d_1: The President greets the press in Chicago

WMD では、それぞれの単語同士の word2vec 空間での距離から考える。距離はユークリッド距離を使用し、単語 x_i と単語 x_j の距離はで計算できる。
最終的に知りたいのは文書間の距離(類似度)なので、この c_{i, j} を単語 x_i から単語 x_j への移送コストと呼ぶ。

文書間の最小移送距離は、移送コストと、どの単語をどの単語に移送させるかを定義する flow matrix T を使って、次のように定式化できる。

d_0 の各単語が、一番移動が少なくなるように d_1 に対応させるイメージ。Tについての制約付き最適化問題を解くことになる。

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] Self-Supervised Dialogue Learning

0. 論文

タイトル

Self-Supervised Dialogue Learning

リンク

https://arxiv.org/abs/1907.00448

著者

Jiawei Wu, Xin Wang, William Yang Wang

投稿日付

30 Jun 2019
ACL 2019

1. どんなもの？

対話において発話の順序が重要という考察から inconsistent order detection というタスクを解く self-supervised な学習手法とそのためのモデルである Self-Supervised Network (SSN) を提案。
通常の対話モデル学習と SSN による学習を GAN の仕組みを用いて組み合わせることでより一貫した学習ができるようにし、Open-Subtitles と Movie-Ticket Booking のタスクで SOTA を更新した。
通常の対話モデルを Generator として、SSN を「ある生成文が良い返答なら順序タスクを解きやすい」という Discriminator として使うことで組み合わせている。

2. 先行研究と比べてどこがすごい？

対話モデルの学習において、対話の順序に着目しそれをタスクとして取り入れた研究は初。
またその順序識別タスクを上手く Adversarial Learning に取り入れた。

3. 技術や手法のキモはどこ？

Inconsistent Order Detection
- 対話セットからランダムでサンプリングした3つの発話・応答セットの順序が逆転しているかどうかを予測するタスク
Self-Supervised Network SSN
- taget pair よりも過去の対話から 2つの triple である T' と T'' をサンプリング
  - T', T'' は Ordered / Misordered の組み合わせを変えて実験
- target T が ordered/misordered かどうかを T', T'' の条件での確率となるように SSN を設計
  - P(T|T', T'') = S(T, T', T'')
- モデルは LSTM ベース
SSN + Dialogue
- 対話には順序の影響が大きいので、生成文 A_t が良ければ inconsistent order の判断は簡単になる
- そうでない場合は、生成した A_t が微妙
- これを逆に使って、misordered な triple が与えられた時 A_t でどのくらい正しく識別できるかを見る
  - これにより、 A_t がどれくらい良いかを評価する (簡単にわかれば A_t は良い応答)
- これを Discriminator として使って、Generator を Adversarial に学習する

4. どうやって有効だと検証した？

OpenSubtitles と Movie-Ticket Booking のデータセットで実験。ベースラインモデルとして adversarial な学習を用いたモデルである REGS (Li et al., 2017) とAEL (Xu et al., 2017) と比較。
様々な実験を行い、どの指標でも提案手法が上回った。
特に人間評価では大きな差があった。

5. 議論はある？

同じ枠組みが他の NLP タスクにも適用できるかどうか

6. 次に読むべき論文は？

Adversarial Learning for Neural Dialogue Generation
- https://arxiv.org/abs/1701.06547
- Jiwei Li, Will Monroe, Tianlin Shi, Sébastien Jean, Alan Ritter, Dan Jurafsky
- REGS のモデル
Neural Response Generation via GAN with an Approximate Embedding Layer
- https://www.aclweb.org/anthology/D17-1065
- Zhen Xu, Bingquan Liu, Baoxun Wang, Chengjie Sun, Xiaolong Wang, Zhuoran Wang, Chao Qi
- AEL のモデル
Neural Approaches to Conversational AI
- https://arxiv.org/abs/1809.08267
- Jianfeng Gao, Michel Galley, Lihong Li

[2019] Compressive Transformers for Long-Range Sequence Modelling

0. 論文

タイトル

Compressive Transformers for Long-Range Sequence Modelling

リンク

https://arxiv.org/abs/1911.05507

著者

Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap

投稿日付

ICLR2020 (Submitted on 13 Nov 2019)

1. どんなもの？

TransformerXL のアイディアを元にして、より長期間の系列をメモリに保存・活用できる Compressive Transformers を提案。
TransformerXL では過去の系列の activation をメモリとして保存しておくが、メモリサイズ n 以上の過去の系列は捨てることになる。Compressive Transformer では、Fig.1 のように捨てられるメモリを圧縮して Compressive Memory として保存しておくことで、より長期間の情報を活用できる。

WikiText-103 と Enwik8 で
長い系列の言語モデルのための PG-19 という book based なベンチマークも作成した。

2. 先行研究と比べてどこがすごい？

先行研究では attention の範囲を広げる工夫や、attention の演算コストを下げる研究が多い。
本研究では古いメモリを圧縮して保存することで activation の量は少なくしつつ長期のメモリを保存することができる。
また、スピーチの認識や強化学習におけるメモリ構造にも適用し、効率よく長期のメモリを保持できていることを示した。

3. 技術や手法のキモはどこ？

古いメモリを圧縮して持つというシンプルな方法で attention 自体のアルゴリズムの修正必要なしに、長期間のメモリ保存を可能にする。
古いメモリのユニット n 個分を n/c 個のユニットに圧縮して保存する(下記で定義される関数を適用)。
- 圧縮方法は複数実験しており、(1) max/mean pooling, (2) 1D convolution, (3) dilated convolution, (4) most-used を試している。
- (2) と (3) はパラメータを持つ。
パラメータを持つ圧縮関数については、auxiliary loss を定義して学習させる
- (1) auto-encoding: 圧縮前後のメモリの再現 loss
- (2) attention-reconstruction loss: 圧縮前後の入力(の隠れ層)との attention の再現 loss
  - これが一番良かった
TransformerXL に比べて c = 3 のとき同じ計算量で二倍の系列を見ることができる

4. どうやって有効だと検証した？

実験は提案したベンチマークである PG-19 に加えて、Enwik8, WikiText-103 で実験。それぞれでベースラインである TransformerXL のスコアを更に改善した。
Speech モデリング (vs. WaveNet), 強化学習 (vs. IMPALA の LSTM(?)) のタスクでもそれぞれ実験を行い、Compressed Memory による可能性を確認した。

5. 議論はある？

下記は研究課題としてあるとのこと

他のドメインへの応用は更に可能か
compression rate はレイヤごとに調整すべきか
compressor に RNN の利用

6. 次に読むべき論文は？

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
- https://arxiv.org/abs/1901.02860
Sparse Transformer
- https://openai.com/blog/sparse-transformer/

[2019] Meta-Transfer Learning for Few-Shot Learning

0. 論文

タイトル

Meta-Transfer Learning for Few-Shot Learning

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Sun_Meta-Transfer_Learning_for_Few-Shot_Learning_CVPR_2019_paper.pdf
https://arxiv.org/abs/1812.02391

著者

Qianru Sun, Yaoyao Liu, Tat-Seng Chua, Bernt Schiele

投稿日付

CVPR 2019

1. どんなもの？

Few-Shot Learning において、Meta Learning と Transfer Learning を組み合わせることでより深いモデルでも高速に Few-Shot なタスクに適用可能な Meta-Transfer Learning を提案。
Meta Learning の既存手法では、多くのタスクが必要で、かつ過学習を避けるため小さなネットワークを使う必要があったが、どちらの問題も軽減されている。
併せて学習効率化の hard task meta-batch も提案し、miniImageNet などのデータセットで SOTA を上回った。

2. 先行研究と比べてどこがすごい？

Meta-Learning により Deep なモデルを使用し過学習を抑えて良い結果となったケースは初。
大きなタスクで学習し、そのパラメータを固定しつつ Scaling と Shift だけ学習可能なパラメータで変換して小さなタスクを解かせるアイディアは初。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

miniImageNet, Fewshot-CIFAR100 で実験し、多くの Few-Shot Learning の手法 (data augmentation 系, metric learning 系, memory network 系, gradient descent 系) と比較してほとんどで SOTA な性能となった。

5. 議論はある？

6. 次に読むべき論文は？

[2020] Synthesizer: Rethinking Self-Attention in Transformer Models

0. 論文

タイトル	Synthesizer: Rethinking Self-Attention in Transformer Models
リンク	https://arxiv.org/abs/2005.00743
著者	Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng
投稿日付	2020/05/02 on arxiv

1. どんなもの？

Transformer の self-attention 機構の attention weight について調査・実験を行った研究。通常の self-attention では、dot-product により入力文の token ごとの相互作用で計算され、結果として入力サンプルごとに異なるものとなる。これが本当に意味があるのか検証を行うため、attention weight を別のもので置き換えたモデル SYNTHESIZER を定義し実験。
結果として、token 同士の作用とは無関係に attention weight を学習させたもの (Dense Synthesizer) でも Transformer と同等の性能となり、かつまたランダム行列を attention weight に用いたもの(Random Synthesizer)でも一部タスクでは十分良い性能となること確認した。

2. 先行研究と比べてどこがすごい？

Transformer の self-attention の効果に関する内容は珍しく、かつその効果がほぼないという結果は目新しいもので驚きが大きい。

3. 技術や手法のキモはどこ？

2つの Synthetic Attention を提案・実験。

Dense Synthesizer
- Key, Query の dot-product の代わりに、token ごとの dense layer を通して shape を揃えるもの。
- 次のような [length, dim] -> [length, length] となる関数を用意する
- attention layer の出力は, これに value である G(X) をかけた次になる。
- 実際は、次のように F(X) は2層の FFN を使う (記号が同じだが実際は違う重みかと思われる? shape 合わないので)
  - σ_R は relu. どっちが次元圧縮になってるのは不明。
Random Synthesizer
- Dense Synthesizer では関数を通じて input tokens から計算した B を、ランダム初期化して R とする
- input tokens に依存せず、task に対して有効で global な alignment となることが目的。
- attention layer の出力は value をかけて次になる。
- この R は、trainable と fixed の両方を試す。結果的に relative positional representation のようなものになっていると推測できる。
- パラメータ数は length x length
この2つに加えて、Dense, Random それぞれのパラメータ削減のための Factorized バージョンと、更に Vanilla Transformer も含めて組み合わせた mixing バージョンなど実験している。

Transformers を含めた違いの一覧は表1に載っている。

4. どうやって有効だと検証した？

提案した複数のモデル(組み合わせ含む)を WMT (翻訳), LM1B (LM), CNN/Dailymail (要約), PersonaChat (対話) で実験を行い、Vanilla Transformer 比較した。
結果は下記表。全体として、vanilla transformer でなくても性能が大差なく、random matrix (fixed) でも多少劣るがそこそこの性能が出る。また、attention 部分を Vanilla + Dense など組み合わせることで Vanilla Transformer を超える性能になっている。

その他の実験はコメントで。

5. 議論はある？

タスクによって、dot-product が良いものもあれば、dense や random の synthesizer が良いものもあるっぽい
- 要約は dot-product から変えると精度が落ちる。token-token の interaction が重要なのかもしれない。
- 対話は dot-product だと精度が落ちる。mix でも落ちる。token-token interaction が精度を下げる可能性がある。
- GLUE などであるの2つの文を入力するタスクは結果的に self-attention が二文の attention (cross-attention) になるので、除くと精度が落ちる。

6. 次に読むべき論文は？

Fixed Encoder Self-Attention Patterns in Transformer-Based Machine Translation
- https://arxiv.org/abs/2002.10260 Alessandro Raganato, Yves Scherrer, Jörg Tiedemann
- 似ている先行研究として紹介
- fixed な attention weights (人手で作成) を用いて機械翻訳であまり性能が変わらないことを確認

[2020] BERTScore: Evaluating Text Generation with BERT

0. 論文

タイトル

BERTScore: Evaluating Text Generation with BERT

リンク

https://arxiv.org/abs/1904.09675
https://github.com/Tiiiger/bert_score

著者

Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi

投稿日付

ICLR2020, arxiv on 21 Apr 2019

1. どんなもの？

テキスト生成という評価の難しいドメインにおいて、自動評価指標である BERTScore を提案。reference 文と candidate (予測) 文の BERT の contextual embeddings を用いて類似度を計算する。
機械翻訳と image captioning のタスクで実験し、既存の自動評価指標や learnable な評価指標と比較、安定して良いスコアを獲得。ロバスト性検証のため PAWS でも実験を行い、既存手法と比べてかなり高いロバスト性を示した。

2. 先行研究と比べてどこがすごい？

BERT の contextual embedding を用いることで、単純な単語のマッチングや単語の意味の類似度ではなく、文全体での意味的な類似度を提供できる。
一方で追加学習の必要がなく、BERT など pre-trained model が既に多数の言語で提供されているため多くの言語・ドメインで簡単に使うことができる。

3. 技術や手法のキモはどこ？

BERTScore はシンプルに算出でき、次の図がわかりやすい。

reference 文, candidate 文をそれぞれ BERT に入力し contextual embedding を得る
candidates/reference の各 token ペアごとに類似度を計算する (図の Pairwise Cosine Similarity)
最も高いものをその token の類似度とする (図の maximum similarity)
idf で期待値を取る

これにより得られるスコアを計算の仕方で Precision, Recall, F1, 及び idf による重み付けの有無でそれぞれ実験し、タスク差はあるもののどれも同じくらいの結果を得ている。

4. どうやって有効だと検証した？

機械翻訳、image captioning, ロバスト性の検証、の3つについて広範囲に実験。

機械翻訳
- WMT18 metric evaluation dataset を使用。各モデルの出力と正解文、それについての人間の評価値が与えられる。
- 正解となる人間評価との相関を Pearson correlation と Kendall rank correlation で評価。
- BERTScore が安定して良い評価に。
Image captioning
- COCO Captioning Challenge のデータを使用。
- task-agnostic な指標の中では最も良いスコアに。
ロバスト性の検証
- PAWS (Paraphrase Adversaries from Word Scrambling dataset) の QQP (Quora Question Pair data) を使用
  - 一部の単語を、意味が変わる (= paraphrase ではない) ように swapping している
  - QQP で学習したモデルが、PAWS でどう性能が落ちるかを見ている
- 既存手法が大きく性能が落ちているのに対して、BERTScore は少し落ちる程度、かつ他の児童評価指標よりも良いスコアに

5. 議論はある？

BERTScore は task agnostic な指標なので、これを基にしたタスク特化の指標が作れそう
BERTScore は differentiable なので、これを学習に組み込むことができるかも

6. 次に読むべき論文は？

PAWS: Paraphrase Adversaries from Word Scrambling
- ロバスト性の実験に用いたデータセット
- https://arxiv.org/abs/1904.01130
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance
- 同時期に出た、Earth Mover distance を用いた評価指標
- https://arxiv.org/abs/1909.02622

[2019] Deep RNN Framework for Visual Sequential Applications

0. 論文

タイトル

Deep RNN Framework for Visual Sequential Applications

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Pang_Deep_RNN_Framework_for_Visual_Sequential_Applications_CVPR_2019_paper.pdf
https://github.com/BoPang1996/Deep-RNN-Framework

著者

Bo Pang, Kaiwen Zha, Hanwen Cao, Chen Shi, Cewu Lu

投稿日付

CVPR 2019

1. どんなもの？

Visual Sequential 系タスクのためのモデルに2つの新しい設計を取り入れることで、より Deep な構造のモデルでも簡単に最適化ができるようになることを実験的に示した。
実験では、既存の Shallow なモデルに対して15層のネットワークを提案手法で学習に成功し、性能を大きく改善した。

2. 先行研究と比べてどこがすごい？

Visual Sequence のタスクにおいて Deep な RNN を用いることは学習の難しさや計算量の観点で現実的ではなかったが、提案手法でそれを改善し、Deep な RNN で学習ができるようになった。

3. 技術や手法のキモはどこ？

2つの新しい設計: Context Bridge Module (CBM) と Overlap Coherence Training Scheme を提案。

CBM:
- 2つの情報を分けて処理をする新たな RNN モジュール
- temporal flow と representation flow に分けて処理を行う
- 2つを分けることで、 Temporal Dropout (TD) も加えることが可能に
Overlap Coherence Training Scheme
- 計算量増大につながっている長い sequence の処理を効率化する学習スキーム
- 長い sequence を短い sequence に overlap を持つように分割する
- ある sequence の処理を始めるときの initial state は、overlap している別の clip の対応する timestamp の hidden state を取ってくる
- overlap coherent loss を追加し、異なる clips 間で矛盾がないように学習

4. どうやって有効だと検証した？

15層の RNN (普通は2層とかなので、約7倍)でトレーニングに成功し、Kinetics などのタスクで Shallow なネットワークに比べて11%の改善に成功した。
また、既存モデル (Polygon-RNN) のネットワーク部分を15層の提案モデルに置き換えることで、スコアを 14.7% 改善できた。
video future prediction タスクでは、既存のSOTAモデルを 2.4%更新した。

5. 議論はある？

さらなる validation やロバスト性の検証は必要

6. 次に読むべき論文は？

[2019] Frustratingly Easy Natural Question Answering

0. 論文

タイトル

Frustratingly Easy Natural Question Answering

リンク

https://arxiv.org/abs/1909.05286

著者

Lin Pan, Rishav Chakravarti, Anthony Ferritto, Michael Glass, Alfio Gliozzo, Salim Roukos, Radu Florian, Avirup Sil
(IBM)

投稿日付

2019/09/11

1. どんなもの？

Natural Questions といった難しい QA タスクにおいて、Leaderboard 上位にいるものの論文で説明されていないような手法が用いているテクニックなどを紹介した論文。
Attention-over-Attention, Data Augmentation, Ensemble strategy, pretrain 方法など、スコアを上げるための手法を説明する。
Natural Questions で SoTA を更新。

2. 先行研究と比べてどこがすごい？

Attention-over-Attention を始めとした、論文なのでは触れられていない QA のスコアを改善するためのテクニックを紹介しつつ、実験で検証した。

3. 技術や手法のキモはどこ？

Attention-over-Attention
- question の tokens Q, context の tokens C に対して、M = CQ^T を計算
- M を row-wise, column-wise にそれぞれ softmax を取り、β, α とする
- βを row で平均をとり、 s = α^T β ^T を計算する
- 上記の手続きを BERT の output に対して 2heads で行い、得られた s_1, s_2 を start, end の logits 計算に重み付き和の形で加える
Data Augmentation
- 先行研究である SOS (Sentence Order Shuffling)
- 既存データセット (SQuAD 2.0, NewsQA, TriviaQA) のランダム抽出と、NQに似たデータを抽出したもの
Ensemble 戦略
- Seed アンサンブルと複数モデルのアンサンブルそれぞれ実験
hyper parameters tuning で stride や sampling rate を微調整
- stride は 192 に
- sampling rate は回答可能かどうかで変えた

4. どうやって有効だと検証した？

Natural Questions で実験し、先行研究の SoTA を上回った

5. 議論はある？

Learning rate や Batch size は少し変えただけで大きく結果が異なるため、今回はちゃんと調べてないとのこと
BERT 以外の pre-train モデルを試したい

6. 次に読むべき論文は？

Synthetic QA Corpora Generation with Roundtrip Consistency
- https://arxiv.org/abs/1906.05416
- Chris Alberti, Daniel Andor, Emily Pitler, Jacob Devlin, Michael Collins (Google Research)
- ACL2019
- BERT joint を Data Augmentation でスコア改善した研究

[2019] Class-Balanced Loss Based on Effective Number of Samples

0. 論文

タイトル

Class-Balanced Loss Based on Effective Number of Samples

リンク

https://arxiv.org/abs/1901.05555
コード: https://github.com/richardaecn/class-balanced-loss

著者

Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie

投稿日付

CVPR 2019

1. どんなもの？

分類問題において、一部クラスがデータのほとんどを占め、多くのクラスのデータ数は少ないといったような、データの分布が long-tail になっている問題に対して、re-weight ベースの新しいアプローチ class-balanced loss を提案した。
クラスごとの観測データ数の逆数を重みとするなどして補正するのが一般的なアプローチだが、本研究では、データ数が増えると新しいデータの重要度は下がるとして、データ数ではなくデータの有効数 (effective number of samples) を定義し、それを用いて loss を調整している。
CIFAR の long-tail 版や、ImageNet, iNaturalist などで実験し、大きな改善が見られた。

図はイメージの説明。通常の学習だと決定境界はサンプル数の少ない方に寄って決定境界が黒い線になってしまう。単にクラス比の逆数で重み付けをすると強すぎて決定境界が赤い線になってしまう。有効データ数の逆数を使うことで青い線を目指そうという試み。

2. 先行研究と比べてどこがすごい？

データの有効数という概念を提案し、学習時のクラスの重みに使った例は初。
既存の損失関数 (focal loss など) と組合せて使うことが出来る。

3. 技術や手法のキモはどこ？

データの有効数を random covering を用いて定義することでデータ増加による特徴空間上でのクラスの領域への寄与を計算し、学習時のクラスの重みとしている。
最終的には別途計算した係数を loss にかけるだけなのでシンプル
- 例えば softmax loss の場合は下記 (βはハイパーパラメータ, n^y はクラスyのデータ数)

4. どうやって有効だと検証した？

long-tailed CIFAR (10,100), iNaturalist (2017, 2018), ILSVRC 2012 で実験。
softmax loss, sigmoid loss, focal loss と組合せて実験し、すべてで class-balanced な loss を使ったときのほうが良い結果となっている。

最適な β についても議論しており、 CIFAR 10 の場合は β=0.9999, CIFAR 100 の場合は β=0.9 となっているが、これが特徴空間上のクラスの体積の理解とあっている。
CIFAR 10 の場合は1つのクラスがでかい(例: 鳥) なので有効データ数 N の値が大きく、CIFAR 100 の場合は1つのクラスがもっと細かい (例: スズメ) ので有効データ数 N が小さくなる。

5. 議論はある？

データの分布に何も仮定を置いていないため、何にでも適用できる一方で、データの分布に仮定をおいた場合の拡張や、適応的に学習するような方法については future work としている。

6. 次に読むべき論文は？

Focal Loss for Dense Object Detection
- https://arxiv.org/abs/1708.02002
- Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár
- ICCV 2017?
- Focal Loss の提案論文

[2020] Dynamic Knowledge Routing Network For Target-Guided Open-Domain Conversation

0. 論文

タイトル

Dynamic Knowledge Routing Network For Target-Guided Open-Domain Conversation

リンク

https://arxiv.org/abs/2002.01196

著者

Jinghui Qin, Zheng Ye, Jianheng Tang, Xiaodan Liang

投稿日付

AAAI2020 (Submitted on 4 Feb 2020 (v1), last revised 6 Mar 2020 (this version, v2))

1. どんなもの？

Target-guided open-domain conversation という、あるターゲットとなるトピックやキーワードをゴールとして設定する雑談タスクについての新しいモデル dynamic knowledge routing network (DRKN) を提案した。
このタスクは Tang et al. (2019) によって最近提案されたもので、open-domain な雑談においても明確ではないが目的があるとし、有限ターンである人間と agent の雑談の中で、フリートピックから始まり、決められたキーワードに自然に到達させるようなもの。

発話内のキーワードを対話履歴からフィルタリングを行う DKRN、発話内のキーワードに関連するキーワードから抽出した返答候補から、target に近いものを選ぶ二段階の戦略などを取り入れたネットワークを提案し、 keyword prediction, response retrieval ともに既存手法を上回る精度となった。

2. 先行研究と比べてどこがすごい？

既存モデル (Tang et al. 2019) では keyword を使用する際にその keyword の意味的な関係を使用していない点を、DKRN では活用することで精度を改善した。

3. 技術や手法のキモはどこ？

モデルが若干複雑だが、キモとなるのは次の2点。

DKRN を用いて関連キーワードをフィルタリング
- まず RNN を用いて現在の発話から次の会話のキーワードの分布を予測
- 次に対話コーパスから学習した関連グラフ(単に前後の会話でキーワードの組み合わせが存在するかどうか)を用いて関連のないキーワードをマスク
dual discourse-level target guided strategy (二重の戦略)
- 対話のスムーズ性 (急に target に向けて話題が変わると奇妙) と target 達成への進度のトレードオフをいい感じにするためのもの
- DKRN などを通して選択されたキーワードから関連するキーワードを用いて候補文を作成 (話題が自然)
- その中で target との親和性が最も高いものを再度選択する (target 達成へ進む)

また、収集したデータセットである CWC (既存のものよりかなり大きい) を公開した。

4. どうやって有効だと検証した？

Tang et al. (2019) で提案されているデータセット (Target-guided PersonaChat Dataset: TGPC, PersonaChat を target-guided に拡張したもの) と、新たに集めたデータセット(Chinese Weibo Conversation Dataset: CWC) を用いて、主に Tang et al. のモデルと比較実験。
全てにおいて最も良いスコアとなっている。

auto metric

human evaluation

モデル単体ごとの評価	モデル同士の比較

5. 議論はある？

6. 次に読むべき論文は？

Target-Guided Open-Domain Conversation (ACL 2019)
- https://arxiv.org/abs/1905.11553
- Target-Guided なタスクを定義した研究, TGPC のデータセットの公開も行っている

[2019] Large Scale Incremental Learning

0. 論文

タイトル

Large Scale Incremental Learning

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_Large_Scale_Incremental_Learning_CVPR_2019_paper.pdf
https://arxiv.org/abs/1905.13260

著者

Yue Wu, Yinpeng Chen, Lijuan Wang, Yuancheng Ye, Zicheng Liu, Yandong Guo, Yun Fu

投稿日付

CVPR 2019

1. どんなもの？

徐々に新しいクラスのデータを増えるような分類問題において、古いクラスの識別ができなくなる破滅的忘却を防ぐような Incremental Learning の手法である BiC (bias correction) を提案。
破滅的忘却は、classifier layer (最後の dense layer) で、新しいクラスに対して強い bias があることが要因の1つであることを発見し、線形モデルで bias を補正するレイヤーを追加している。
Incremental Learning の既存手法である iCaRL や EEIL と比較し、ImageNet を10個の increment batch に分ける実験で�SOTA を更新した。

2. 先行研究と比べてどこがすごい？

破滅的忘却についての分析で最終 dense レイヤでの bias に着目し、それを補正するレイヤを追加することで Incremental Learning の性能を上げる取り組み。

3. 技術や手法のキモはどこ？

学習を stage1 と stage2 に分け、データも合わせて新しいクラス、古いクラスの一部をそれぞれ train と valid で分けて、stage 1 では通常通りモデルを学習し、stage 2 で stage 1 のモデルをパラメータ固定して使い、bias correction layer のパラメータを学習する。

4. どうやって有効だと検証した？

Incremental Learning の既存手法である iCaRL や EEIL と比較し、ImageNet を10個の increment batch に分ける実験で�SOTA を更新した。特に新しいクラスが大量にあるときに大きな効果があった。

5. 議論はある？

6. 次に読むべき論文は？

[2019] Pretraining Methods for Dialog Context Representation Learning

0. 論文

タイトル

Pretraining Methods for Dialog Context Representation Learning

リンク

https://arxiv.org/abs/1906.00414

著者

Shikib Mehri, Evgeniia Razumovskaia, Tiancheng Zhao, Maxine Eskenazi

投稿日付

ACL 2019

1. どんなもの？

対話文脈の表現学習ための事前学習(教師なし学習の目的関数)について調査した研究。
既存の事前学習モデルは言語モデルをベースにしており、token レベルでの表現を得られるが、対話では複数ターンの文脈が必要になる。token レベルではなく discourse レベルの表現が学習できる事前学習のプロトコル4つ(うち2つは新たに提案)の方法について実験、分析を行った。

2. 先行研究と比べてどこがすごい？

文レベルの理解が必要になる対話ドメインをターゲットとして、discourse レベルを学習できるような既存の事前学習プロトコル2つと、新たに提案した2つの計4つについて調査・実験・分析を行っている。
word レベルの研究は多いが、対話に特化した事前学習手法についてその性能を調査した例は初。

3. 技術や手法のキモはどこ？

事前学習の目的関数として、次の4つを試す。

Next-Utterance Retrieval (NUR)
- 次の発話を候補の中から選択する
- loss は候補の中での分類での cross entropy
Next-Utterance Generation (NUG)
- 次の発話を生成する
- loss は各 token の確率の負の対数尤度 (= cross entropy)
Masked-Utterance Retrieval (MUR)
- MLM の文 ver. で、対話履歴の一つの文を replace して、正解を候補から当てる
- loss は候補の中での分類での cross entropy
Inconsistency Identification (InI)
- MUR では一つの文を replace し、正解を候補の中から探すが、InI は replace された文がどれかをインデックスで当てる
- loss はインデックスの分類での cross entropy

また、次の下位タスクで性能を見る。

Belief State prediction (BSP)
- 1784次元の会話ステートの予測。27個の Entity があり、それぞれの one-hot vector をつなげたもの。
- 内容はドメイン毎に色々もっており、Taxi なら leaveAt , destination などの entity を持っている。
Dialog Act Prediction (DAP)
- BSP とにているが、対話の結果 system がとる action の予測。32次元の multi-hot vector を予測する。
- 電車の時刻を答えたり、ホテルに query を投げたりなど。
Next-Utterance Generation
- 次の発話の生成
- BLEU-4 で計測
Next-Utterance Retrieval
- 次の発話を k 個の候補から選択
- 性能評価として良いらしい (Lowe et al., 2016)

4. どうやって有効だと検証した？

(1) 事前学習 + finetuning による性能、(2) 収束性、 (3) finetuning 時のデータが少ない場合の性能、(4) ドメイン汎化性能、の4点で性能を検証。

external data を使わずに、 finetuning で使用するデータ (Multiwoz dataset) で pretrain も行って、上記の下位タスクで検証
- additional data による恩恵ではなく、pretrain により更に情報が得られているかどうかを見たいため
単純にそれぞれのタスクについて試したのが Table 1 (下記)。
- BSP 以外はよくなっている。
- BSP が悪いのは、タスクが難しいため token level の情報に頼る必要があると推測。
- 収束条件については Figure 1. どれも恩恵を得られていそうだった
limited data で実験、finetuning 時のトレーニングデータを減らして性能を見た
- 少ないデータでも効果があるのは NUG
- generation task は難しい分良い特徴が取れている説
ドメイン汎化性能もある
InI, MUR は対話履歴を長く使える場合に効果的 (Table 5)

5. 議論はある？

NUR と NUG はお互いに補助的なタスクになっている
NUG はそのタスクの難しさから、 general な表現を学習できる
InI と MUR は各発話の local representation をかなり学習できている
- この pretrain により NUG 精度は上がる
- NUG は全体の文脈 (global representation) だけではなく、各発話の理解 (local representation)も必要
pretrain と finetune で同じデータを使うことについて
- 同じデータで事前に異なる目的関数で学習させることで、よりよい表現を獲得できていることが分かった
future work として
- より大きな external data での事前学習
- 関係性の薄いデータセットでの事前学習によるテスト
- word-level の目的関数を追加したテスト

6. 次に読むべき論文は？

MultiWOZ - A Large-Scale Multi-Domain Wizard-of-Oz Dataset for
Task-Oriented Dialogue Modelling
- https://arxiv.org/abs/1810.00278
- Paweł Budzianowski, Tsung-Hsien Wen, Bo-Hsiang Tseng, Iñigo Casanueva, Stefan Ultes, Osman Ramadan, Milica Gašić
- EMNLP 2018
- データセットとして使用された

[2019] Improving Multi-turn Dialogue Modelling with Utterance ReWriter

0. 論文

タイトル

Improving Multi-turn Dialogue Modelling with Utterance ReWriter

リンク

https://arxiv.org/abs/1906.07004
https://github.com/chin-gyou/dialogue-utterance-rewriter (2019/08/26 時点ではコード未公開)

著者

Hui Su, Xiaoyu Shen, Rongzhi Zhang, Fei Sun, Pengwei Hu, Cheng Niu, Jie Zhou

投稿日付

ACL 2019

1. どんなもの？

対話モデルの課題として、過去の複数ターンのやり取りのコンテキストを保ったまま対話を続けるのが難しいというものがある。本研究では、ユーザの発話を「過去の発話のコンテキストを含むようにりライト」することで、コンテキストを保持したまま複数ターンの対話を可能にするアプローチを提案した。
例えば、「どんな映画が好き?」「タイタニック。」「なぜ?」という会話があったときに、次の応答を予測したいとすると、「なぜ?」->「なぜタイタニックが好きなの?」とリライトしてやることで、過去の発話を参照しなくともコンテキストを保ったまま対話を続けることが出来る。
より具体的には、発話リライトモデルとして Transformer と Pointer Network ベースのモデルを提案し、学習後に既存の chatbots に組み込むことで元のシステムよりも改善が見られた。

2. 先行研究と比べてどこがすごい？

リライトを行うことで multi turn のコンテキストを single turn に落とし込んで対話モデルの精度をあげる、というアイディアは初。
発話をコンテキストを含むように上書きを行ったデータセットを収集した。(公開予定?)
収集したデータで、Transformer x Pointer Network ベースの rewrite モデルを提案した
提案モデルを既存の chatbot システムに組み込むことで、改善を確認した

3. 技術や手法のキモはどこ？

multi turn のコンテキストを single turn に rewrite を加えることで実現するというアイディアがキモ
Pointer network において、対話履歴部分とリライト対象の発話部分で attention を分けて適用し、別で学習した lambda で重み付け和をとることで精度UP

4. どうやって有効だと検証した？

下記のパターンで実験を行った。

アーキテクチャが Transformer / LSTM の2種類
pointer network の入れたかが pointer only / generator only / both / pointer lambda (proposed) の4種類

Transformer で pointer (lambda) が最もよく、テストデータで exact match がリライトありデータで 55%, リライトなしデータで 98% のスコアに。ほかは表参照。

また、学習した rewriter モデルを対話システムに統合し、既に動いている Task-Oritend なモデルと雑談モデルで統合あるなしの比較を行ったところ、両方で改善が見られた。

5. 議論はある？

論文内では特に言及なし。

6. 次に読むべき論文は？

Scaling Multi-Domain Dialogue State Tracking via Query Reformulation
- https://arxiv.org/abs/1903.05164
- Pushpendre Rastogi, Arpit Gupta, Tongfei Chen, Lambert Mathias
- NAACL 2019
- 英語での対話の multi turn のコンテキスト理解のために同じようなアイディアを適用している

[2019] Unequal-training for Deep Face Recognition with Long-tailed Noisy Data 📝

0. 論文

タイトル

Unequal-training for Deep Face Recognition with Long-tailed Noisy Data

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhong_Unequal-Training_for_Deep_Face_Recognition_With_Long-Tailed_Noisy_Data_CVPR_2019_paper.pdf

著者

Yaoyao Zhong, Weihong Deng, Mei Wang, Jiani Hu, Jianteng Peng, Xunqiang Tao, Yaohai Huang

投稿日付

CVPR 2019

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] Striking the Right Balance with Uncertainty

0. 論文

タイトル

Striking the Right Balance with Uncertainty

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Khan_Striking_the_Right_Balance_With_Uncertainty_CVPR_2019_paper.pdf
https://arxiv.org/abs/1901.07590

著者

Salman Khan, Munawar Hayat, Waqas Zamir, Jianbing Shen, Ling Shao
by Inception Institute of AI

投稿日付

CVPR 2019

1. どんなもの？

class imbalanced なタスクに対して、ベイズ推定の枠組みでクラスごと、及びサンプルごとの不確実性に着目し、unbiased なモデルを学習するための新たな loss を提案した。
Loss は各クラスごとの不確実性を考慮してクラス間のマージンを最大化するようになっているのに加えて、各サンプルを多変量ガウス分布を使用してモデリングし、その二次モーメントまで考慮してクラス境界を調整している。

2. 先行研究と比べてどこがすごい？

ベイズによる不確実性の推定の枠組みを class imbalanced な問題に応用した。
クラス間だけでなくサンプルの不確実性も考慮した決定境界になっている。

3. 技術や手法のキモはどこ？

Bayesian Uncertainty Estimates を行うために、dropout を含むネットワークが Gaussian Process に近似できることを利用している
- dropout で得られるアンサンブルモデルの空間から N個のモデルをサンプリングし、その N個の出力から分布の一次、二次モーメントを求めている。
二次モーメントが大きい(=不確実性が高い)と logits が小さくなるようにマージンを定義し、Softmax Loss に重みを加える。
サンプルごとについても不確実性を考慮している
- サンプルが誤分類されてしまう確率を計算し、誤分類される確率が高いと logits が小さくなるように Softmax Loss に重みとしてかける。

4. どうやって有効だと検証した？

顔検出をはじめとした6つのデータセットで実験を行った。データセットも異なる特徴のもののうえ、ベースラインモデルとしてもモデルが違うもの、Augmentation を使っているもの、他の class imbalanced なタスクのための loss を使っているものなど多くとそれぞれ目的を持って比較し、そのほとんどで最も良い性能となっている。

5. 議論はある？

論文内で言及されている議論はない。
Affinity Loss の論文は現在の SOTA として引用しているが比較はしていない。

6. 次に読むべき論文は？

Related Works として挙げられている代表例

[CVPR2019] Class-Balanced Loss Based on Effective Number of Samples
- Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie
  - Google
- https://arxiv.org/abs/1901.05555
- サンプル数の逆数を weight としてとるやつの発展版
- 関連 https://qiita.com/tancoro/items/c58cbb33ee1b5971ee3b
[2019] Max-margin Class Imbalanced Learning with Gaussian Affinity
- Munawar Hayat, Salman Khan, Waqas Zamir, Jianbing Shen, Ling Shao
  - by Inception Institute of AI
- https://arxiv.org/abs/1901.07711
- Affinity Loss 関連 https://qiita.com/koshian2/items/20af1548125c5c32dda9
[2015] Cost Sensitive Learning of Deep Feature Representations from Imbalanced Data
- Salman H. Khan, Munawar Hayat, Mohammed Bennamoun, Ferdous Sohel, Roberto Togneri
- https://arxiv.org/abs/1508.03422
[CVPR2016] Learning Deep Representation for Imbalanced Classification
- Chen Huang, Yining Li. Chen Change Loy. Xiaoou Tang,
  - 香港大学?
- http://home.ie.cuhk.edu.hk/~ccloy/files/cvpr_2016_imbalanced.pdf
[CVPR2017] SphereFace: Deep Hypersphere Embedding for Face Recognition
- Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song
  - Georgia Institute of Technology
- https://arxiv.org/abs/1704.08063
[ICML2018] Learning to Reweight Examples for Robust Deep Learning
- Mengye Ren, Wenyuan Zeng, Bin Yang, Raquel Urtasun
  - Uber, Tronto Univ.
- https://arxiv.org/abs/1803.09050

[2019] Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References

0. 論文

タイトル

Investigating Evaluation of Open-Domain Dialogue Systems With Human Generated Multiple References

リンク

https://arxiv.org/abs/1907.10568

著者

Prakhar Gupta, Shikib Mehri, Tiancheng Zhao, Amy Pavel, Maxine Eskenazi, Jeffrey P. Bigham

投稿日付

ACL 2019

1. どんなもの？

対話モデルの研究において、対話というドメインの性質上、自動評価指標 (BLEU など、自動計算できる指標)と人間による手動評価との相関が弱いことが知られている。
本研究では、1つのテストデータに対して複数の正解の返答を人間によって用意 (multiple reference) し、それを用いることでモデルの生成結果の質と多様性について評価のずれを緩和できることを実験にて示した。
また、DailyDialog のテストデータに multiple reference を追加したデータを公開している。

2. 先行研究と比べてどこがすごい？

対話の質と多様性の評価について、評価時に人間の判断が必要だったり、multiple refrerence 向けテストデータが少量しかない、などの既存研究での問題を解決している。

3. 技術や手法のキモはどこ？

対話の質と多様性について、multiple reference の場合での計算方法を提案している。

質については単純に一番スコアの高いものを採用
多様性については、正解 R = {r1, ..., rn} とモデル出力 Y = {y1, ..., ym} を用意して、次式で計算する。
- やってることは単純で、すべてのreference に対してモデル出力の中で指標が最も良いものをそれぞれ選択して計算、reference について平均する。

4. どうやって有効だと検証した？

複数の評価指標、特に単語の重複ベースのものと embedding ベースのものをそれぞれを、4つのモデル+人間の発話を使って推論、計測した。
single-reference と multi-reference で計測し、人間評価による結果との相関を見る。

Quarity

Diversity

5. 議論はある？

6. 次に読むべき論文は？

[2020] Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping

0. 論文

タイトル

Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping

リンク

https://arxiv.org/abs/2002.06305

著者

Jesse Dodge, Gabriel Ilharco, Roy Schwartz, Ali Farhadi, Hannaneh Hajishirzi, Noah Smith

投稿日付

(Submitted on 15 Feb 2020)

1. どんなもの？

BERT などの pretrain モデルを finetune する際の学習のダイナミクスに関する研究。GLUE を構成するタスクの一部 (MRPC, RTE, CoLA, SST) について、モデルや pretrained weight, ハイパーパラメータ, 学習方法は同じまま seed だけを変えて 2,100 回の finetune を行い、その性質や同じ計算リソース内で精度を上げるための early stopping について議論している。
一部タスクでは seed だけで 7% もスコアを改善している。

2. 先行研究と比べてどこがすごい？

次の2つの random 性のある部分を区別して seed を変えて実験している。

weight initialization (WI)
training data order (DO)

3. 技術や手法のキモはどこ？

BERT について様々な seed で finetune の実験をしたところ、次のような発見が得られた。

一部タスクで BERT 提案モデルの精度どころか XLNet, RoBERTa, ALBERT を上回った
RTE と CoLA タスクにおいては既存スコアを(絶対量で)7%も上回る精度を得られた
WI と DO ではどちらも同じくらい性能に寄与していることを確認した
特定のデータソースに対して共通でよくなる WI, DO の seed を発見した
今回実験したすべてのタスクに対して有効となる WI の seed を発見した

他にも

ある計算リソース内での期待性能をあげるための early stopping の戦略について議論
今後の学習ダイナミクスに関する研究のため、2,100回分の学習に関するデータを全て公開(まだ?見つからない)

4. どうやって有効だと検証した？

5. 議論はある？

他の pretrain モデルでも同様か (XLNet, RoBERTa, ALBERT, etc.)
Binary Classification 以外のタスクでも同様か
データ数の多い finetune タスクでも同様か (SST では variance が明らかに小さくなっている)
weight initialization で良かった seed 時の中身を分析して新しい initialization scheme について考える
data order shuffling については active learning との関連を見る予定とのことでたしかになるほどという感じ

6. 次に読むべき論文は？

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- https://arxiv.org/abs/1810.04805

[2019] Long-Term Feature Banks for Detailed Video Understanding

0. 論文

タイトル

Long-Term Feature Banks for Detailed Video Understanding

リンク

http://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_Long-Term_Feature_Banks_for_Detailed_Video_Understanding_CVPR_2019_paper.pdf
https://github.com/facebookresearch/video-long-term-feature-banks

著者

Chao-Yuan Wu, Christoph Feichtenhofer, Haoqi Fan, Kaiming He, Philipp Krähenbühl, Ross Girshick (FAIR)

投稿日付

CVPR 2019

1. どんなもの？

Video Understanding において、多くの既存モデルでは2-5秒の短い時間しか見ていないのに対して、コンテキストを正しく理解するには映像全体から情報を抽出する必要があるとして、既存モデルを拡張するための long-term feature bank を提案。
3D CNN の既存モデルに提案手法を取り入れることで、AVA, EPIC-Kitchens, Charades などの Video Dataset で SoTA を更新した。

2. 先行研究と比べてどこがすごい？

長いスパンの情報を取り入れる手法は存在するが、過去のデータを先に何らかのモデルで特徴量に変換しておき、モデルに入力として入れるという手法を取っており、end-to-end でない、先に計算している特徴量がタスクについて最適化されていない、などの課題がある。
提案手法では2つを分離し、 long-term feature bank はあくまで予備のコンポーネントとして存在し、既存モデルに拡張として追加できるようになっている。
End-to-end な学習で、短いスパンの特徴を強く考慮しつつ、long-term な情報も取り入れることが出来る研究は初。

3. 技術や手法のキモはどこ？

Long-term Feature Bank を外部コンポーネントとしたことで、既存モデルを拡張して使うことが出来る。

4. どうやって有効だと検証した？

AVA, EPIC-Kitchens, Charades のデータセットに対して既存モデルを拡張する形で実験し、SOTAを更新。

5. 議論はある？

より長いコンテキストが必要なタスクでより効果が見られるので、そのようなデータセットが新たに出たら効果を発揮できそう。

6. 次に読むべき論文は？

[2019] A BERT Baseline for the Natural Questions

0. 論文

タイトル

A BERT Baseline for the Natural Questions

リンク

https://arxiv.org/abs/1901.08634
コード: https://github.com/google-research/language/tree/master/language/question_answering/bert_joint

著者

Chris Alberti, Kenton Lee, Michael Collins (Google)

投稿日付

20190124

1. どんなもの？

Natural Questions のタスクについて、BERT ベースの新しいベースラインを提案したテクニカルノート。
Natural Questions は long answer と short answer の2つを特定するタスクだが、2つを同時に解く BERT ベースのモデルで元論文のベースラインを大幅に上回る性能となっている。

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

データ前処理
- 回答を含む document が非常に長い (wikipedia 記事) なので、窓幅 512, stride 128 (128 ずつ前後重なるようにずらす)で各データを分割
- [CLS] question_text [SEP] 分割されたdocument_text [SEP] (計512)というデータを作成
  - 1個のデータから平均30個のサンプルができる
  - short answer が複数ある場合、一番短いものを選ぶ
  - short answer がなく long answer がサンプルに全て入る形である場合、それを正解 index とする
  - short も long もなければ CLS を選択する
  - これをやるとほとんどが negative data になるので、50倍の downsample を行った
  - 結果 500,000 の 512 tokens サンプルを作成
- special tokens を追加した
  - [Paragraph=N], [Table=N], [List=N] をそれぞれパラグラフ、テーブル、リストの最初に追加する
  - 最初の数パラグラフに回答があることが多いことから
- answer type を5種類に分類
  - short: short answer がある
  - yes/no: yes/no aswer がある
  - long: long answer があり、short, yes/no がない
  - no-answer: どれもない
モデル
- 学習データセットを (c, s, e, t) で作成
  - c: context (512 token の入力テキスト)
  - s, e: start, end の index の位置、 {0, 1, ..., 511}
  - t: answer type
- Loss は次で定義
  - start index, end index, answer type それぞれの負の対数尤度
推論
- 1つのドキュメントが各サンプルに分割されているので、ドキュメントで各サンプルの推論を集めて、(s, e) について rank 付けを行う
- rank のための score は次の式で計算する
- short answer を推論した場合の long answer は、short answer を含む DOM の top level の start, end を指定する
- long answer のみ or no-answer の分類の threshold は、official のベースラインのスクリプトを使用した

4. どうやって有効だと検証した？

Natural Questions のベースラインモデルと比較し、大きく精度向上した。

5. 議論はある？

あくまでベースラインモデルなので、まだまだアイディアはあるっぽい。

常に short answer の span を当てるのではなく、 yes/no を予測する
複数の short answer の span を予測できるようにする

6. 次に読むべき論文は？

Natural Questions: a Benchmark for Question Answering Research
- 2019 by Google Research
- データセット提案 & ベースライン提案の論文

[2019] Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

0. 論文

タイトル

Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

リンク

https://arxiv.org/abs/1908.08167

著者

Zhiguo Wang, Patrick Ng, Xiaofei Ma, Ramesh Nallapati, Bing Xiang

投稿日付

EMNLP 2019

1. どんなもの？

OpenDomain な QA のタスクは BERT の登場で大きく改善されたが、既存手法は一つの質問に対して複数の候補文をそれぞれ独立に質問-候補文ペアとして学習し、それぞれでスコアの高い回答を選択している。
本研究では、既存手法では候補となる文章全体でのスコアが適切に計算できないなどの理由から、全てで Normalize しスコアを計算するなどの工夫を加えた Multi-passage BERT を提案。
OpenSQuAD, TriviaQA, Quasar-T, SearchQA で全ての SoTA を更新した。

2. 先行研究と比べてどこがすごい？

全ての候補文章から回答を予測する global normalization がよりモデルを安定化させることや、その他 ranker の貢献や候補文の stride などの効果をいくつかの実験により確認した。

3. 技術や手法のキモはどこ？

通常の BERT による QA タスクでは、質問 + 候補文ペアをモデルに入力し、回答の開始と終了位置を予測する。候補文ペアが複数ある場合、それぞれ独立にこの処理を行い、最もスコアの高いものを選ぶ。
Multi-passage BERT では、全ての候補文について logits を計算したあとに、全ての候補文で Softmax を取ることで、全体でのスコアを計算する。
他にも、各候補文の ranker も同様に全体でスコアを作成する、stride を導入するなどしてモデルを改善できた。

4. どうやって有効だと検証した？

OpenSQuAD, TriviaQA, Quasar-T, SearchQA の4つのデータセットで検証。
全てのデータセットで SoTA を更新した。

5. 議論はある？

今後 passage 間の相関を取り入れたいとのこと.

6. 次に読むべき論文は？

Simple and Effective Multi-Paragraph Reading Comprehension
- https://arxiv.org/abs/1710.10723
- Christopher Clark, Matt Gardner, ACL 2018
- multi paragraph な QA に関する研究、 global normalizing のところで引用されていた

🚀[2019] Learning from Dialogue after Deployment: Feed Yourself, Chatbot!

0. 論文

タイトル

Learning from Dialogue after Deployment: Feed Yourself, Chatbot!

リンク

https://arxiv.org/abs/1901.05415

著者

Braden Hancock, Antoine Bordes, Pierre-Emmanuel Mazaré, Jason Weston
Stanford & FAIR

投稿日付

ACL 2019
arxiv 2019/01/16

1. どんなもの？

デプロイ後の対話モデルが自身の対話から学習(self-feeding)する方法を提案した研究。デプロイ後のユーザとの対話からユーザの満足度を予測することで、良いものについては学習データとし、悪い対話についてはユーザにフィードバックをもらうようにする。
PERSONACHAT の 131k のデータで学習した上で実験を行ったところ、self-feeding を行うことで大きく性能向上した。

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] Max-margin Class Imbalanced Learning with Gaussian Affinity

0. 論文

タイトル

Max-margin Class Imbalanced Learning with Gaussian Affinity

リンク

https://arxiv.org/abs/1901.07711

著者

Munawar Hayat, Salman Khan, Waqas Zamir, Jianbing Shen, Ling Shao

投稿日付

20190123

1. どんなもの？

Class-Imbalanced なタスクに対する新しい損失関数 Affinity Loss を提案した。
近年注目されている max-margin loss 系の手法は、特徴空間を超球面上の多様体という仮定を置いて angular distance (cosine similarity) を使っており、顔認識タスク以外の汎化性能の低下につながるとしている。
提案手法では、類似度をガウスカーネルで定義しそれを基にロスを設計することで、マージンが明示的に入れることができ、かつ最適化の過程でクラスタリングも同時に行えるようになり、結果的にクラス内分散は小さく、クラス間距離が離れるように表現を学習できる。

図は MNIST において、0~4 を10%のサンプルで学習させたときの特徴の分布。

左の Softmax の場合は、クラス内分散はデータ数の多いクラスが大きくなっている。クラスタリングも同時に行ったのが**だが、一部のクラスが**下に固まってしまっている。右の提案手法ではクラス内分散は一定で、かつ同じくらいの距離でクラスごとに分布しているのが分かる。

多くの実験で既存手法に比べて性能を改善した。

2. 先行研究と比べてどこがすごい？

近年行われている hypersphere の表面上に分布を制限したマージン系損失関数とは異なるアプローチによる提案。
分類とクラスタリングが同時にうまく行われる損失関数 Affinity Loss を定義した。

3. 技術や手法のキモはどこ？

Affinity Loss

Softmax loss を使わず、定義した類似度に基づいてロスを計算している。
提案されている類似度は、特徴 f と各クラスの代表ベクトル w のガウスカーネルによるもの。
損失関数は、ターゲットとその他の代表ベクトルとの類似度の差にマージン λ を加えたもの

Diversity Regularizer

上記 Affinity Loss に加えて、 diversity regularizer と呼んでいるクラス間距離を一定にするための正則化項を追加している。

Multi centered learning

代表ベクトルが1つだと、複雑な形状の分布を処理できない。
複数代表ベクトルをもたせることでこれに対応する。これがラベルノイズへの対応にもなる。
差分は類似度の計算式を少し変えるだけ。m 個の代表ベクトルを各クラスで持つとすると、
diversity regularizer は、すべて (m × C) の代表ベクトルについて計算する。

4. どうやって有効だと検証した？

DIL による皮膚病検知タスク、顔認識の LFW, YTF, CFP, AgeDB などで SoTA を更新。
MNIST を人工的に Imbalance にしたデータセット (0-4 を減らす) で様々な実験を行い、提案手法の有効性を確認した。
具体的には Softmax loss と比較して Imbalance であるほど高い分類精度、ノイズを人工的に含めたデータで実験しロバスト性も改善など。
ablation study として multi centered モデルでの m や分布の広がりを表す σ を変動させた実験も行っている。

5. 議論はある？

論文中では特にない。
メインの実験は MNIST で、他のデータでも確認したいところ。
皮膚と顔認識ではハイパーパラメータである m と σ が特に記載されておらず、再現性が怪しい。

6. 次に読むべき論文は？

[2019] SG-Net: Syntax-Guided Machine Reading Comprehension

0. 論文

タイトル

SG-Net: Syntax-Guided Machine Reading Comprehension

リンク

https://arxiv.org/abs/1908.05147

著者

Zhuosheng Zhang, Yuwei Wu, Junru Zhou, Sufeng Duan, Hai Zhao, Rui Wang

投稿日付

AAAI-2020

1. どんなもの？

言語読解タスクにおける既存の attention ベースのモデルは、不要な単語についても attend してしまう。self attention network に syntax を使った制約を追加した SDOI-SAN (syntactic dependency of interest - self attention network) を提案し、BERT ベースのモデルに適用した。
SQuAD 2.0, RACE のタスクで性能を改善。

2. 先行研究と比べてどこがすごい？

syntax 情報を self-attention ベースのモデルに組み込む方法を提案し、MRC タスクに応用した。

3. 技術や手法のキモはどこ？

Self Attention Network (SAN) に対して syntactic dependency of interest (SDOI) の情報を付加した SAN-SDOI レイヤーを提案した。
BERT などの Transformer ベースの Encoder の出力に対して SAN-SDOI レイヤーを追加し、元々の Encoder の出力 H と、SAN-SDOI レイヤーの出力 H' の重み付き和を最終出力とする。
SAN-SDOI レイヤーでは、ネットワーク構造は通常の SAN と同様で self-attention + FFN の構成となっているが、self-attention 内のマスクが異なっており、別で用意した syntax parser から得られた木構造をもとにマスクを作成、適用している。

通常の self-attention と SDOI での attention の値は次の図のように大きく変わる。

4. どうやって有効だと検証した？

BERT ベースのモデルで、span based なタスクとして SQuAD 2.0, multi choices なタスクとして RACE で実験。いずれもベースラインスコアを上回り SoTA もしくはそれに近いスコアを獲得。
分析により、ベースラインとなる BERT よりも長い Question に対する精度が上がっており、Syntax による情報が効いていることを確認した。

5. 議論はある？

長い文章では、attention ベースのモデルでは不要な単語もよく見てしまうという仮説から提案した手法であったが、実験的に提案手法の方が長い Query に対しても精度が劣化しないことを示している。
syntax 情報を直接的に組み込むことで精度向上ができた例となった。

6. 次に読むべき論文は？

[2019] Learning Loss for Active Learning

0. 論文

タイトル

Learning Loss for Active Learning

リンク

https://arxiv.org/abs/1905.03677
http://openaccess.thecvf.com/content_CVPR_2019/papers/Yoo_Learning_Loss_for_Active_Learning_CVPR_2019_paper.pdf

著者

Donggeun Yoo, In So Kweon

投稿日付

CVPR 2019

1. どんなもの？

loss を推測するモデルを学習し、unlabeled なデータの中で、推定した loss の大きいデータに優先的にアノテーションを行うことで、active learning を効率的に行う手法の提案。
タスク依存性がなく、かつ計算量の必要になる Deep なネットワークについても対応できる汎用的な手法で、Image Classification, Human Pose Estimation, Object Detection の3つの異なるタスクについて最新モデルで実験し、既存手法を上回る性能となった。

2. 先行研究と比べてどこがすごい？

タスク依存なしで、かつ計算量が大きい Deep ならモデルにも適用できる Active Learning 手法は初。
Loss の大小を Active Learning に応用する研究は初。

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

3つのタスクで最新のモデルを使って既存手法と比較実験。
3つのタスクは分類タスクに Image Classification, 回帰タスクに Human Pose Estimation, ハイブリッドタスクとして Object Detection を選択。
全てで既存手法を上回る性能となった。

5. 議論はある？

まだ Loss を推定するモデルの accuracy に課題がある。複雑なモデルだとそもそもこれが難しいため、精度をあげる必要がある。
また、diversity など他の要素を組み合わせた Active Learning 手法についても今回は考慮していない。
データの分布を考慮することで loss accuracy を向上することが出来るかも。

6. 次に読むべき論文は？

[2019] Generating Logical Forms from Graph Representations of Text and Entities

0. 論文

タイトル

Generating Logical Forms from Graph Representations of Text and Entities

リンク

https://arxiv.org/abs/1905.08407

著者

Peter Shaw, Philip Massey, Angelica Chen, Francesco Piccinno, Yasemin Altun

投稿日付

ACL 2019

1. どんなもの？

構文解析のタスクにおいて、 Transformer の self-attention layer を Graph Neural Network を用いることで、与えられた自然言語内の entity やその関連情報の理解を改善する手法を提案した。
decode 時に copy mechanism を使用して entity を含んだ論理形式を生成するモデルを作成、3つの構文解析タスクで pre-training なしで SoTA に匹敵、更に BERT と組み合わせることで多くの既存手法を上回るスコアとなった。

2. 先行研究と比べてどこがすごい？

Transformer に GNN を組み合わせた例は初?
構文解析タスクで、 Entity とその relation を GNN を用いてシンプルに組み合わせた手法を提案した。

3. 技術や手法のキモはどこ？

Transformer の sub-layer である self-attention layer を、GNN を用いて改善している。

node と edge label の関数 f を考える
各 node を u, 各 edge の label を r として、変換後の表現は
ここで α は attention weights で、次の s の softmax をとったもの
通常の Transformer の self-attention は、W^r をパラメータの行列として下記とすると同じ。
これを、relation を用いた2つの手法を提案。
- - W^l が edge label の embedding matrix
- W^r は各 edge label で共通のパラメータ行列、 w^l が edge label の embedding vector

4. どうやって有効だと検証した？

3つの構文解析タスク、GEO, ATIS, SPIDER で実験。
GNN を用いた提案手法が既存手法の SoTA とほぼ同等のスコアとなり、BERT による pre-train を組み合わせたモデルは更にそれを上回るスコアとなった。

5. 議論はある？

decoder に constraint を加えることで更に良くなりそう
今回の手法はグラフ構造を持つような外部知識を生成に組み合わせる方法として良いかもしれない
- 少なくとも semantic parsing には良かった事がわかった

6. 次に読むべき論文は？

Graph Attention Networks
- https://arxiv.org/abs/1710.10903
- Petar Veličković, Guillem Cucurull, Arantxa Casanova, Adriana Romero, Pietro Liò, Yoshua Bengio
- ICLR 2018
- Graph と Attention 組み合わせの提案論文 (Convolution の代替)
Self-Attention with Relative Position Representations
- https://arxiv.org/abs/1803.02155
- Peter Shaw, Jakob Uszkoreit, Ashish Vaswani
- NAACL 2018
- relative positional representation に関する提案論文。本研究では edge label を考える際に使用されているように見える。

[2019] Explain Yourself! Leveraging Language Models for Commonsense Reasoning

nlp-survey-kb-response/nlp-survey-kb-response#38

[2020] BLEURT: Learning Robust Metrics for Text Generation

0. 論文

タイトル

BLEURT: Learning Robust Metrics for Text Generation

リンク

https://arxiv.org/abs/2004.04696

著者

Thibault Sellam, Dipanjan Das, Ankur P. Parikh

投稿日付

ACL 2020

1. どんなもの？

Neural Language Generation (NLG) のための、BERT を使った新たな評価指標である BLEURT を提案。評価が難しいと言われているテキスト生成について、「人間による評価」をモデル化するために大量のデータで BERT を2段階に pre-train したものを使用する。
backtranslation などによる大量の疑似データを使った9種類の pre-train 手法を組み合わせることでモデルを作成し、WMT Metrics Shared Task で SoTA スコアを獲得。

表は NLG metrics 向けの finetune に使用する signal (=target). これらを用いて BERT を更に pre-train し、最後に少量の人間評価のデータで finetune する。

2. 先行研究と比べてどこがすごい？

BERT を更に NLG metrics のために pre-train を行い、外挿のような状況にも耐えうるロバストなモデルを提案した。

3. 技術や手法のキモはどこ？

学習のための reference と prediciton の2つの疑似的な文ペアの生成
- BERT の MASK: MASK -> LM で置き換えしたものを prediction として使う
- Backtranslation: English -> SomeLanguage -> English としたものを prediction として使う
- Dropping words: 一部単語を落としたものを prediction として使う

4. どうやって有効だと検証した？

人間評価との差分

2017, 2018, 2019 の WMT Metric Shared Task で、人間による rating と各提案指標の差を見る。多くの既存手法とともに実験。metric はその年の公式のものと、各年度で一貫性を見るため Kendall's Tau の2つの metric を使用。
提案手法は、BERT-base, BERT-large から作成したもの (BLUERT-base, BLUERT)と、それぞれから pre-traing を抜いたもの (-pre) の4つ。
2017, 2018 では提案手法が最も良いスコアを獲得。

2019 でもほとんどで TOP のスコアを獲得。年度が新しいほど学習データが多いので、古い年度のものは pre-training の効果がより効いていると見られる。

Robustness

pre-training により robustness が改善しているかどうかを確認するため、train/valid は low-rating, test は high-rating なデータとなるように意図的に分布を分けてサンプリングし、学習・実験。pre-training により分布の偏り(外挿に近いシチュエーション)に対してロバストになっていることを確認した。
また、BERT, synthetic, WMT のデータで 3 step で学習をしたモデルでは、別のタスクである WebNLG において学習データなしでも既存手法を上回る高いスコアを出した。

5. 議論はある？

pre-train 時のラベルに BLUE や ROUGE を入れるかどうか
- Ablation Study で、元々人間評価との相関が低かった BLEU や ROUGE を pre-train 時のラベルとして加えないほうがスコアが上がることが分かった
  - (実際に WMT で実験すると、抜いたときのほうが精度改善)。
- 将来的に BLUE や ROUGE と相関するタスクが出た際に性能が下がるかもしれない
multilingual NLG や、BLUERT を組み合わせた hybrid な手法は Future work.

6. 次に読むべき論文は？

BERTScore: Evaluating Text Generation with BERT
- https://arxiv.org/abs/1904.09675
- ベースラインモデルとして比較されている手法。すべての実験で比較されている。
- BLUE の hard-ngram overlap を BERT の embedding を使って置き換えたものとのこと
MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance
- https://arxiv.org/abs/1909.02622
- ベースラインモデルとして比較されている手法。BERT の embedding に対して Earth Mover Distance で類似度を図る。

[2020] Towards a Human-like Open-Domain Chatbot

0. 論文

タイトル

Towards a Human-like Open-Domain Chatbot

リンク

https://arxiv.org/abs/2001.09977

著者

Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le

投稿日付

2020/01/27

1. どんなもの？

人間による会話評価の分析を行い、人間評価用の指標である SSA (Sensibleness and Specificity Average) を提案し、これがモデルの perplexity と相関があることを実験により確認した。
perplexity について最適化を行ったモデルとして、マルチターンの雑談 chatbot である Meena を提案。提案指標である SSA で既存の雑談モデルを大きく上回るスコア(72%)となった。

2. 先行研究と比べてどこがすごい？

大規模データ(約341GBのテキスト)・大規模モデル(2.6B のパラメータを持つ Evolved Transformer)で、人間による会話評価の分析に基づいて行った学習モデルで既存スコアを大きく更新した。
perplexity の低いモデルが良い人間評価に相関することを実験により示した。

3. 技術や手法のキモはどこ？

人間評価の分析から SSA の提案、及び相関する自動評価指標として perplexity の選択。
Enc 1層、Dec 13層の Evolved Transformer を使用して、超大規模学習 (後述) を行ったモデル。
decoding を工夫。既存で主要に使われている beam search ではなく、シンプルな sampling-and-rerank の手法で行う。
- softmax 計算時に temperature T を加えて分布を調整し、N件の候補をサンプリング後、スコアなどで re-rank を行う
Meena (full) として更に decoding を改善。サンプリングに top-k を使用し、temperature を調整した上で、同じような分を繰り返す(cross-turn repetition) を軽減するためにルールで候補を削除。

4. どうやって有効だと検証した？

既存 chatbot モデルと一緒に人間による評価を行い、Meena が最も高い SSA を獲得。人間スコアである 86% に対して Meena (base) が 72%, Meena (full) が 79% と、かなり人間に近いスコアとなった。

5. 議論はある？

妥当なテストになっているかどうか。static test と interactive test を行ったが、どちらもまだ課題がある。
- static test は context が 1-3 と小さい
- interactive test は他モデルとの比較がしづらく、また14-28ターンはまだ小さい (挨拶が一部を占めるので、深いトピックについては話せない)
指標として Sensibleness と Specificity にまとめたが、これがベストというわけではない
- 他にも多くの指標が考えられる (humor, empathy, ...)
- Sensibleness を分解してもっと細かく見ることもできる (logical, personal consistency, ...)

6. 次に読むべき論文は？

Evolved Transformer
Top K など decoding strategy 周りの論文

[2020] MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance

0. 論文

タイトル

MoverScore: Text Generation Evaluating with Contextualized Embeddings and Earth Mover Distance

リンク

https://arxiv.org/abs/1909.02622
https://github.com/AIPHES/emnlp19-moverscore

著者

Wei Zhao, Maxime Peyrard, Fei Liu, Yang Gao, Christian M. Meyer, Steffen Eger

投稿日付

EMNLP 2019

1. どんなもの？

テキスト生成のための新たな評価指標である MoverScore を提案。
現在ある自動評価指標である、単語が n-gram で一致するかどうかといった BLEU や ROUGE は表面的な類似度に基づいているが、実際は意味的な比較をするべきという考えで、同時期に出された BERTScore と同じく BERT などの contextualized embedding を用いる一方でその手法を一般化し、類似度計算に Earth Mover Distance を用いた。
4タスクでの実験で既存の自動評価指標と BERTScore との比較を行い、SoTA もしくはほぼトップと同じスコアを獲得している。

2. 先行研究と比べてどこがすごい？

Earth Mover Distance をテキスト応用した WMD (Word Mover Distance) と、BERT を始めとする contextualized embedding を組み合わせてテキスト生成の評価指標とした。
どの粒度で類似度を取るかなど広範囲に実験。

3. 技術や手法のキモはどこ？

Word Mover Distance

問題を次のように定式化。

x^n, y^n をそれぞれの文章の n-gram, f_{x^n}, f_{y^n} をそれぞれの文の n-gram の重み (idx を使っている) として、

ここで C は d を適当な距離関数としてで与えられる行列で、 〈C, F〉 は C と F の要素ごとの積の、すべての要素の和。
なので、すべての単語の n-gram の組み合わせで距離を計算し、重み付けしたものの合計が WMD 。

distance

ここでは E(x) を BERT などの embeddings として、次のようにユークリッド距離を使っている。

n-gram の場合は idf で重み付き平均を取っている。

n-gram の WMD の特殊例として、n = sentence length の場合の SMD (Sentence Mover Distance)も派生として定義して比較している。

BERTScore との違い

Word Mover Distance の定義において、 C を BERT ベースの cos sim. に基づくものに、Fを最適化問題を解かずに一様分布にすると BERTScore になる。

著者らは BERTScore との違いとして、Hard / Soft Alignments を上げており、BERTScore は candidate 文の単語から reference 文で最も類似度の高い単語についてのスコアを使うのに対し、MoverScore は全ての組み合わせから距離を見ている。これにより意味的に近い単語をうまく紐付けられるとしている。

4. どうやって有効だと検証した？

4つのタスク(machine translation, 要約, image captioning, data-to-text)で他のベースライン指標も含めて人間評価との相関を比較。
全てタスクで、MNLI で finetune した BERT を使ったものが SoTA もしくはそれに近い性能となった。

BERTScore との比較で、同じ条件で (power means などを使わずに) 比較も行っている(下記表)。

IMO: WMD-UNIGRAM が正当な比較だと考えるとほとんど変わらないように見える

5. 議論はある？

soft-alignment (MoverScore) が hard-alignment (BERTScore) を上回っていると主張している。
IMO: bigram を用いた場合の話なので、一概に比較できない気もしている
future work として、人間評価のコストのかからない evaluation system を計画しているとのこと。

6. 次に読むべき論文は？

BERTScore: Evaluating Text Generation with BERT
- #46

🚀[2019] XLNet: Generalized Autoregressive Pretraining for Language Understanding

0. 論文

タイトル

XLNet: Generalized Autoregressive Pretraining for Language Understanding

論文リンク

https://arxiv.org/abs/1906.08237

著者

Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le

投稿日付

2019/06/19

1. どんなもの？

BERT を始めとする AutoEncoder (AE) 系 pre-train モデルと、BERT 以前の AutoRegressive (AR) 系の pre-train モデルについて分析し、それぞれの長所を取り入れつつ欠点を補うような AR 型の pre-train モデルである XLNet を提案。
BERT は [MASK] トークンを使うことで bidirectional な情報を取り入れることが出来るが、同時に推論時には [MASK] トークンは存在しないため、 GAP がある。
また、入力文がランダムにマスクされていることから、BERT は厳密に同時分布を計算できず、それぞれのマスクトークンは独立という仮定で推論されている。
一方で、AR 型の pre-train モデルでは、その定義上 bidirectional な情報を取ることが出来ないため、表現能力で劣る。
XLNet では、AR 型のモデルを使いつつ、トークンの順番をランダムにする Permutation Language Modeling を使って学習を行うことで、AR 型モデルのメリットを残したまま ( = [MASK] を使わないまま) bidirectional な情報を用いることができる。

2. 先行研究と比べてどこがすごい？

BERT などの AE 型 pre-train モデルと、言語モデルなどの AR 型 pre-train モデルのそれぞれの欠点を補う学習方法である Permutation Language Modeling を提案し、それで学習した XLNet で現在の SOTA である BERT を様々なタスクで上回った。
言語モデルの性質を残したまま bidirectional に情報を取り入れられる訓練方法は初。

3. 技術や手法のキモはどこ？

AE 型と AR 型のそれぞれの欠点を補うための Permutation Language Modeling, 及びそれを実現するために Self-Attention を改良した Two-Stream Self-Attention がポイントとなる。

Permutation Language Modeling

Two-Stream Self-Attention

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2016] Large-Margin Softmax Loss for Convolutional Neural Networks

0. 論文

タイトル

Large-Margin Softmax Loss for Convolutional Neural Networks

リンク

https://arxiv.org/abs/1612.02295

著者

Weiyang Liu, Yandong Wen, Zhiding Yu, Meng Yang

投稿日付

ICML 2016

1. どんなもの？

Softmax loss を改良した Large Marginx softmax (L-Softmax) Loss を提案。クラス内分散を小さく、かつクラス間で特徴表現がより分離されるように学習を行う。
よくある SGD で学習でき、過学習も回避することが出来る。
4つのベンチマークで実験を行い、よりよい性能であることを示した。

下記図は通常の softmax loss (左図) と提案手法 (右の3つの図) を、分類直前のレイヤの次元を2次元にして可視化したもの(上が training data, 下が test data)。

見て分かる通り、通常の softmax に比べて各クラス内で小さく収まっており、クラス間の分離も大きくなっている。

2. 先行研究と比べてどこがすごい？

先行研究では contrastive loss や triplet loss など、複数のサンプルのペアを同時に入れて学習を行うことでサンプル間の距離を調整していたが、提案手法は通常の softmax loss にマージンを加えるだけで同様の学習ができる。
通常の softmax loss であるため、他の手法と組合せ可能。

3. 技術や手法のキモはどこ？

通常の softmax loss は、最後の dense layer (分類レイヤ) のパラメータ W によって得られた特徴 f とすると、
f は最終層のパラメータと入力の内積なので、cos で書き換えると
これの正解ラベルにのみマージン m を角度にかけたものが提案手法
このままだと if 文が必要で微分不可能になるので、これを連続にしたものをΨとして仕様
- この式は下記図の赤い線
マージン付きで学習することで、クラス間距離を大きくし、クラス内分散を小さくしている (下記図参照)

4. どうやって有効だと検証した？

visual classification と face verification のタスクで実験。visual classification は MNIST, CIFAR10, CIFAR100 で、 face verification はLFW dataset を使用。
visual classification ではどのタスクでも SoTA を記録、より深いモデルを使った CNN にも勝るとも劣らないスコアになっている。

下記の表の右下が face verification, 他が visual classification.

face verification でも同様に、公開データを使った中では SoTA を記録し、private dataset を使ったスコアにもかなり近づいている。

5. 議論はある？

特になし

6. 次に読むべき論文は？

Dimensionality Reduction by Learning an Invariant Mapping
- http://yann.lecun.com/exdb/publis/pdf/hadsell-chopra-lecun-06.pdf
- Raia Hadsell, Sumit Chopra, Yann LeCun
- CVPR 2006
- Contrastive Loss の提案論文
FaceNet: A Unified Embedding for Face Recognition and Clustering
- https://arxiv.org/abs/1503.03832
- Florian Schroff, Dmitry Kalenichenko, James Philbin
- CVPR 2015
- Triplet Loss の提案論文

🚀[2019] Lifelong and Interactive Learning of Factual Knowledge in Dialogues

0. 論文

タイトル

Lifelong and Interactive Learning of Factual Knowledge in Dialogues

リンク

https://arxiv.org/abs/1907.13295

著者

Sahisnu Mazumder, Bing Liu, Shuai Wang, Nianzu Ma

投稿日付

SIGDIAL 2019

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] Dialogue Natural Language Inference

0. 論文

タイトル

Dialogue Natural Language Inference

リンク

https://arxiv.org/abs/1811.00671
データセット: https://wellecks.github.io/dialogue_nli/

著者

Sean Welleck, Jason Weston, Arthur Szlam, Kyunghyun Cho (FAIR)

投稿日付

ACL 2019
arxiv: 2018/11/01

1. どんなもの？

対話モデルにおける一貫性 (consistency) の課題に Natural Language Inference の観点から取り組んだ研究。
NLI タスクとして一貫性の度合いを定義し、新たなデータセット Dialogue NLI を使用して NLI モデルを学習した。それを用いた対話の re-rank 手法を提案し、対話エージェントの持つペルソナと、その発話の間の一貫性を改善した。

※ Natural Language Inference: 2つのセンテンスの関係の分類問題。2つのセンテンスに対して、含意 (entailment)、中立 (neutral)、矛盾 (contradiction) から選択する。

2. 先行研究と比べてどこがすごい？

対話の一貫性を NLI タスクとして再定義し、対話モデルの一貫性の改善に応用した。

3. 技術や手法のキモはどこ？

Dialogue NLI Dataset
- 文とペルソナ文のペア (もしくはペルソナ文のペア) とラベル (E: entail, N: neutral, C: contradiction) のデータセット
- 元データは Persona-chat のデータを使っている
- 全ての発話やペルソナに対して、その文が示す triplet を作成
- 2つの文の triplet を元に、ラベルを付与 (e.g. 同じ triplet を持っていれば E: entail)

Consistent Dialogue Agent via NLI
- 次の発話の候補のスコアに対して、ペルソナとの contradiction の確率を使って re-rank する
- λ, k はハイパーパラメータ、 s_1 などは元のモデルの confidence

4. どうやって有効だと検証した？

ベースラインモデル (KV-Memory Network) に対して対話生成し、その後に提案手法による re-rank をしたものと比較し、3種類の Hits@k において re-rank しないものに対してどれも大きく改善した。
人間による評価でも同様に、 consisitency, contradiction についての評価で既存モデルを改善した。

5. 議論はある？

新しい、対話による NLI モデルが他のタスクにも使えそう
NLI を他のタスクにまだまだ広げられそう
ゆーてまだまだスコア低い

6. 次に読むべき論文は？

PersonaChat
- nlp-survey-kb-response/nlp-survey-kb-response#7
- データセットの元になっている

[2019] DyKgChat: Benchmarking Dialogue Generation Grounding on Dynamic Knowledge Graphs

0. 論文

タイトル

DyKgChat: Benchmarking Dialogue Generation Grounding on Dynamic Knowledge Graphs

リンク

https://arxiv.org/abs/1910.00610

著者

Yi-Lin Tuan, Yun-Nung Chen, Hung-yi Lee

投稿日付

EMNLP 2019 (Submitted on 1 Oct 2019)

1. どんなもの？

動的に変わるような Knowledge Graph を用いた対話システムの必要性から、新たなタスクとして dynamic knowledge-grounded conversation generation を提案, ベンチマークデータセットとして TV ドラマから作成した DyKgChat を公開した。
ベースラインモデルとして Qadpt という GRU とコピーメカニズムを組み込んだモデルを作成、既存モデルとの比較実験を行った。

2. 先行研究と比べてどこがすごい？

Dynamic にかわりうる Knowledge Graph に zero-shot でモデルを適用させるようなタスク・ベンチマークデータセットを提案。

3. 技術や手法のキモはどこ？

Dynamic な knowledge graph を用いた対話生成を新しいタスクとして提案している。
既存手法でも KG を用いた対話生成は存在するが、それらはグラフから得られた特徴などを元に推論をしており、KG 自体が更新されるなどで変化した場合にどのような動きをするか分からない課題のためのタスク。
Knowledge Entity をうまくモデリングできているか、 Knowledge Graph の変化に対応できているか、でそれぞれ評価指標を提案している。

Knowledge Entity Modeling (Entity を活用できているか)
- Knowledge word accuracy: decoder の出力から KG の entity が正しく予測されているか
- Knowledge and generic word classification: knowledge graph の entity か否かの分類問題の recall/precision
- Generated knowledge words: 生成された knowledge entity のrecall/precision
Adaptation of Changed Knowledge Graph (グラフの変化に適応できているか)
- Change rate: 前の KG から返答がどのくらい変化したか
- Accurate Change rate: KG を入れ替えた場合の accuracy の変化

4. どうやって有効だと検証した？

ベースラインモデルと既存モデルで DyKgChat で比較実験。

Table 4 が adaptation の評価、table 3 が knowledge entity の評価。
All/Last1/Last2 は、それぞれ KG をどれだけランダムに入れ替えたか。All だと既存モデルでもそこそこだが、Last1/Last2 など少しだけ元の KG を更新したものに対して大きく性能差がある。
が、指標の意味が分かりづらく(accuracy changed rate は変化分なら変化しなくても良いのでは)、どのくらい良くなったのかわかりづらい。

人間による評価も行っており、Fluency と Information の観点で一部を除いて既存モデルを上回っている。

5. 議論はある？

MemNet, TAware は KG が大きく変化したときの zero-shot 適用がある程度できそうではあった
提案モデルである Qadpt は KG が微妙に変化したとき対応能力がありそう

6. 次に読むべき論文は？

[2019] Natural Questions: a Benchmark for Question Answering Research

0. 論文

タイトル

Natural Questions: a Benchmark for Question Answering Research

リンク

https://ai.google/research/pubs/pub47761

著者

Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Matthew Kelcey, Jacob Devlin, Kenton Lee, Kristina N. Toutanova, Llion Jones, Ming-Wei Chang, Andrew Dai, Jakob Uszkoreit, Quoc Le, Slav Petrov
(Google Research)

投稿日付

2019

1. どんなもの？

QA のためのデータセット Natural Questions (NQ) を公開。Google の検索ログから得られた質問と、1つの wikipedia 記事で1データとなっており、記事内から Long Answer (パラグラフや表など)と Short Answer (数単語) を当てるタスクとなっている。
論文内では、実験によりデータの質を検証、25 way annotation で人間の annotation の変動を調査、QA のタスクに適切な robust な指標を導入、最新手法でのベースライン作成などを行っている。

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

[2019] Read + Verify: Machine Reading Comprehension with Unanswerable Questions

0. 論文

タイトル

Read + Verify: Machine Reading Comprehension with Unanswerable Questions

リンク

https://arxiv.org/abs/1808.05759

著者

Minghao Hu, Furu Wei, Yuxing Peng, Zhen Huang, Nan Yang, Dongsheng Li

投稿日付

AAAI-19

1. どんなもの？

MRC タスクにおいて、データ中に含まれる答えられない質問 (Unanswerable Questions) について、改善に取り組んだ研究。既存研究では足りていない回答の妥当性を考慮するために、 read-and-verify システムを提案。reader によって得られた回答が入力に対して妥当か調べる verifier と、2つの補助損失を加えた学習で2019/08時点の SQuAD 2.0 の SoTA を更新した。

2. 先行研究と比べてどこがすごい？

明示的に回答の妥当性を検証する answer verifier をモデルに統合した。
回答の抽出と no-answer な質問の検出を分けてうまく扱うために2つの補助損失を提案した。

3. 技術や手法のキモはどこ？

2つの auxiliary loss
- Independent Span Loss
- Independent No-Answer Loss
Answer verifier
- 回答を抽出してから、抽出した回答と入力となる質問文やコンテキストを再度モデルに入力
- 3種類のモデルで回答が妥当かどうか検証する

4. どうやって有効だと検証した？

No-answer なデータが含まれる SQuAD 2.0 で 2018/08時点で SoTA を更新。
Ablation Study を始めとして様々な分析を行っている。

5. 議論はある？

6. 次に読むべき論文は？

[2018] ArcFace: Additive Angular Margin Loss for Deep Face Recognition

0. 論文

タイトル

ArcFace: Additive Angular Margin Loss for Deep Face Recognition

リンク

https://arxiv.org/abs/1801.07698

著者

Jiankang Deng, Jia Guo, Niannan Xue, Stefanos Zafeiriou

投稿日付

CVPR 2019
arxiv: 20180123

1. どんなもの？

表現学習(距離学習)の分野においてより識別性能を上げる損失関数として ArcFace を提案。
既存研究である SphereFace や CosFace と比べて、angular の空間でマージンを加えることで、より実装が簡単で学習しやすくなった(後述)。

2. 先行研究と比べてどこがすごい？

既存研究に比べて実装が簡単で学習も行いやすく、更に効果の高い損失関数を提案した。
既存研究との差は、次の画像で決定境界の差として描かれている。

3. 技術や手法のキモはどこ？

既存研究である SphereFace や CosFace でもそれぞれ softmax loss にマージンを入れるアプローチが提案されているが、ArcFace では cos の angular (角度) の空間でマージンを足すことでより計算/実装を簡単に、かつ効果的なマージンを取り入れている。

この3つの手法は一つの式でまとめて表すことができ、次のようになる。

コサイン部分にのような形でマージンを入れており、m_1, m_2, m_3 がそれぞれ SphereFace, ArcFace, CosFace での提案となっている。

既存の SphereFace, CosFace よりも有効である上に実装が簡単で学習もしやすいことがメインの貢献かと思われるが、なぜ既存手法より有効なのかはパットは分からないので時間を割きたい。。

4. どうやって有効だと検証した？

かなり多くの顔認識データセットを用いて実験し、そのすべてで既存手法に比べて最も良い結果となった。
ArcFace + SphereFace + CosFace などの複合 loss でも、ArcFace 単体の方がよい結果に。

また、明示的に Intra Loss, Inter Loss を定義したもの、Triplet Loss によるものとも比較し、ArcFace が最もバランスの取れた結果になることを実験により示している。これらの loss と ArcFace を組合せても、性能は上がらず、ArcFace だけで Intra loss や Inter loss について最適化できていることが分かる。

5. 議論はある？

6. 次に読むべき論文は？

SphereFace: Deep Hypersphere Embedding for Face Recognition
- https://arxiv.org/abs/1704.08063
- Weiyang Liu, Yandong Wen, Zhiding Yu, Ming Li, Bhiksha Raj, Le Song
- CVPR 2017
- SphereFace 提案論文
CosFace: Large Margin Cosine Loss for Deep Face Recognition
- https://arxiv.org/abs/1801.09414
- Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, Wei Liu
- CVPR 2018
- CosFace 提案論文その1
Additive Margin Softmax for Face Verification
- https://arxiv.org/abs/1801.05599
- Feng Wang, Weiyang Liu, Haijun Liu, Jian Cheng
- CosFace 提案論文その2