Awesome Pretrained Chinese NLP Models

在自然语言处理领域中，预训练语言模型（Pretrained Language Models）已成为非常重要的基础技术，本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬)，并将持续更新......

注: 🤗huggingface模型下载地址: 1. huggingface官方地址

Expand Table of Contents

NLU系列
- BERT
- RoBERTa
- ALBERT
- NEZHA
- XLNET
- MacBERT
- WoBERT
- ELECTRA
- ZEN
- ERNIE
- ERNIE3
- RoFormer
- StructBERT
- Lattice-BERT
- Mengzi-BERT
- ChineseBERT
- TaCL
- MC-BERT
- 二郎神
- PERT
- MobileBERT
- GAU-α
NLG系列
- GPT
- GPT-3
- NEZHA-GEN
- CPM-Generate
- T5
- T5-PEGASUS
- Mengzi-T5
- 盘古α
- EVA
- BART
- 闻仲
- 余元
- RWKV
NLU-NLG系列
- UniLM
- Simbert
- RoFormer-sim
- CPM-2
- CPT
- 周文王
- GLM
Multi-Modal
- WenLan
- CogView
- 紫东太初
- Mengzi-oscar
- R2D2
- Chinese-CLIP
Table
- SDCUP
更新日志

NLU系列

BERT

2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BERT-Base	base	Google Drive		Google Research	github	通用
BERT-wwm	base	Google Drive 讯飞云-07Xj	Google Drive	Yiming Cui	github	通用
BERT-wwm-ext	base	Google Drive 讯飞云-4cMG	Google Drive	Yiming Cui	github	通用
bert-base-民事	base	阿里云		THUNLP	github	司法
bert-base-刑事	base	阿里云		THUNLP	github	司法
BAAI-JDAI-BERT	base	京东云		JDAI	github	电商客服对话
FinBERT	base	Google Drive 百度网盘-1cmp	Google Drive 百度网盘-986f	Value Simplex	github	金融科技领域
EduBERT	base	好未来AI	好未来AI	tal-tech	github	教育领域
guwenbert-base	base		百度网盘-4jng huggingface	Ethan	github	古文领域
guwenbert-large	large		百度网盘-m5sz huggingface	Ethan	github	古文领域
BERT-CCPoem	small		thunlp	THUNLP-AIPoet	github	古典诗歌

备注:

wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask

ext表示在更多数据集下训练

ChineseBERT

2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ChineseBERT	base		huggingface	ShannonAI	github	通用
ChineseBERT	large		huggingface	ShannonAI	github	通用

RoBERTa

2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
RoBERTa-tiny-clue	tiny	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny-pair	tiny	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny3L768-clue	tiny	Google Drive		CLUE	github	通用
RoBERTa-tiny3L312-clue	tiny	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-pair	large	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-clue	large	google drive	百度网盘-8qvb	CLUE	github	通用
RBT3	3层base	Google Drive 讯飞云-b9nx	Google Drive	Yiming Cui	github	通用
RBTL3	3层large	Google Drive 讯飞云-vySW	Google Drive	Yiming Cui	github	通用
RBTL4	4层large	讯飞云-e8dN		Yiming Cui	github	通用
RBTL6	6层large	讯飞云-XNMA		Yiming Cui	github	通用
RoBERTa-wwm-ext	base	Google Drive 讯飞云-Xe1p	Google Drive	Yiming Cui	github	通用
RoBERTa-wwm-ext-large	large	Google Drive 讯飞云-u6gC	Google Drive	Yiming Cui	github	通用
RoBERTa-base	base	Google Drive 百度网盘	Google Drive 百度网盘	brightmart	github	通用
RoBERTa-Large	large	Google Drive 百度网盘	Google Drive	brightmart	github	通用
RoBERTa-tiny	tiny	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-mini	mini	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-small	small	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-medium	medium	huggingface	huggingface	DBIIR @ RUC	UER	通用
RoBERTa-base	base	huggingface	huggingface	DBIIR @ RUC	UER	通用

ALBERT

2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Albert_tiny	tiny	Google Drive	Google Drive	brightmart	github	通用
Albert_base_zh	base	Google Drive	Google Drive	brightmart	github	通用
Albert_large_zh	large	Google Drive	Google Drive	brightmart	github	通用
Albert_xlarge_zh	xlarge	Google Drive	Google Drive	brightmart	github	通用
Albert_base	base	Google Drive		Google Research	github	通用
Albert_large	large	Google Drive		Google Research	github	通用
Albert_xlarge	xlarge	Google Drive		Google Research	github	通用
Albert_xxlarge	xxlarge	Google Drive		Google Research	github	通用

NEZHA

2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-base	base	Google Drive 百度网盘-ntn3	lonePatient	HUAWEI	github	通用
NEZHA-base-wwm	base	Google Drive 百度网盘-f68o	lonePatient	HUAWEI	github	通用
NEZHA-large	large	Google Drive 百度网盘-7thu	lonePatient	HUAWEI	github	通用
NEZHA-large-wwm	large	Google Drive 百度网盘-ni4o	lonePatient	HUAWEI	github	通用
WoNEZHA (word-base)	base	百度网盘-qgkq		ZhuiyiTechnology	github	通用

MacBERT

2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MacBERT-base	base	Google Drive 讯飞云-E2cP		Yiming Cui	github	通用
MacBERT-large	large	Google Drive 讯飞云-3Yg3		Yiming Cui	github	通用

WoBERT

2020 | 提速不掉点：基于词颗粒度的中文WoBERT | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
WoBERT	base	百度网盘-kim2		ZhuiyiTechnology	github	通用
WoBERT-plus	base	百度网盘-aedw		ZhuiyiTechnology	github	通用

XLNET

2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
XLNet-base	base	Google Drive 讯飞云-uCpe	Google Drive	Yiming Cui	github	通用
XLNet-mid	middle	Google Drive 讯飞云-68En	Google Drive	Yiming Cui	github	通用
XLNet_zh_Large	large	百度网盘		brightmart	github	通用

ELECTRA

2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF

模型	版本	TensorFlow	作者	源地址	应用领域
ELECTRA-180g-large	large	Google Drive 讯飞云-Yfcy	Yiming Cui	github	通用
ELECTRA-180g-small-ex	small	Google Drive 讯飞云-GUdp	Yiming Cui	github	通用
ELECTRA-180g-base	base	Google Drive 讯飞云-Xcvm	Yiming Cui	github	通用
ELECTRA-180g-small	small	Google Drive 讯飞云-qsHj	Yiming Cui	github	通用
legal-ELECTRA-large	large	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-base	base	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-small	small	Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
ELECTRA-tiny	tiny	Google Drive 百度网盘-rs99	CLUE	github	通用

ZEN

2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
ZEN-Base	base		Google Drive 百度网盘	Sinovation Ventures AI Institute	github	通用

ERNIE

2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF
2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv | PDF

模型	版本	PaddlePaddle	作者	源地址	应用领域
ernie-1.0-base	base	link	PaddlePaddle	github	通用
ernie_1.0_skep_large	large	link	Baidu	github	情感分析
ernie-gram	base	link	Baidu	github	通用

备注:

PaddlePaddle转TensorFlow可参考: tensorflow_ernie

PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

ERNIE3

2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Yu Sun, et al. | arXiv | PDF
2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Shuohuan Wang, et al. | arXiv | PDF

模型	版本	PaddlePaddle	作者	源地址	应用领域
ernie-3.0-base	12-layer, 768-hidden, 12-heads	link	PaddlePaddle	github	通用
ernie-3.0-medium	6-layer, 768-hidden, 12-heads	link	PaddlePaddle	github	通用
ernie-3.0-mini	6-layer, 384-hidden, 12-heads	link	PaddlePaddle	github	通用
ernie-3.0-micro	4-layer, 384-hidden, 12-heads	link	PaddlePaddle	github	通用
ernie-3.0-nano	4-layer, 312-hidden, 12-heads	link	PaddlePaddle	github	通用

RoFormer

2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv | PDF
2021 | Transformer升级之路：2、博采众长的旋转式位置编码 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
roformer	base(L12)	百度网盘-xy9x	ZhuiyiTechnology	github	通用
roformer	small(L6)	百度网盘-gy97	ZhuiyiTechnology	github	通用
roformer-char	base(L12)	百度网盘-bt94	ZhuiyiTechnology	github	通用
roformerV2	small(L6)	百度网盘-ttn4 追一	ZhuiyiTechnology	github	通用
roformerV2	base(L12)	百度网盘-pfoh 追一	ZhuiyiTechnology	github	通用
roformerV2	large(L24)	百度网盘-npfv 追一	ZhuiyiTechnology	github	通用

StructBERT

2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
StructBERT	large(L24)		阿里云	Alibaba	github	通用

Lattice-BERT

2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv | PDF

模型	版本	PyTorch	作者	源地址	应用领域
LatticeBERT	tiny(L4)	阿里云	Alibaba	github	通用
LatticeBERT	small(L6)	阿里云	Alibaba	github	通用
LatticeBERT	base(L12)	阿里云	Alibaba	github	通用

Mengzi-BERT

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-BERT	base(L12)		huggingface	Langboat	github	通用
Mengzi-BERT-fin	base(L12)		huggingface	Langboat	github	金融财经

TaCL

2021 | TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning | Yixuan Su, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
TaCL	base(L12)		huggingface	yxuansu	github	通用

MC-BERT

2021 | MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining | alibaba-research | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
MC-BERT	base(L12)		link	alibaba-research	github	生物医疗

二郎神

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Erlangshen	large(L24)	bert		huggingface	IDEA-CCNL	github	中文通用

PERT

2022 | PERT: Pre-Training BERT with Permuted Language Model | Yiming Cui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
PERT-base	base(12L)	百度网盘-rcsw	huggingface	Yiming Cui	github	通用
PERT-large	large(24L)	百度网盘-e9hs	huggingface	Yiming Cui	github	通用

MobileBERT

2020 | MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices | Zhiqing Sun, et al. | arXiv | PDF

模型	版本	TensorFlow	作者	源地址	应用领域
Chinese-MobileBERT-base-f2	base	百度网盘-56bj	Yiming Cui	github	通用
Chinese-MobileBERT-base-f4	base	百度网盘-v2v7	Yiming Cui	github	通用
Chinese-MobileBERT-large-f2	large	百度网盘-6m5a	Yiming Cui	github	通用
Chinese-MobileBERT-large-f4	large	百度网盘-3h9b	Yiming Cui	github	通用

GAU-α

2022 | GAU-α: (FLASH) Transformer Quality in Linear Time | Weizhe Hua, et al. | arXiv | PDF | blog

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
chinese_GAU-alpha-char_L-24_H-768	base	下载		ZhuiyiTechnology	github	通用

NLG系列

GPT

2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GPT2	30亿语料		Google Drive 百度网盘-ffz6	Caspar ZHANG	gpt2-ml	通用
GPT2	15亿语料		Google Drive 百度网盘-q9vr	Caspar ZHANG	gpt2-ml	通用
CDial-GPTLCCC-base	base		huggingface	thu-coai	CDial-GPT	中文对话
CDial-GPT2LCCC-base	base		huggingface	thu-coai	CDial-GPT	中文对话
CDial-GPTLCCC-large	large		huggingface	thu-coai	CDial-GPT	中文对话
GPT2-dialogue	base		Google Drive 百度网盘-osi6	yangjianxin1	GPT2-chitchat	闲聊对话
GPT2-mmi	base		Google Drive 百度网盘-1j88	yangjianxin1	GPT2-chitchat	闲聊对话
GPT2-散文模型	base		Google Drive 百度网盘-fpyu	Zeyao Du	GPT2-Chinese	散文
GPT2-诗词模型	base		Google Drive 百度网盘-7fev	Zeyao Du	GPT2-Chinese	诗词
GPT2-对联模型	base		Google Drive 百度网盘-i5n0	Zeyao Du	GPT2-Chinese	对联
roformer-gpt	base(L12)	百度网盘-2nnn		ZhuiyiTechnology	github	通用

GPT-3

2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv | PDF
2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv | PDF

模型	版本	介绍	PyTorch	作者	源地址	应用领域
Chinese-Transformer-XL	29亿参数(GPT-3)	项目首页	模型下载	THUDM	github	通用

NEZHA-Gen

2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-Gen	base	Google Drive 百度网盘-rb5m		HUAWEI	github	通用
NEZHA-Gen	base	Google Drive 百度网盘-ytim		HUAWEI	github	诗歌

CPM-Generate

2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv | PDF

模型	版本	资源	PyTorch	作者	源地址	应用领域
CPM	26亿参数	项目首页	模型下载	Tsinghua AI	github	通用

备注:

PyTorch转TensorFlow可参考: CPM-LM-TF2

PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle

T5

2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
T5	small	huggingface	huggingface	DBIIR @ RUC	UER	通用

T5-PEGASUS

2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv | PDF
2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv | PDF
2021 | T5 PEGASUS：开源一个中文生成式预训练模型 | 苏剑林. | spaces | Blog post

模型	版本	Keras	PyTorch	作者	源地址	应用领域
T5 PEGASUS	base	百度网盘-3sfn		ZhuiyiTechnology	github	通用
T5 PEGASUS	small	百度网盘-qguk		ZhuiyiTechnology	github	通用

Keras转PyTorch可参考: t5-pegasus-pytorch

Mengzi-T5

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-T5	base(L12)		huggingface	Langboat	github	通用

PanGu-Alpha

2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv | PDF

模型	版本	资源	下载地址	作者	源地址	应用领域
盘古α-2.6B	2.6G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用
盘古α-13B	12G	项目首页	模型下载	PCL-Platform.Intelligence	github	通用

EVA

2021 | EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training | Hao Zhou, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
EVA	28亿参数	项目首页	模型下载	thu-coai	github	中文开放域对话	需要登陆才能下载

BART

2019 | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | Mike Lewis, et al. | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
BART-base	base		huggingface	fastNLP	github	中文通用
BART-large	large		huggingface	fastNLP	github	中文通用

闻仲

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Wenzhong	large(L24)	GPT2		huggingface	IDEA-CCNL	github	中文通用

余元

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Yuyuan	large(L24)	GPT2		huggingface	IDEA-CCNL	github	医学领域

RWKV

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
RWKV	base(L12)	类似GPT-2		github	PENG Bo	github	小说

NLU-NLG系列

UniLM

2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Unilm	base	百度网盘-tblr	百度网盘-etwf	YunwenTechnology	github	通用

Simbert

2020 | 鱼与熊掌兼得：融合检索和生成的SimBERT模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
SimBERT Tiny	tiny	百度网盘-1tp7	ZhuiyiTechnology	github	通用
SimBERT Small	small	百度网盘-nu67	ZhuiyiTechnology	github	通用
SimBERT Base	base	百度网盘-6xhq	ZhuiyiTechnology	github	通用

RoFormer-sim

2021 | SimBERTv2来了！融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces | Blog post

模型	版本	TensorFlow	作者	源地址	应用领域
roformer-sim	base(L12)	百度网盘-2cgz	ZhuiyiTechnology	github	通用
roformer-sim	small(L6)	百度网盘-h68q	ZhuiyiTechnology	github	通用
roformer-sim-v2	base(L12)	百度网盘-w15n	ZhuiyiTechnology	github	通用

周文王

模型	版本	类型	TensorFlow	PyTorch	作者	源地址	应用领域
Zhouwenwang	base(L12)	roformer		huggingface	IDEA-CCNL	github	中文通用
Zhouwenwang	large(L24)	roformer		huggingface	IDEA-CCNL	github	中文通用

CPM-2

2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CPM-2	110亿参数	项目首页	模型下载	BAAI-WuDao	github	通用	需要申请才能下载
CPM-2	100亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载
CPM-2	1980亿参数	项目首页	模型下载	BAAI-WuDao	github	中英	需要申请才能下载

CPT

2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
CPT-base	base(L12)		huggingface	fastNLP	github	通用
CPT-large	large(L24)		huggingface	fastNLP	github	通用

GLM

2022 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | Zhengxiao Du, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
GLM	large		地址	THUDM	github	通用
GLM	xxlarge		地址	THUDM	github	通用

Multi-Modal

WenLan

2021 | WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training | Yuqi Huo, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
BriVL(WenLan)	10亿参数	项目首页	模型下载	BAAI-WuDao	github	中文通用图文	需要登陆才能下载

CogView

2021 | CogView: Mastering Text-to-Image Generation via Transformers | Ming Ding, et al. | arXiv | PDF

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
CogView	40亿参数	项目首页	模型下载	THUDM	github	中文多模态生成模型	需要登陆才能下载

紫东太初

模型	版本	介绍	模型下载	作者	源地址	应用领域	备注
紫东太初- light_vision_text		项目首页	模型下载	中科院自动化所	github	中文图像-文本领域	紫东太初多模态大模型中的图像-文本预训练模型
紫东太初-text[GPT]	32亿参数	项目首页	百度网盘-nos5	中科院自动化所	github	中文通用	紫东太初多模态大模型中的文本预训练模型
紫东太初-vision		项目首页	模型下载	中科院自动化所	github	视觉领域	紫东太初多模态大模型中的视觉预训练模型
紫东太初-speech		项目首页	模型下载	中科院自动化所	github	语音领域	紫东太初多模态大模型中的语音检测与识别多任务模型

Mengzi-oscar

2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Mengzi-oscar	base(L12)		huggingface	Langboat	github	中文多模态-图文

R2D2

2022 | Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework | Chunyu Xie, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	首页	应用领域
R2D2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文
PRD2ViT-L	large		Google	yuxie11	github	zero	中文多模态-图文

Chinese-CLIP

2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
Chinese-CLIP	base		aliyuncs	OFA Sys	github	中文多模态-图文

Table

SDCUP

2021 | Improving Text-to-SQL with Schema Dependency Learning | Binyuan Hui, et al. | arXiv | PDF

模型	版本	TensorFlow	PyTorch	作者	源地址	应用领域
sdcup	base		阿里云	Alibaba	github	中文表格
sdcup	large		阿里云	Alibaba	github	中文表格

更新

2022.07.10 增加Chinese-CLIP,CLIP模型的中文版本，使用大规模中文数据进行训练（~2亿图文对），旨在帮助用户实现中文领域的跨模态检索、图像表示等.
2022.06.29 增加ERNIE 3.0,大规模知识增强预训练语言理解和生成.
2022.06.22 增加Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework，基于大规模中文跨模态基准数据集Zero，训练视觉语言预训练框架 R2D2，用于大规模跨模态学习。
2022.06.15 增加GLM: General Language Model Pretraining with Autoregressive Blank Infilling,提出了一种新的通用语言模型 GLM(General Language Model)。使用自回归填空目标进行预训练，可以针对各种自然语言理解和生成任务进行微调。
2022.05.16 增加GAU-α,主要提出了一个融合了Attention层和FFN层的新设计GAU（Gated Attention Unit，门控注意力单元），它是新模型更快、更省、更好的关键，此外它使得整个模型只有一种层，也显得更为优雅。
2022.03.27 增加RoFormer-V2,RoFormer升级版，主要通过结构的简化来提升速度，并通过无监督预训练和有监督预训练的结合来提升效果，从而达到了速度与效果的“双赢”。
2022.03.02 增加MobileBERT,MobileBERT是BERT-large模型更“苗条”的版本，使用了瓶颈结构（bottleneck）并且对自注意力和前馈神经网络之间的平衡做了细致的设计。
2022.02.24 增加PERT: Pre-Training BERT with Permuted Language Model,一种基于乱序语言模型的预训练模型（PERT），在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。
2021.12.06 增加SDCUP: Improving Text-to-SQL with Schema Dependency Learning,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP。
2021.11.27 增加RWKV中文预训练生成模型,类似 GPT-2,模型参考地址：RWKV-LM
2021.11.27 增加IDEA研究院开源的封神榜系列语言模型，包含二郎神、周文王、闻仲、余元。
2021.11.25 增加MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining, 生物医学领域的中文预训练模型.
2021.11.24 增加TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning, Token-aware对比学习预训练模型.
2021.10.18 增加Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese,基于语言学信息融入和训练加速等方法研发了 Mengzi 系列模型.
2021.10.14 增加中文版BART,训练比较可靠的中文版BART，为中文生成类任务如摘要等提供Baseline.
2021.10.14 增加CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation,CPT：兼顾理解和生成的中文预训练模型.
2021.10.13 增加紫东太初多模态大模型: 全球首个多模态图文音预训练模型,实现了视觉-文本-语音三模态统一表示，构建了三模态预训练大模型。
2021.09.19 增加CogView: Mastering Text-to-Image Generation via Transformers,世界最大的中文多模态生成模型,模型支持文生成图为基础的多领域下游任务.
2021.09.10 增加WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training，首个中文通用图文多模态大规模预训练模型。
2021.09.10 增加EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training，一个开放领域的中文对话预训练模型。
2021.08.19 增加Chinese-Transformer-XL：基于中文预训练语料WuDaoCorpus（290G）训练的GPT-3模型。
2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
2021.07.19 增加roformer-sim-v2：利用标注数据增强版本
2021.07.15 增加BERT-CCPoem：古典诗歌语料训练的BERT
2021.07.06 增加ChineseBERT：Chinese Pretraining Enhanced by Glyph and Pinyin Information
2021.06.22 增加StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
2021.06.14 增加RoFormer：Enhanced Transformer with Rotary Position Embedding
2021.05.25 增加ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding
2021.04.28 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
2021.03.16 增加T5-PEGASUS: 开源一个中文生成式预训练模型
2021.03.09 增加UER系列模型
2021.03.04 增加WoBERT: 基于词颗粒度的中文
2020.11.11 初始化BERT系列模型BERT

jasondepblu / awesome-pretrained-chinese-nlp-models Goto Github PK

awesome-pretrained-chinese-nlp-models's Introduction

Awesome Pretrained Chinese NLP Models

Expand Table of Contents

NLU系列

BERT

ChineseBERT

RoBERTa

ALBERT

NEZHA

MacBERT

WoBERT

XLNET

ELECTRA

ZEN

ERNIE

ERNIE3

RoFormer

StructBERT

Lattice-BERT

Mengzi-BERT

TaCL

MC-BERT

二郎神

PERT

MobileBERT

GAU-α

NLG系列

GPT

GPT-3

NEZHA-Gen

CPM-Generate

T5

T5-PEGASUS

Mengzi-T5

PanGu-Alpha

EVA

BART

闻仲

余元

RWKV

NLU-NLG系列

UniLM

Simbert

RoFormer-sim

周文王

CPM-2

CPT

GLM

Multi-Modal

WenLan

CogView

紫东太初

Mengzi-oscar

R2D2

Chinese-CLIP

Table

SDCUP

更新

awesome-pretrained-chinese-nlp-models's People

Contributors

Recommend Projects

Recommend Topics

Recommend Org