Giter Site home page Giter Site logo

akashark / nlp_ability Goto Github PK

View Code? Open in Web Editor NEW

This project forked from da-southampton/nlp_ability

0.0 1.0 0.0 8.06 MB

总结梳理自然语言处理工程师(NLP)需要积累的各方面知识,包括面试题,各种基础知识,工程能力等等,提升核心竞争力

Makefile 0.09% Jupyter Notebook 1.96% CSS 0.05% Python 85.00% TeX 3.94% Shell 0.73% Perl 4.73% Smalltalk 0.28% Emacs Lisp 2.54% JavaScript 0.12% NewLisp 0.24% Ruby 0.25% Slash 0.04% SystemVerilog 0.03%

nlp_ability's Introduction

背景介绍

建立这个仓库是为了梳理自然语言处理(NLP)各个方面的知识,提升自己的核心竞争力。我觉得NLP是一个值得深耕的领域,所以希望可以不停的提升自己的段位!

微信公众号:NLP从入门到放弃

wechat

深度学习自然语言处理

Transformer

Transformer 相关知识 进度
史上最全Transformer面试题 已完成并上传
答案解析(1)-史上最全Transformer面试题 已经完成并上传
Pytorch代码分析--如何让Bert在finetune小数据集时更“稳”一点 已经完成并上传
解决老大难问题-如何一行代码带你随心所欲重新初始化bert的某些参数(附Pytorch代码详细解读) 已经完成并上传
3分钟从零解读Transformer的Encoder 已经完成并上传
原版Transformer的位置编码究竟有没有包含相对位置信息 已经完成并上传
BN踩坑记--谈一下Batch Normalization的优缺点和适用场景 已经完成并上传
谈一下相对位置编码 已经完成并上传
NLP任务中-layer-norm比BatchNorm好在哪里 已经完成并上传
谈一谈Decoder模块 已经完成并上传
Transformer的并行化 已经完成并上传
Transformer全部文章合辑 已经完成并上传

Bert-基本知识

Bert 相关知识 进度
FastBERT-CPU推理加速10倍 已经完成并上传
Bert如何融入知识(一)-百度和清华ERINE 百分之五十
Bert如何融入知识二-Bert融合知识图谱 百分之十
Bert的可视化-Bert每一层都学到了什么 百分之十
Bert各种后续预训练模型-预训练模型的改进 百分之十

Bert-知识蒸馏

模型蒸馏相关知识 进度
什么是知识蒸馏 已经完成
如何让 TextCNN 逼近 Bert 已经完成
Bert蒸馏到简单网络lstm 已经完成

词向量-word embedding

词向量面试题梳理 进度
史上最全词向量面试题-Word2vec/fasttext/glove/Elmo 已经完成并上传
  • Word2vec
Word2vec相关知识 进度
Word2vec两种训练模型详细解读-一个词经过模型训练可以获得几个词向量 已经完成并上传
Word2vec两种优化方式细节详细解读 已经完成并上传
Word2vec-负采样和层序softmax与原模型是否等价 已经完成并上传
Word2vec为何需要二次采样以及相关细节详细解读 已经完成并上传
Word2vec的负采样 已经完成并上传
Word2vec模型究竟是如何获得词向量的 已经完成并上传
Word2vec训练参数的选定 已经完成并上传
CBOW和skip-gram相较而言,彼此相对适合哪些场景.md 已经完成并上传
  • Fasttext/Glove
Fasttext相关知识 进度
Fasttext详解解读(1)-文本分类 已经完成并上传
Fasttext详解解读(2)-训练词向量 已经完成并上传
GLove细节详细解读 已经完成并上传
Fasttext源码详细解读(C++版)

句向量-sentence embedding

句向量模型相关知识 进度
句向量模型综述 已经上传

文本相似度

文本相似度 相关知识 进度
五千字全面数据文本相似度/文本匹配模型 已经完成并上传

关键词提取

关键词提取相关知识 进度
基于词典的正向/逆向最大匹配 已经上传
实体库构建:大规模离线新词实体挖掘 已经上传
聊一聊NLPer如何做关键词抽取 已经上传

命名体识别

命名体识别相关资源 进度
命名体识别资源梳理(代码+博客讲解) 已经上传
HMM/CRF 详细解读 已经上传
工业级命名体识别的做法 已经上传
词典匹配+模型预测-实体识别两大法宝 已经上传
手撕BiLSTM-CRF代码
少样本命名体识别
命名体识别12法则-娄杰知乎-写的很好-实战总结
命名体识别最新进展

文本分类

文本分类相关知识 进度
TextCNN论文详细解读 已经上传
手撕 TextCNN/Fasttext/Albert 文本分类
TextCNN/Fasttext/Albert 实际工作应用经验
多标签文本分类
文本分类各种优化策略和方法

机器翻译

机器翻译相关知识 进度
OpenNMT源代码解读(pytorch版)-baseline操作OpenNMT-py 已经完成并上传
BPE论文解读 已经上传
手撕Seq2seq-attention机器翻译代码
基于seq2seq机器翻译的各种优化策略解读
ConS2S论文详细解读
GNMT论文详细解读
Seq2seq过程图画版详细解读

多模态

多模态相关知识汇总 进度
层次分类体系的必要性-多模态讲解系列(1) 完成
文本和图像特征表示模块详解-多模态讲解系列(2) 完成
层次体系具体是如何构建的-多模态讲解系列(3) 待完成

Pytorch

Pytorch技巧
pytorch对text数据的预处理-综述 已经上传
pytorch处理文本数据代码版本1-处理文本相似度数据 已经上传
pytorch处理文本数据代码版本2-处理文本相似度数据 已经上传
Pytorch中mask attention是如何实现的代码版本1-阅读文本相似度模型的小总结
Pytorch调参总结
验证集loss上升,准确率却上升该如何理解?

机器学习

机器学习相关知识 进度
真实场景如何解决类别不平衡的问题 已经完成

搜索

搜索相关知识 进度
各种关于搜索的好文章资源总结-看到比较不错的就放上来 持续更新
什么是倒排索引 已经完成

推荐系统

推荐系统相关知识 进度
聊一下Wide&Deep 已经完成
FM模型简单介绍 已经完成
DeepFM模型简单介绍 已经完成
各种关于推荐的好文章资源总结-看到比较不错的就放上来
度学习在推荐系统中的应用 这个作者写的非常好
推荐系统特征构建
推荐系统特征工程的万字理论
新商品类别embedding如何动态更新-增量更新embedding

模型部署

1.Kafka

2.Docker

3.Elasticsearch

4.Flask+nginx

5. Grpc

6. TensorRT

nlp_ability's People

Contributors

da-southampton avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.