Giter Site home page Giter Site logo

teaching_nlp's Introduction

teaching_nlp

Chapitre 1 (Pré-)-Traitement Automatique des Langues

  • NLP (python) Libraries
  • Analyses linguistiques du français
    • Tokénisation
    • Analyse lexicale (lemmatisation, morphologie flexionnelle et dérivationnelle mais pas compositionnelle..., CoNLL)
    • Analyse syntaxique (constituants et dépendance)
    • Reconnaissance d'entités nommées
  • Analyse de textes de genres différents
  • Multilinguisme (couverture, qualité et temps de traitemen)
  • Benchmark NLP libs

Chapitre 2 Normalisation des textes

  • Mots vides
  • Opérations de normalisation
  • Taille du texte vs. taille de vocabulaire
  • Mots pleins (statistique et sens, loi de Zipf)

Chapitre 3 Représentation des textes "traditionnelles" à l'aide du vocabulaire ou des thèmes

  • Modèle "sac de mots" (bag of words)
  • Vectorisation avec occurrences
  • Vectorisation avec TF-IDF
  • Matrice creuse
  • Partitionnement sur la base d'une représentation bow des documents avec la méthode des k-moyennes
  • Similarité entre documents
  • Partitionnement hiérarchique des documents sur la base de la matrice de similarités inter-documents
  • Partitionnement des documents sur la base de la matrice de similarités inter-documents avec la méthode des k-moyennes
  • Topic modeling with LDA's gensim
  • Partitionnement des documents sur la base de la matrice document-topic avec la méthode des k-moyennes

Chapitre 4 Représentation vectorielle continue des mots et des documents

  • Plongement de mots (word embeddings avec word2vec approches skipgram et cbow, fasttext)
  • Charger un modèle existant à l'aide de gensim et réaliser des opérations de similarités
  • Visualiser les plongements lexicaux dans un graph en 2D
  • Visualiser les plongements lexicaux en 3D dynamique à l'aide du projector de tensorflow
  • Construire un modèle word2vec et fasttext avec gensim
  • Comparer et évaluer deux modèles
  • Construire une représentation continue de document
  • Partitionnement sur la base d'une représentation document-embeddings
  • L'approche TextRank pour le résumé automatique (Nicolas Dugué)

Chapitre 5 Classification de textes : tâches d'analyse de sentiment

  • Allociné dataset
  • Utilisation d'une bibliothèque de haut niveau, ktrain
  • Entraînement (fine-tuning) de différents modèles fasttext, nbsvm, BERT et d'autres issus d'HuggingFace
  • Recherche de taux d'apprentissage (learning rate)
  • Comparaison de performance d'inférence
  • Data augmentation par adversarial learning et model ensembling

References

teaching_nlp's People

Contributors

nicolashernandez avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.