Giter Site home page Giter Site logo

hugoschtr / memoire_tnah_m2_hugoscheithauer Goto Github PK

View Code? Open in Web Editor NEW
1.0 1.0 0.0 166.11 MB

Mémoire de stage, annexes, et livrables pour le Master 2 Technologies numériques appliquées à l'histoire (TNAH) de l'École nationale des chartes

Jupyter Notebook 99.24% Python 0.76%
tnah master-thesis ner htr handwritten-text-recognition named-entity-recognition tei-xml

memoire_tnah_m2_hugoscheithauer's Introduction

Mémoire de stage - Master Technologies numériques appliquées à l'histoire, École nationale des chartes

La reconnaissance d’entités nommées appliquée à des données issues de la transcription automatique de documents manuscrits patrimoniaux. Expérimentations et préconisations à partir du projet LECTAUREP

Ce mémoire rend compte et problématise un stage de quatre mois effectué au sein de l'équipe ALMAnaCH - Inria, pour le projet LECTAUREP (INRIA - Archives nationales), actuellement dans la fin de sa troisième phase. Le projet a pour objectif de transcrire automatiquement les répertoires des notaires conservés au Département du Minutier Central des Archives nationales. Grâce à l'utilisation de la plate-forme eScriptorium et dans la mesure où des modèles de transcription d'écriture manuscrites ont été entraînés, des données textuelles peuvent être produites en masse. La reconnaissance d'entités nommées (REN) est une exploitation envisageable pour enrichir les transcriptions qui en sont faites, ainsi que pour fournir de nouvelles portes d'entrées aux documents sources par le biais des entités nommées qu'ils contiennent. L'existence de modèles génériques de REN facilite l'expérimentation, mais ceux-ci ne constituent pas forcément une solution clé en main. Le bruit des données générées par la REM et la perte de la structure logique suite à la REM perturbent en effet leurs performances.

Ce travail a pour but de donner des préconisations pour appliquer des outils de REN dans le cadre d'une campagne de REM, du pré-traitement des données brutes en sortie de transcription, au signalement des entités dans un fichier XML-TEI, tout en veillant à étudier les enjeux métiers de la REN dans un contexte patrimonial.

Le mémoire est disponible au format PDF, et au format LaTeX dans une archive. Celle-ci contient également les annexes images du mémoire.

Livrables

Le travail produit durant ce stage a été stocké dans un sous-répertoire du projet Gitlab de LECTAUREP, accessible avec le lien suivant : https://gitlab.inria.fr/almanach/lectaurep/ner

Dans un soucis d'accessibilité, ces livrables ont été reproduits dans le dossier éponyme de ce répertoire.

Ils prennent majoritairement la forme de notebooks Jupyter et sont visualisables directement en ligne. Ils peuvent également être exécutés localement, en téléchargeant le répertoire Gitlab et en reproduisant les environnements de tests, soit un environnement virtuel basique dont les dépendances sont indiquées dans un fichier requirements.txt, soit dans un environnement Anaconda, dont les dépendances apparaissent dans un fichier environment.yml. Ils permettent d'accéder rapidement aux expériences réalisées, à leurs déroulés et à leurs résultats.

  • corpus_test : contient les fichiers PAGE XML et texte utilisés pour les tests de REN
  • exemples_training_data_ner : contient un fichier exemple de données d'entraînement pour un modèle de REN
  • ner_python : contient plusieurs notebooks rangés selon la librairie de TAL qui a été utilisée pour les tests
  • preprocessing : contient un essai de chaîne de traitement pour pré-traiter les PAGE XML obtenu avec eScriptorium en vue de l'annotation de données d'entraînement pour un modèle de NER
  • recherche : contient une fiche de lecture, réalisée au début du stage
  • referentiels : contient des référentiels et un script ayant servi à constituer l'un d'eux
  • ressources : contient des diagrammes illustrant des points spécifiques du travail de recherche
  • test_NERVAL : contient un notebook de test pour la librairie d'évaluation NER NERVAL (Teklia)

Cite this repository

Hugo Scheithauer, La reconnaissance d'entités nommées appliquées à des données issues de la transcription automatique de documents manuscrits patrimoniaux. Expérimentations et préconisations à partir du projet LECTAUREP, mémoire de master "Technologies numériques appliquées à l'histoire", dir. Alix Chagué et Thibault Clérice, École nationale des chartes, 2021, https://github.com/HugoSchtr/memoire_TNAH_M2_HugoScheithauer.

memoire_tnah_m2_hugoscheithauer's People

Contributors

hugoschtr avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.