nolram567 / polminepyhesse Goto Github PK

View Code? Open in Web Editor NEW

Ein Parser für die Generation eines XML-TEI-Korpus der 20. Legislaturperiode des hessischen Landtags und die Berechnung eines Topic Models.

License: GNU General Public License v3.0

Python 96.79% Roff 3.21%

polminepyhesse's Introduction

PolMinePyHesse

Dieses Repository enthält den Code und die Datensätze, die im Rahmen meiner Masterarbeit entstehen. Ich habe auf der Grundlage der semi-strukturierten Rohdokumente ein XML-TEI-Korpus der Plenarprotokolle der 20. Legislaturperiode des hessischen Landtags generiert.

Auf Grundlage dieses Korpus wird ein Topic Model berechnet.

Ordnerstruktur

Die folgende Struktur zeigt die Organisation der Projektordner und -dateien:

PolMinePyHesse/
│ 
├── data/
│   ├── xml
│   ├── xml-tei
│   └── processed_corpus
├── data_outputs/
│   ├── stoppwords.txt -- Ein eigens - mithilfe von tf-idf - generierte Stoppwortliste für das Korpus.
│   ├── tf-idf_results.txt -- Die mittleren tf-idf-Werte.
│   ├── MWE.json -- Statistisch bedeutsame MWE und NE im Korpus.
│   └── MWE_reversed.json -- Abbildung der Bigramme auf die MWE und NE.
├── lda_visualisations/
│   └── Die mit pyLDAvis erzeugten Visualisierungen für Themenmodelle.
├── XSD
│   └── hesseparl_tei.xsd -- Ein XSD-Dokument, um die formale Struktur der Dokumente zu validieren.
├── data_analyzer.py -- Die Analyse der rohen und schemalosen XML-Dokumente.
├── xml_parser.py -- Der Parsers.
├── main.py -- Die Parsing-Prozedur
├── patterns.py -- Reguläre Ausdrücke für den Parser.
├── xml_validator.py -- Funktionen für die Validierung der Wohlgeformtheit und nach dem einem XSD.
├── corpus_manager.py -- Enthält die Klasse CorpusManager, um das hesseparl-tei-Korpus einzulesen und zu verwalten.
├── cooccurrence_miner.py -- Das Skript enthält eine Prozedur, um Kookkurrenzen bzw. Kollokationen zu berechnen, um daraus bededeutsame MWE und NE abzuleiten.
└── text_miner.py -- Enthält Funktionen für das Text-Mining.

Recommend Projects