The compgen-ii-cgv from correlaid

Eine Idee könnte es sein, aus den zweiten Bestandteilen in der Verlustliste Cluster vorab zu bilden basierend auf ihrer Ähnlichkeit bezüglich Editierdistanz. Möglicherweise findet man über die Cluster dann Lücken in GOV. Oder man könnte aus den Clustern eine Abkürzungsliste erstellen.

Frie nach Jesper fragen

GOV erkunden (Datenbank)

Eventuell hilfreiche sql queries im Github-Wiki festhalten
CompGen-I-Team oder Jesper können helfen

Sonderzeichen implementieren

Entferne Sonderzeichen
Abkürzungen ausschreiben
Einbauen in die pipeline.py

Masterarbeit "Toponym Resolution on Historical Serial Sources" von Dennis Sen studieren

Test Set bauen

Baue eine Test-Set auf Grundlage der Verlustliste-Korrekturliste
http://wiki-de.genealogy.net/Verlustlisten_Erster_Weltkrieg/Projekt/Ortsnamen

Notebook in Klasse umwandeln
Test-Notebook für alle vorgeben

Logs für Bestandteile Pipeline

Übersicht, welche Konfiguration zu welcher Performance geführt hat

bspw. mit MLFlow

Automatisch generierte Abkürzungsliste -> Levenshtein-Distanz?

Levenshtein für Testdatensatz "vorberechnen"

mit Preprocessing (siehe Notebook test_data.py)

Kölner Phonetik in Matcher einbauen

Automation

Automatically move your cards to the right place based on the status and activity of your issues and pull requests.

Abkürzungsliste ausarbeiten

Gov verkleinern durch Weglassen der untersten Ebene

gov_matching: Anzahl der möglichen finalen Matches reduzieren

Beispiel Aabel: Wenn man eine Gemeinde und ein Dorf findet und Dorf und Gemeinde in einer Beziehung stehen, dann sollte man das höhere Objekt nehmen (also die Gemeinde). Das hat aber Grenzen. Im Fall von Aachen und Kreis Aachen wäre es zu ungenau, den Kreis zu wählen.

Implementiere die Editierdistanz für die Kandidatensuche

Ideen:

unterstütze verschiedene Modi bei der Suche: Ersetzen ja/nein, Insertion: ja/nein, Deletion: ja/nein
Input: Liste an Namen aus dem GOV, Sucheintrag
Output: Liste an Namen, die übert maxCost von Sucheintrag zu finden sind
Suche einschränken: Wir sollten nicht das Gesamte GOV als Suchraum nehmen, sondern sinnvoll einschränken:
- Nur Namen, die beispielsweise mit dem zweiten Bestandteil zusmamenhängen ("Aaachen, Sachsen" -> Aaachen kann nicht gefunden werden, aber Sachsen, daher nur Namen als Suchraum nehmen, die über Sachsen erreichbar sind)
- Beginne bei einem BEstandteil oder mehreren falschen Bestandteilen nicht mit ganzem GOV, sondern mit oberster Ebene und arbeite dich schrittweise nach unten vor

Notebooks löschen

Verbessere Wahl der textual_id bei mehreren Kandidaten (nicht first, sondern z.B. über Typ):

einerseits Auswahl der tatsächlichen textual_id als finaler match
andererseits Transparenz im Output (Score!)

Beispiele:
Aachen Kreis, Aachen Stadt, Aachen Bauernhof
Berlin Stadt, Berlin Bauernhof
vs.
Neustadt1, Neustadt2

Ausgabe-Format mit Jesper klären

Ausgabeformat als JSON mit allen Infos ok -> Microservice gedacht
Finale textual_id?

correlaid / compgen-ii-cgv Goto Github PK

compgen-ii-cgv's People

Stargazers

Watchers

Forkers

compgen-ii-cgv's Issues

Recommend Projects

Recommend Topics

Recommend Org