Giter Site home page Giter Site logo

ssp / juedisches-adressbuch Goto Github PK

View Code? Open in Web Editor NEW
1.0 3.0 0.0 10.99 MB

Arbeit mit den Daten des Jüdischen Adressbuches der ZLB

Home Page: http://earthlingsoft.net/ssp/juedisches-adressbuch/

Shell 12.78% CSS 7.86% JavaScript 20.63% Python 58.73%

juedisches-adressbuch's Introduction

Jüdisches Adressbuch

Arbeit mit den Daten des Jüdischen Adressbuches der ZLB.

Schritte

Laden der CSV Daten

nach data/0-adressen.csv geladen

Geocodierung

  • Wegen Rate Limiting ist Googles Geocoder für die große Zahl der Adressen schlecht geeignet, vermutlich verstöße eine Nutzung auch gegen die Lizenzbedingungen: Im Sinne offener Daten OpenStreetmap Daten nutzen. Den OpenStreetMap Nominatim Server lokal installieren, um schnell viele Abfragen machen zu können.
  • Das Skript zum Ermitteln der Koordinaten ist in data/1-koordinaten/. Es cached die Ergebnisse (um Raum für Experimente zu bieten) und gibt die Ergebnisse aus als:
    • JSON Array mit einem Eintrag für jedes erfolgreiche Lookup. Dieser ist ein Array mit Feldern: id, lat, long, Name, Beruf, Adresse.
    • CSV Datei mit Spalten: id, lat, long
  • Liefert Nominatim mehrere Ergebnisse, wird
  • Etwa 10% der Adressen werden nicht gefunden. Bei einigen Beispielen scheint dies an geänderten Straßennamen zu liegen.
  • Einige Adressen werden grob (z.B. bei doppelten Straßennamen – erste Experimente zeigen, daß die Nutzung der Orsteilnamen nicht wirklich hilft) oder etwas (scheinbar, wenn OpenStreetmap die Hausnummern nicht richtig kennt) falsch angezeigt

Web-Anzeige

Verbindung mit Adressbuchseite

  • Skripte im Ordner data/2-volltext.
  • Die Daten dafür sind momentan nicht in der zugehörigen METS Datei zu finden.
  • Laden und extrahieren die Namen aus den Volltexten der ZLB und versuchen eine eindeutige Zuordnung zu finden (6 kurze Shellbefehle mit Standardtools).
  • Es klappt für etwa 50% der Einträge. Probleme sind einerseits mehrfach auftauchende Namen, andererseits Werbung oben auf der Seite, durch die der extrahierte Text kein Name ist.
  • Zuordnung in der Datei data/2-volltext/id-name-seite.tsv, zusammengeführt mit den Originaldaten bei Google Spreadsheets (im Blatt seite-erster müssen die #N/A Felder in der Spalte erste ID ausgefüllt werden).
  • Zuordnung zu Seitengenauen URNs und der angezeigten Seitennummer in liste-tabelle.tsv, auch vorhanden im Blatt seite-urn des Google Spreadsheet.

Suche

  • Im Suchschlitz kann nach Namen und Straßennamen gesucht werden.
  • Gibt es weniger als 1000 Treffer, werden nur diese angezeigt.
  • Eine Suche nach Stadtteil- oder Straßennamen, deckt etliche Geocodingfehler auf. (Komischerweise scheint mein lokales Nominatim schlechtere Ergebnisse zu liefern als das bei OpenStreetmap im Internet)

Wikidata

  • Skripte im Ordner data/3-wikidata.
  • Suchen aller Namen bei Wikidata; gecached in wikidataSearchCache.json
  • Laden der gefundenen Wikidata Items; gecached in wikidataIDCache.json (große Datei!)
  • erste Analyse von Namensübereinstimmung, passenden Lebensdaten und passendem Typ in wikidataResults.csv
  • Erster Eindruck: eine zuverlässige Zuordnung der Wikidata ID ist nicht automatisch möglich; mit diesen Vorarbeiten könnte sie aber einfacher werden. Die große Anzahl der Ergebnisse läßt die Aufgabe schlimmer aussehen als sie ist, da viele Zeilen wegen mehrfach auftretender Namen entstehen oder vom falschen Typ sind.

Ideen

  • Anzahl: Wie verhält sich die Anzahl der Adressbucheinträge zur Anzahl der Menschen? Nur ein Eintrag pro Familie?
  • Zeitgemäße Karten: läßt sich eine Karte aus der Zeit, z.B. aus dem Bestand der Alt Berlin Site oder den Stadtplan 1938 einbinden? Technische Schwierigkeiten? Sind das offene Daten?
  • Weitere Daten zu den Personen: Was wissen wir über ihr Schicksal? Was wurde im Rahmen von Stolperstadt schon festgestellt?
  • Heatmap (Screenshot 1, Screenshot 2): bringt nicht wirklich neue Information und ist mit (dieser) browserseitigen Bibliothek ziemlich langsam

Credits

juedisches-adressbuch's People

Contributors

ssp avatar

Stargazers

 avatar

Watchers

 avatar James Cloos avatar  avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.