Light

ssp / juedisches-adressbuch Goto Github PK

View Code? Open in Web Editor NEW

1.0 3.0 0.0 10.99 MB

Arbeit mit den Daten des Jüdischen Adressbuches der ZLB

Home Page: http://earthlingsoft.net/ssp/juedisches-adressbuch/

Shell 12.78% CSS 7.86% JavaScript 20.63% Python 58.73%

juedisches-adressbuch's Introduction

Jüdisches Adressbuch

Arbeit mit den Daten des Jüdischen Adressbuches der ZLB.

Schritte

Laden der CSV Daten

nach data/0-adressen.csv geladen

Geocodierung

Wegen Rate Limiting ist Googles Geocoder für die große Zahl der Adressen schlecht geeignet, vermutlich verstöße eine Nutzung auch gegen die Lizenzbedingungen: Im Sinne offener Daten OpenStreetmap Daten nutzen. Den OpenStreetMap Nominatim Server lokal installieren, um schnell viele Abfragen machen zu können.
Das Skript zum Ermitteln der Koordinaten ist in data/1-koordinaten/. Es cached die Ergebnisse (um Raum für Experimente zu bieten) und gibt die Ergebnisse aus als:
- JSON Array mit einem Eintrag für jedes erfolgreiche Lookup. Dieser ist ein Array mit Feldern: id, lat, long, Name, Beruf, Adresse.
- CSV Datei mit Spalten: id, lat, long
Liefert Nominatim mehrere Ergebnisse, wird
Etwa 10% der Adressen werden nicht gefunden. Bei einigen Beispielen scheint dies an geänderten Straßennamen zu liegen.
Einige Adressen werden grob (z.B. bei doppelten Straßennamen – erste Experimente zeigen, daß die Nutzung der Orsteilnamen nicht wirklich hilft) oder etwas (scheinbar, wenn OpenStreetmap die Hausnummern nicht richtig kennt) falsch angezeigt

Web-Anzeige

Verfügbar unter http://earthlingsoft.net/ssp/juedisches-adressbuch/
Visualisierung auf OpenStreetMap Karte mit Leaflet
Zoomabhängige Clusterung der Böbbel durch Leaflet.markercluster: Das Laden der Seite ist wegen der mehr als 60000 Böbbel nicht wirklich schnell, funktioniert erstaunlicherweise danach aber ziemlich gut

Verbindung mit Adressbuchseite

Skripte im Ordner data/2-volltext.
Die Daten dafür sind momentan nicht in der zugehörigen METS Datei zu finden.
Laden und extrahieren die Namen aus den Volltexten der ZLB und versuchen eine eindeutige Zuordnung zu finden (6 kurze Shellbefehle mit Standardtools).
Es klappt für etwa 50% der Einträge. Probleme sind einerseits mehrfach auftauchende Namen, andererseits Werbung oben auf der Seite, durch die der extrahierte Text kein Name ist.
Zuordnung in der Datei data/2-volltext/id-name-seite.tsv, zusammengeführt mit den Originaldaten bei Google Spreadsheets (im Blatt seite-erster müssen die #N/A Felder in der Spalte erste ID ausgefüllt werden).
Zuordnung zu Seitengenauen URNs und der angezeigten Seitennummer in liste-tabelle.tsv, auch vorhanden im Blatt seite-urn des Google Spreadsheet.

Suche

Im Suchschlitz kann nach Namen und Straßennamen gesucht werden.
Gibt es weniger als 1000 Treffer, werden nur diese angezeigt.
Eine Suche nach Stadtteil- oder Straßennamen, deckt etliche Geocodingfehler auf. (Komischerweise scheint mein lokales Nominatim schlechtere Ergebnisse zu liefern als das bei OpenStreetmap im Internet)

Wikidata

Skripte im Ordner data/3-wikidata.
Suchen aller Namen bei Wikidata; gecached in wikidataSearchCache.json
Laden der gefundenen Wikidata Items; gecached in wikidataIDCache.json (große Datei!)
erste Analyse von Namensübereinstimmung, passenden Lebensdaten und passendem Typ in wikidataResults.csv
Erster Eindruck: eine zuverlässige Zuordnung der Wikidata ID ist nicht automatisch möglich; mit diesen Vorarbeiten könnte sie aber einfacher werden. Die große Anzahl der Ergebnisse läßt die Aufgabe schlimmer aussehen als sie ist, da viele Zeilen wegen mehrfach auftretender Namen entstehen oder vom falschen Typ sind.

Ideen

Anzahl: Wie verhält sich die Anzahl der Adressbucheinträge zur Anzahl der Menschen? Nur ein Eintrag pro Familie?
Zeitgemäße Karten: läßt sich eine Karte aus der Zeit, z.B. aus dem Bestand der Alt Berlin Site oder den Stadtplan 1938 einbinden? Technische Schwierigkeiten? Sind das offene Daten?
Weitere Daten zu den Personen: Was wissen wir über ihr Schicksal? Was wurde im Rahmen von Stolperstadt schon festgestellt?
Heatmap (Screenshot 1, Screenshot 2): bringt nicht wirklich neue Information und ist mit (dieser) browserseitigen Bibliothek ziemlich langsam

Credits

Daten von der Zentral- und Landesbibliothek Berlin: Adressliste, Digitalisat
Inspiriert durch Coding da Vinci 2013
Umgesetzt von Sven-S. Porst, [email protected]

juedisches-adressbuch's People

Contributors

Stargazers

Watchers

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.