Hallo!
Da mich rein aus Neugier intereserte ob in den Vermisstbildlisten bestimmte Namen auftauchen, aber man auf der Seite vom Roten Kreuz nur nach Einheiten oder Feldpostnummer suchen kann, hab ich mal rein aus Spaß und weil ich die technischen Möglichkeiten ausloten wollte, ein kleines Projekt gestartet.
Sprich, ich wollte eine Datenbank der Einträge die ich nach Namen oder z.b. Geburtsdatum durchsuchen kann - grade weil man meist erstmal keine Informationen über die Einheit oder FPN hat.
Lange Rede, kurzer Sinn - was hab ich gemacht:
1. Anhand von 20 Beispielseiten mittels Machine-Learning ein Erkennungsmodel für die Namensblöcke erstellt (siehe Beispielbild).
2. Dieses Model über alle Seiten gejagt und über jeden gefunden Namensblock eine OCR Texterkennung (hier mit tesseract) laufen lassen.
3. Das ganze dann in eine Datenbank geschrieben die ich halb direkt, halb indirekt abfragen kann.
Unabhängig von der Genauigkeit der OCR Text-Erkennung, habe ich grob in etwa eine Erfassungsquote von 99.x%, d.h. in der Datenbank sind nun 1.322.838 Einträge.
Die Text-Erkennung ist mittelmäßg bis gut, da die Ausgangsbilder halt krumm und schief eingescannte s/w Bilder sind wo der Text dunkelgrau auf hellgrau ist. Aber im groben sieht es recht ok aus, zumindestens bei den Namen. Bei den Geburtsdaten sieht die Erkennung schon etwas schlechter aus, aber naja, immer noch ok. Die restlichen Informationen im Textblock hab ich nicht getrennt in der Datenbank, sondern so wie erkannt einfach in die DB geschrieben. Die ganzen Text-Erkennung auch ohne großartige Optimierungen oder dergleichen - quasi out-of-box.
Da technische und andere Gründe gegen eine Online-Datenbank sprechen, biete ich hier einfach mal an, das wenn jemand wissen möchte ob Person X mit Geburtsdatum Y in den Listen vorkommt hier im Thread einfach die Daten reinzuschreiben und ich schau dann mal über die DB und wenn ich was finde, würde ich den Band und die Seitenzahl angeben, so daß dann jeder schnell und einfach die Person finden kann.
Aber wie gesagt, bei der Masse an Einträgen kann ich natürlich nur bedingt Aussagen über die Qualität der Erkennung machen - Stichproben zeigten aber annnehmbare Ergebnisse. Im Endeffekt ging es mir nur um eine Suchhilfe - nicht um eine 100% exakte Datenbank. So eine Beispielabfrage nach "Anton" sieht dann so aus wie im 2. Screenshot - hier auch nur die Ergebnisse aus dem Band L.
P.S. Habe das in einer Antwort weiter unten schon erwähnt - es gelten natürlich die ünlichen Einschränkungen was in den VBLs enthalten ist. Insbesondere Personen die in der DDR lebten, konnten dort keine Einträge vornehmen lassen.
Update: Suche um Soundex und Fuzzy Search erweitert, sowie um zusätzliche String-Filter über die Suchergebnisse.
Da mich rein aus Neugier intereserte ob in den Vermisstbildlisten bestimmte Namen auftauchen, aber man auf der Seite vom Roten Kreuz nur nach Einheiten oder Feldpostnummer suchen kann, hab ich mal rein aus Spaß und weil ich die technischen Möglichkeiten ausloten wollte, ein kleines Projekt gestartet.
Sprich, ich wollte eine Datenbank der Einträge die ich nach Namen oder z.b. Geburtsdatum durchsuchen kann - grade weil man meist erstmal keine Informationen über die Einheit oder FPN hat.
Lange Rede, kurzer Sinn - was hab ich gemacht:
1. Anhand von 20 Beispielseiten mittels Machine-Learning ein Erkennungsmodel für die Namensblöcke erstellt (siehe Beispielbild).
2. Dieses Model über alle Seiten gejagt und über jeden gefunden Namensblock eine OCR Texterkennung (hier mit tesseract) laufen lassen.
3. Das ganze dann in eine Datenbank geschrieben die ich halb direkt, halb indirekt abfragen kann.
Unabhängig von der Genauigkeit der OCR Text-Erkennung, habe ich grob in etwa eine Erfassungsquote von 99.x%, d.h. in der Datenbank sind nun 1.322.838 Einträge.
Die Text-Erkennung ist mittelmäßg bis gut, da die Ausgangsbilder halt krumm und schief eingescannte s/w Bilder sind wo der Text dunkelgrau auf hellgrau ist. Aber im groben sieht es recht ok aus, zumindestens bei den Namen. Bei den Geburtsdaten sieht die Erkennung schon etwas schlechter aus, aber naja, immer noch ok. Die restlichen Informationen im Textblock hab ich nicht getrennt in der Datenbank, sondern so wie erkannt einfach in die DB geschrieben. Die ganzen Text-Erkennung auch ohne großartige Optimierungen oder dergleichen - quasi out-of-box.
Da technische und andere Gründe gegen eine Online-Datenbank sprechen, biete ich hier einfach mal an, das wenn jemand wissen möchte ob Person X mit Geburtsdatum Y in den Listen vorkommt hier im Thread einfach die Daten reinzuschreiben und ich schau dann mal über die DB und wenn ich was finde, würde ich den Band und die Seitenzahl angeben, so daß dann jeder schnell und einfach die Person finden kann.
Aber wie gesagt, bei der Masse an Einträgen kann ich natürlich nur bedingt Aussagen über die Qualität der Erkennung machen - Stichproben zeigten aber annnehmbare Ergebnisse. Im Endeffekt ging es mir nur um eine Suchhilfe - nicht um eine 100% exakte Datenbank. So eine Beispielabfrage nach "Anton" sieht dann so aus wie im 2. Screenshot - hier auch nur die Ergebnisse aus dem Band L.
P.S. Habe das in einer Antwort weiter unten schon erwähnt - es gelten natürlich die ünlichen Einschränkungen was in den VBLs enthalten ist. Insbesondere Personen die in der DDR lebten, konnten dort keine Einträge vornehmen lassen.
Update: Suche um Soundex und Fuzzy Search erweitert, sowie um zusätzliche String-Filter über die Suchergebnisse.
Kommentar