Work-In-Progress - Vorankündigung
Worum geht es?
Das Bundesarchiv hat unter der Signatur RH 7 OKH/Heerespersonalamt diverse Verleihungslisten online gestellt.
D.h. von verschiedensten Einheiten gibt es derzeit 667 Listen zum Kriegsverdienstkreuz und 686 Listen zum Eisernen Kreuz. Jede dieser Listen hat einen Umfang von grob 50-6000 (!!!) Seiten, wovon aber viele Seiten keine Namenslisten sind, sondern Administratives, Deckblätter, Leerblätter ect.. Trotzdem erwarten ich Hundertausende von Namen und mit diesen Funden kann man Einheit und Verleihungsdatum, Geburtsdatum erfahren - immerhin.
Die Seiten mit Namenslisten sind in einer Vielzahl von Tabellenformaten, uneinheitlich, schief und krum und da es Originale sind, mit einer Vielzahl von Tipp-Fehlern, Leerzeichen in den Namen, Geburtsdaten, Ortsangaben.
Trotzdem eignen sie sich gut für eine Texterkennung da es relativ klare, kontrastreiche Schreibschinenschrift ist.
Aufgrund technischer Einschränkungen ist in diesem Projekt nur eine Ganzseiten-Texterkennung angedacht. D.h. über jede Seite wird eine Texterkennung laufen gelassen. Der erkannte Text wird dann in eine Datenbank geschrieben (neben Signatur und Seitenzahl) und man kann dann eine Suche nach Texten vornehmen.
Da hier nur über den komplette Text einer Seite gesucht werdne kann und es keine getrennten Einträge prro Person in der Datenbank gibt, muss man hier auf eine exakte OCR-Erkennung hoffen, ansonsten kann es sein, das man hier über die Suche keinen Match erhält.
Technisches - Vorghehensweise, Implementierung
Wie auch bei den Vermisstbildlisten ist dieses Projekt mehr just-for-fun und Ausloten der technischen Möglichkeiten. Die Datenbank erhebt keinen Anspruch vollständig zu sein und die OCR-Erkennung wird viele Einträge nicht auffindbar machen. Da die Listen aber nach Einheiten sortiert sind, kann sich jeder im Zweifel selbst auf die Suche machen. Selbst suche ich keine Personen per se - aber falls meine Großväter/-onklel dort auftauchen sollten, nehme ich das natürlich mit.
Suchergebnisse, Abfrage
Anders als bei den Vermisstbildlisten ist eine Suche hier etwas aufwändiger, da man nur über eine komplette Seiten suchen kann und die Daten in den Tabellen oftmal mehrspaltig sind (was Nachnamen und Geburtsorte komplett auseinanderreissen kann). Auch geht hier vorerst keine Fuzzy-Suche (Suche nach ähnlich klingenden Namen). Soll heißen, hier wird die Suche viel mehr manuelles Gegenprüfen in den eigentlichen Unterlagen erfordern, aber mit der Signatur und Seitenzahl geht dies relativ gut, wenn auch viel langsamer als bei den Vermisstbildlisten.
Aktueller Stand
Das Projekt wurde erst heute gestartet (16.02.2025) und ich habe bisher 17 Listen abgearbeitet - was ca. 10K Einzelseiten entspricht. Download und OCR Erkennung werden also noch einige Zeit dauern, da ich dies nicht rund um die Uhr laufen lasse, weil ich möchte nebenbei auch noch an meinem PC arbeiten können und es auch nur bedingt tagsüber während meiner Abwesenheit durchrechnen will.
Updates folgen dann hier in den nächsten Tagen und Wochen.
Updates:
17.02.2025 - 9:00 Uhr: 58/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 34295 Seiten mit OCR
18.02.2025 - 8:00 Uhr: 173/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 84848 Seiten mit OCR (davon 19820 Leerseiten)
19.02.2025 - 8:00 Uhr: 319/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 133367 Seiten mit OCR (davon 33584 Leerseiten)
P.S. Unabhängig vom Rest, ich hab schon wieder so einen Hals, weil das Bundesarchiv mit Invenio das mit Abstand schlechteste Benutzerinterface der Welt erschaffen hat und daran festhält. Es ist und bleibt seit Jahren eine Frechheit was man einem da anbietet - benutzerfeindlich ist noch das nettestes Wort. Wer auch immer dafür verantwortlich ist, sollte sich in Grund und Boden schämen. Meine Fresse, was für ein Pfusch...
[Anmerkung: Angeblich soll es Mitte 2027 ein Update für Invenio geben, wo einige seit Jahren gewünschte Features endlich eingebaut werden. Bin ja mal gespannt wieviel meiner Featurewünsche die ich schon vor Jahren angefragt habe dann schlußendlich kommen. Aber die Entwicklungszeiten bei denen sind ja jenseits von Gut und Böse.]
Also, falls jemand noch einen Wunsch hat (für die Datenbank an sich, Ausgabemöglichkeiten), dann jetzt hier oder für immer schweigen
Hinweise von sonki aus Beitrag Nr. 84:
Worum geht es?
Das Bundesarchiv hat unter der Signatur RH 7 OKH/Heerespersonalamt diverse Verleihungslisten online gestellt.
D.h. von verschiedensten Einheiten gibt es derzeit 667 Listen zum Kriegsverdienstkreuz und 686 Listen zum Eisernen Kreuz. Jede dieser Listen hat einen Umfang von grob 50-6000 (!!!) Seiten, wovon aber viele Seiten keine Namenslisten sind, sondern Administratives, Deckblätter, Leerblätter ect.. Trotzdem erwarten ich Hundertausende von Namen und mit diesen Funden kann man Einheit und Verleihungsdatum, Geburtsdatum erfahren - immerhin.
Die Seiten mit Namenslisten sind in einer Vielzahl von Tabellenformaten, uneinheitlich, schief und krum und da es Originale sind, mit einer Vielzahl von Tipp-Fehlern, Leerzeichen in den Namen, Geburtsdaten, Ortsangaben.
Trotzdem eignen sie sich gut für eine Texterkennung da es relativ klare, kontrastreiche Schreibschinenschrift ist.
Aufgrund technischer Einschränkungen ist in diesem Projekt nur eine Ganzseiten-Texterkennung angedacht. D.h. über jede Seite wird eine Texterkennung laufen gelassen. Der erkannte Text wird dann in eine Datenbank geschrieben (neben Signatur und Seitenzahl) und man kann dann eine Suche nach Texten vornehmen.
Da hier nur über den komplette Text einer Seite gesucht werdne kann und es keine getrennten Einträge prro Person in der Datenbank gibt, muss man hier auf eine exakte OCR-Erkennung hoffen, ansonsten kann es sein, das man hier über die Suche keinen Match erhält.
Technisches - Vorghehensweise, Implementierung
- Manuelles Herunterladen der insgesamt 14 HTML-Übersichtsseiten Seiten beim Bundesarchiv (Pro Seiten 100 Listenverweise)
- Python-Script was diese 14 Seiten einlädt und die Signaturen extrahiert, den Downloadlink zusammensetzt & als json abspeichert
- Python-Script, welches alle 1353 Listen herunterlädt. Dies geschieht in Batches, da wir hier von einer Datenmenge >1TB reden - ganz genau kann ich es nicht sagen - hab das nur grob nach Prüfung von 50 Listen überschlagen, es gibt auch große Unterschiede im Umfang der Listen.
- Python-Script, welches mittels doctr und dem tilman-rassy/doctr-crnn-vgg16-bn-fascan-v1 Erkennungsmodel (spezialisiert für franz/deutsch) für jede Seite eine Texterkennung erstellt und es in einem Zwischenschritt pro Seite als .txt abspeichert. Mit tesseract hatte ich aus aktuell unklaren Gründen größere Probleme.
- Python-Script, welches diese .txt Daten dann in eine DB schreibt - dies kann, wie auch Download & OCR inkrementiell geschehen, damit ich jederzeit die Prozesse neu starten kann, ohne bereits fertige Seiten neu zu berechnen.
- Python-Script, welches nun die DB abfragen kann, inklusive zusätzliche Filter.
Wie auch bei den Vermisstbildlisten ist dieses Projekt mehr just-for-fun und Ausloten der technischen Möglichkeiten. Die Datenbank erhebt keinen Anspruch vollständig zu sein und die OCR-Erkennung wird viele Einträge nicht auffindbar machen. Da die Listen aber nach Einheiten sortiert sind, kann sich jeder im Zweifel selbst auf die Suche machen. Selbst suche ich keine Personen per se - aber falls meine Großväter/-onklel dort auftauchen sollten, nehme ich das natürlich mit.
Suchergebnisse, Abfrage
Anders als bei den Vermisstbildlisten ist eine Suche hier etwas aufwändiger, da man nur über eine komplette Seiten suchen kann und die Daten in den Tabellen oftmal mehrspaltig sind (was Nachnamen und Geburtsorte komplett auseinanderreissen kann). Auch geht hier vorerst keine Fuzzy-Suche (Suche nach ähnlich klingenden Namen). Soll heißen, hier wird die Suche viel mehr manuelles Gegenprüfen in den eigentlichen Unterlagen erfordern, aber mit der Signatur und Seitenzahl geht dies relativ gut, wenn auch viel langsamer als bei den Vermisstbildlisten.
Aktueller Stand
Das Projekt wurde erst heute gestartet (16.02.2025) und ich habe bisher 17 Listen abgearbeitet - was ca. 10K Einzelseiten entspricht. Download und OCR Erkennung werden also noch einige Zeit dauern, da ich dies nicht rund um die Uhr laufen lasse, weil ich möchte nebenbei auch noch an meinem PC arbeiten können und es auch nur bedingt tagsüber während meiner Abwesenheit durchrechnen will.
Updates folgen dann hier in den nächsten Tagen und Wochen.
Updates:
17.02.2025 - 9:00 Uhr: 58/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 34295 Seiten mit OCR
18.02.2025 - 8:00 Uhr: 173/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 84848 Seiten mit OCR (davon 19820 Leerseiten)
19.02.2025 - 8:00 Uhr: 319/667 (Kriegsverdienstkreuz) | 0/686 (EK) | 133367 Seiten mit OCR (davon 33584 Leerseiten)
P.S. Unabhängig vom Rest, ich hab schon wieder so einen Hals, weil das Bundesarchiv mit Invenio das mit Abstand schlechteste Benutzerinterface der Welt erschaffen hat und daran festhält. Es ist und bleibt seit Jahren eine Frechheit was man einem da anbietet - benutzerfeindlich ist noch das nettestes Wort. Wer auch immer dafür verantwortlich ist, sollte sich in Grund und Boden schämen. Meine Fresse, was für ein Pfusch...
[Anmerkung: Angeblich soll es Mitte 2027 ein Update für Invenio geben, wo einige seit Jahren gewünschte Features endlich eingebaut werden. Bin ja mal gespannt wieviel meiner Featurewünsche die ich schon vor Jahren angefragt habe dann schlußendlich kommen. Aber die Entwicklungszeiten bei denen sind ja jenseits von Gut und Böse.]
Also, falls jemand noch einen Wunsch hat (für die Datenbank an sich, Ausgabemöglichkeiten), dann jetzt hier oder für immer schweigen

Hinweise von sonki aus Beitrag Nr. 84:
Zitat von sonki
Beitrag anzeigen
Kommentar