Registrieren | Hilfe | Chat | Benutzerliste | Team | Kalender | Suchen | Heutige Beiträge | Alle Foren als gelesen markieren |
#501
|
|||
|
|||
![]()
'n Abend
prinzipiell gehe ich so vor wie du geschrieben hast. Ich habe die URLs zu den Übersichtsseiten der einzelnen Archive als feste Liste. Diese Liste arbeite ich einzeln ab, also Archiv für Archiv. Beispiel: Archiv Oppeln URL: https://www.szukajwarchiwach.gov.pl/...-opolu/zespoly Ich lese also diese Seite aus und ermittel zuerst die Anzahl der Seiten - hier also 203. Dann gehe ich in einer Schleife von 1-203 alle Unterseiten durch und lese zuerst die Liste der Hauptsignaturen mit Titel und ihrer Scananzahl aus. Beispiel: 45/20/0 Akta miasta Nysy (Scans: 534) Hat sich die Scananzahl im Vergleich zum vorherigen Durchlauf geändert (oder ist es die erste Prüfung dieses Archives überhaupt), wird nun jede einzelne Signatur aufgerufen und auch dort wieder die Titel und die Anzahl der Scans ermittelt. Beispiel: 45/20/0 Akta miasta Nysy https://www.szukajwarchiwach.gov.pl/..._zespolu=44129 Hier stehen nun die Serien. Beispiel: 1 Akta sądowe Auch dort muss man wieder in jede Serie hinein. https://www.szukajwarchiwach.gov.pl/...d_serii=243373 Dort dann wie schon zuvor wieder alle Seiten durchgehen und die Titel + Scanzahl ermitteln. All diese Werte landen in einer Datenbank (der Einfachheithalber habe ich eine einfache sqlite3 DB genommen - deutlich weniger Aufwand als SQL und vollkommen ausreichend). Damit so eine Prüfung nicht Ewigkeiten dauert (pro Archiv kann es Tausende von Unterseiten geben) wird das Ganze noch per Threads beschleunigt - in meinem Fall lasse ich 10 Seiten gleichzeitig prüfen. So in etwa meine Vorgehensweise. Ich hoffe das war einigermaßen verständlich erklärt. Im Endeffekt ein rekursiver Webcrawler.... P.S. Stettin prüfe ich auch, aber da ist in den letzten Monaten nichts passiert. Geändert von sonki (01.05.2020 um 22:07 Uhr) |
#502
|
||||
|
||||
![]() Moin,
warum prüfst du die einzelne Einheit dann nochmal? Nur um genau zu wissen welche einzelne Akte neu hochgegangen ist? Man kann die auf den Unterseiten des Archives angezeigten Einheiten auf bis zu 200 erhöhen - dann sind es weniger Seite und in Summe evtl. schneller und weniger Load für den Webserver der Seite... Habe auch überlegt, das man abbrechen könnte sobald man Änderungen gefunden hat, die berücksichtigt mit der aktuellen Gesamtzahl der Scans, die alte Zahl aus dem letzten Lauf matcht. Also..... letzter Test 1000 Scans over-all. Neuer Durchlauf Gesamtzahl der Scans hat sich auf 1010 erhöht - man prüft nun im Detail - irgendwann findet man eine Sammlung die 10 Scans mehr ausweist. Man könnte nun theoretisch aufhören weiter zu suchen. Das klappt natürlich nur wenn man auch alle Archive prüft, und wenn man in Kauf nimmt, das es zu Unschärfen kommen kann (wenn z.B. 10 online kommen, aber woanders 20 offline gehen und wieder woanders 20 online gehen - wenn man dann nach den ersten 10 aufhören würde........) In welcher Sprache hast du es implementiert? Viele Grüße, OlliL |
#503
|
|||
|
|||
![]() 1. Also beim ersten Durchlauf ermittel ich alles exakt bis auf die kleinste Einheit. Bei nachfolgenden Prüfungen teste ich erstmal nur auf Änderung in der übergeordneten Signatur. Wenn sich dort etwas an der Scananzahl ändert, prüfe ich auch die Untersignaturen um die exakte Änderung festzustellen. Es gibt nämlich Einheiten wo es tausende Akten gibt. Da bringt es mir nicht zu wissen das sich eine von diesen geändert hat, daher diese exakte Prüfung.
2. Ja, ich nutze hierzu bereits 200 Ergebnisse pro Seite (ist ja ein kleiner Geheimtipp auf szukajwarchiwach). 3. Geschrieben in Python3 als einfaches Konsolenprogramm. Komme da so grob auf 380 Zeilen - also vergleichsweise übersichtlich. P.S. Ich hatte vorhin Blödsinn erzählt und das mit einem anderen Programm von mir verwechselt. Ich nutze gar keine Datenbank (auch kein sqlite), sondern einfache json Textdateien. Die Dateien sind da max. 10MB groß. Das ist ja nix, wo man zwangsläufig eine DB braucht und macht die Implementierung nochmal etwas einfacher. Geändert von sonki (01.05.2020 um 22:45 Uhr) |
#504
|
||||
|
||||
![]() Guten Tag,
wer kann mir bitte sagen, welche Standesamtsregister relativ lückenlos in jüngster Zeit (innert acht Wochen) online gegangen sind aus Orten, die überwiegend von Evangelischen bewohnt wurden? Kann auch gerne Oberschlesien sein ![]() |
#505
|
|||
|
|||
![]() Zitat:
![]() Kannst ja hier die alten Beiträge bis vor 8 Wochen nachlesen. Alles was da Oberschlesien ist, kannste aber getrost eher in die Kategorie "mehrheitlich katholisch" packen. Aus Niederschlesien, wo es regional z.T. eher Richtung evg. ging, war kaum oder überhaupt nichts dabei. Pommern war auch nix (da besteht ja vergleichsweise die größte Wahrscheinlichkeit für überwiegend evg. Regionen). P.S. Mich würde ja jetzt schon der Grund dieser äh sehr eigenwilligen Frage interessieren. Geändert von sonki (02.05.2020 um 12:02 Uhr) |
#506
|
||||
|
||||
![]() Guten Tag,
ich forsche selber in Niederschlesien und habe dort evangelische Vorfahren (in die Zeit vor der Reformation konnte ich bislang nicht vordringen). Es scheint ja in Oberschlesien auch einige wenige Dörfer mit evangelischer Bevölkerungsmehrheit (und sogar polnischen Familiennamen) gegeben zu haben. Und dort hätte ich mir gerne mal die Bücher angesehen. Daher meine "sehr spezielle" Frage. |
#507
|
|||
|
|||
![]() Hallo Horst,
1895 gab es im RegBez. Oppeln etwa 9 % Ev. Nur im Kreis Kreuzburg (früher Fürstentum Brieg) gab es mehr Ev. als Kath. Die wenigsten Ev. gab es relativ zu den Kath. im Krs. Lublinitz. Die meisten Ev. gab es relativ zu den Kath. im Krs. Falkenberg. Danach vielleicht Neustadt u. Neisse. Wenn solltest Du also im Krs. Falkenberg, dann Neustadt u. Neisse schauen. Besser wäre es aber, die SS1927 durchzusehen, da finden sich die Angaben auf Gemeindegröße. Grüße Susanne. |
#508
|
||||
|
||||
![]() Zitat:
Da werde ich mal weiter ansetzen. |
#509
|
||||
|
||||
![]() Zitat:
Hallo Sonki, Sollte es zu Hirschberg tatsächlich mal was online geben würde ich mich über einen Hinweis dazu freuen. ![]() LG Silke |
#510
|
||||
|
||||
![]() Moin sonki,
Zitat:
https://www.szukajwarchiwach.gov.pl/..._zespolu=48998 In Breslau gibt es ja so Serien 1 1.1 1.2 1.3 ... Wobei 1 eigentlich nochmal eine Art "Überserie" ist - die würde ich gerne ignorieren. Mir fällt auf, das diese "Überserien" keine Jahreszahlangaben haben - kann man das als Ausschlusskriterium nehmen um die zu ignorieren? Oder gibt es auch Serien die keine Jahresangaben haben? |
![]() |
Lesezeichen |
Themen-Optionen | Thema durchsuchen |
Ansicht | |
|
|