#501  
Alt 01.05.2020, 22:00
sonki sonki ist offline
Erfahrener Benutzer
 
Registriert seit: 10.05.2018
Beiträge: 3.784
Standard

Zitat:
Zitat von OlliL Beitrag anzeigen
Wie gehst du vor?
'n Abend

prinzipiell gehe ich so vor wie du geschrieben hast. Ich habe die URLs zu den Übersichtsseiten der einzelnen Archive als feste Liste.
Diese Liste arbeite ich einzeln ab, also Archiv für Archiv.

Beispiel: Archiv Oppeln
URL: https://www.szukajwarchiwach.gov.pl/...-opolu/zespoly

Ich lese also diese Seite aus und ermittel zuerst die Anzahl der Seiten - hier also 203. Dann gehe ich in einer Schleife von 1-203 alle Unterseiten durch und lese zuerst die Liste der Hauptsignaturen mit Titel und ihrer Scananzahl aus.

Beispiel:
45/20/0 Akta miasta Nysy (Scans: 534)

Hat sich die Scananzahl im Vergleich zum vorherigen Durchlauf geändert (oder ist es die erste Prüfung dieses Archives überhaupt), wird nun jede einzelne Signatur aufgerufen und auch dort wieder die Titel und die Anzahl der Scans ermittelt.

Beispiel: 45/20/0 Akta miasta Nysy
https://www.szukajwarchiwach.gov.pl/..._zespolu=44129

Hier stehen nun die Serien.
Beispiel: 1 Akta sądowe

Auch dort muss man wieder in jede Serie hinein.
https://www.szukajwarchiwach.gov.pl/...d_serii=243373
Dort dann wie schon zuvor wieder alle Seiten durchgehen und die Titel + Scanzahl ermitteln.

All diese Werte landen in einer Datenbank (der Einfachheithalber habe ich eine einfache sqlite3 DB genommen - deutlich weniger Aufwand als SQL und vollkommen ausreichend).
Damit so eine Prüfung nicht Ewigkeiten dauert (pro Archiv kann es Tausende von Unterseiten geben) wird das Ganze noch per Threads beschleunigt - in meinem Fall lasse ich 10 Seiten gleichzeitig prüfen.

So in etwa meine Vorgehensweise. Ich hoffe das war einigermaßen verständlich erklärt. Im Endeffekt ein rekursiver Webcrawler....

P.S. Stettin prüfe ich auch, aber da ist in den letzten Monaten nichts passiert.

Geändert von sonki (01.05.2020 um 22:07 Uhr)
Mit Zitat antworten
  #502  
Alt 01.05.2020, 22:26
Benutzerbild von OlliL
OlliL OlliL ist gerade online männlich
Erfahrener Benutzer
 
Registriert seit: 11.02.2017
Ort: NRW
Beiträge: 4.067
Standard

Moin,


warum prüfst du die einzelne Einheit dann nochmal? Nur um genau zu wissen welche einzelne Akte neu hochgegangen ist?


Man kann die auf den Unterseiten des Archives angezeigten Einheiten auf bis zu 200 erhöhen - dann sind es weniger Seite und in Summe evtl. schneller und weniger Load für den Webserver der Seite...



Habe auch überlegt, das man abbrechen könnte sobald man Änderungen gefunden hat, die berücksichtigt mit der aktuellen Gesamtzahl der Scans, die alte Zahl aus dem letzten Lauf matcht.


Also..... letzter Test 1000 Scans over-all. Neuer Durchlauf Gesamtzahl der Scans hat sich auf 1010 erhöht - man prüft nun im Detail - irgendwann findet man eine Sammlung die 10 Scans mehr ausweist. Man könnte nun theoretisch aufhören weiter zu suchen.


Das klappt natürlich nur wenn man auch alle Archive prüft, und wenn man in Kauf nimmt, das es zu Unschärfen kommen kann (wenn z.B. 10 online kommen, aber woanders 20 offline gehen und wieder woanders 20 online gehen - wenn man dann nach den ersten 10 aufhören würde........)


In welcher Sprache hast du es implementiert?



Viele Grüße,
OlliL
Mit Zitat antworten
  #503  
Alt 01.05.2020, 22:39
sonki sonki ist offline
Erfahrener Benutzer
 
Registriert seit: 10.05.2018
Beiträge: 3.784
Standard

1. Also beim ersten Durchlauf ermittel ich alles exakt bis auf die kleinste Einheit. Bei nachfolgenden Prüfungen teste ich erstmal nur auf Änderung in der übergeordneten Signatur. Wenn sich dort etwas an der Scananzahl ändert, prüfe ich auch die Untersignaturen um die exakte Änderung festzustellen. Es gibt nämlich Einheiten wo es tausende Akten gibt. Da bringt es mir nicht zu wissen das sich eine von diesen geändert hat, daher diese exakte Prüfung.
2. Ja, ich nutze hierzu bereits 200 Ergebnisse pro Seite (ist ja ein kleiner Geheimtipp auf szukajwarchiwach).
3. Geschrieben in Python3 als einfaches Konsolenprogramm. Komme da so grob auf 380 Zeilen - also vergleichsweise übersichtlich.

P.S. Ich hatte vorhin Blödsinn erzählt und das mit einem anderen Programm von mir verwechselt. Ich nutze gar keine Datenbank (auch kein sqlite), sondern einfache json Textdateien. Die Dateien sind da max. 10MB groß. Das ist ja nix, wo man zwangsläufig eine DB braucht und macht die Implementierung nochmal etwas einfacher.

Geändert von sonki (01.05.2020 um 22:45 Uhr)
Mit Zitat antworten
  #504  
Alt 02.05.2020, 11:08
Benutzerbild von Horst von Linie 1
Horst von Linie 1 Horst von Linie 1 ist offline
Erfahrener Benutzer
 
Registriert seit: 12.09.2017
Beiträge: 14.191
Standard

Guten Tag,
wer kann mir bitte sagen, welche Standesamtsregister relativ lückenlos in jüngster Zeit (innert acht Wochen) online gegangen sind aus Orten, die überwiegend von Evangelischen bewohnt wurden?
Kann auch gerne Oberschlesien sein .
__________________
Falls im Eifer des Gefechts die Anrede mal wieder vergessen gegangen sein sollte, wird sie hiermit mit dem Ausdruck allergrößten Bedauerns in folgender Art und Weise nachgeholt:
Guten Morgen/Mittag/Tag/Abend. Grüß Gott! Servus.
Gude. Tach. Juten Tach. Hi. Hallo.

Und zum Schluss:
Freundliche Grüße.
Mit Zitat antworten
  #505  
Alt 02.05.2020, 11:59
sonki sonki ist offline
Erfahrener Benutzer
 
Registriert seit: 10.05.2018
Beiträge: 3.784
Standard

Zitat:
Zitat von Horst von Linie 1 Beitrag anzeigen
Guten Tag,
wer kann mir bitte sagen, welche Standesamtsregister relativ lückenlos in jüngster Zeit (innert acht Wochen) online gegangen sind aus Orten, die überwiegend von Evangelischen bewohnt wurden?
Kann auch gerne Oberschlesien sein .
Eine sehr spezielle Anfrage.
Kannst ja hier die alten Beiträge bis vor 8 Wochen nachlesen. Alles was da Oberschlesien ist, kannste aber getrost eher in die Kategorie "mehrheitlich katholisch" packen. Aus Niederschlesien, wo es regional z.T. eher Richtung evg. ging, war kaum oder überhaupt nichts dabei.
Pommern war auch nix (da besteht ja vergleichsweise die größte Wahrscheinlichkeit für überwiegend evg. Regionen).

P.S. Mich würde ja jetzt schon der Grund dieser äh sehr eigenwilligen Frage interessieren.

Geändert von sonki (02.05.2020 um 12:02 Uhr)
Mit Zitat antworten
  #506  
Alt 02.05.2020, 12:17
Benutzerbild von Horst von Linie 1
Horst von Linie 1 Horst von Linie 1 ist offline
Erfahrener Benutzer
 
Registriert seit: 12.09.2017
Beiträge: 14.191
Standard

Guten Tag,
ich forsche selber in Niederschlesien und habe dort evangelische Vorfahren (in die Zeit vor der Reformation konnte ich bislang nicht vordringen).

Es scheint ja in Oberschlesien auch einige wenige Dörfer mit evangelischer Bevölkerungsmehrheit (und sogar polnischen Familiennamen) gegeben zu haben. Und dort hätte ich mir gerne mal die Bücher angesehen.
Daher meine "sehr spezielle" Frage.
__________________
Falls im Eifer des Gefechts die Anrede mal wieder vergessen gegangen sein sollte, wird sie hiermit mit dem Ausdruck allergrößten Bedauerns in folgender Art und Weise nachgeholt:
Guten Morgen/Mittag/Tag/Abend. Grüß Gott! Servus.
Gude. Tach. Juten Tach. Hi. Hallo.

Und zum Schluss:
Freundliche Grüße.
Mit Zitat antworten
  #507  
Alt 02.05.2020, 12:34
VGS
Gast
 
Beiträge: n/a
Standard

Hallo Horst,

1895 gab es im RegBez. Oppeln etwa 9 % Ev. Nur im Kreis Kreuzburg (früher Fürstentum Brieg) gab es mehr Ev. als Kath. Die wenigsten Ev. gab es relativ zu den Kath. im Krs. Lublinitz. Die meisten Ev. gab es relativ zu den Kath. im Krs. Falkenberg. Danach vielleicht Neustadt u. Neisse. Wenn solltest Du also im Krs. Falkenberg, dann Neustadt u. Neisse schauen.

Besser wäre es aber, die SS1927 durchzusehen, da finden sich die Angaben auf Gemeindegröße.

Grüße
Susanne.
Mit Zitat antworten
  #508  
Alt 02.05.2020, 14:47
Benutzerbild von Horst von Linie 1
Horst von Linie 1 Horst von Linie 1 ist offline
Erfahrener Benutzer
 
Registriert seit: 12.09.2017
Beiträge: 14.191
Standard

Zitat:
Zitat von SusanneVonG Beitrag anzeigen
Nur im Kreis Kreuzburg (früher Fürstentum Brieg) gab es mehr Ev. als Kath.
Guten Tag und vielen Dank.
Da werde ich mal weiter ansetzen.
__________________
Falls im Eifer des Gefechts die Anrede mal wieder vergessen gegangen sein sollte, wird sie hiermit mit dem Ausdruck allergrößten Bedauerns in folgender Art und Weise nachgeholt:
Guten Morgen/Mittag/Tag/Abend. Grüß Gott! Servus.
Gude. Tach. Juten Tach. Hi. Hallo.

Und zum Schluss:
Freundliche Grüße.
Mit Zitat antworten
  #509  
Alt 02.05.2020, 16:01
Benutzerbild von Silke Schieske
Silke Schieske Silke Schieske ist offline
Erfahrener Benutzer
 
Registriert seit: 02.11.2009
Ort: Arendsee/Altm.
Beiträge: 4.378
Standard

Zitat:
Zitat von sonki Beitrag anzeigen
Oh, interessant!

Hoffentlich schafft es das Archiv Breslau mal was aus ihren Filialen hochzuladen, also aus den Außenstellen Löwenberg oder Hirschberg. Da ist in all den Jahren sehr wenig bis garnichts passiert. Hoffen wir mal das Beste!

Hallo Sonki,


Sollte es zu Hirschberg tatsächlich mal was online geben würde ich mich über einen Hinweis dazu freuen.


LG Silke
__________________
Wir haben alle was gemeinsam.
Wir sind hier alle auf der Suche, können nicht hellsehen und müssen zwischendurch auch mal Essen und Schlafen.
Mit Zitat antworten
  #510  
Alt 02.05.2020, 16:06
Benutzerbild von OlliL
OlliL OlliL ist gerade online männlich
Erfahrener Benutzer
 
Registriert seit: 11.02.2017
Ort: NRW
Beiträge: 4.067
Standard

Moin sonki,


Zitat:
Zitat von sonki Beitrag anzeigen
'n Abend

prinzipiell g
Hier stehen nun die Serien.
Beispiel: 1 Akta sądowe

Auch dort muss man wieder in jede Serie hinein.

https://www.szukajwarchiwach.gov.pl/..._zespolu=48998


In Breslau gibt es ja so Serien
1
1.1
1.2
1.3
...


Wobei 1 eigentlich nochmal eine Art "Überserie" ist - die würde ich gerne ignorieren. Mir fällt auf, das diese "Überserien" keine Jahreszahlangaben haben - kann man das als Ausschlusskriterium nehmen um die zu ignorieren? Oder gibt es auch Serien die keine Jahresangaben haben?
Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.

Gehe zu

Alle Zeitangaben in WEZ +2. Es ist jetzt 16:33 Uhr.