Neue Scans auf szukajwarchiwach.pl

**OlliL** · 17.11.2025, 16:25

sonki - nun gibts ein schönes Captcha beim Einstieg auf die Seite. Hast du das schon irgendwie "umschifft"?

**sonki** · 17.11.2025, 16:39

Zitat von OlliL

sonki - nun gibts ein schönes Captcha beim Einstieg auf die Seite. Hast du das schon irgendwie "umschifft"?

Hab noch keines bekommen. Die haben aber seit ein paar Tagen ständig Connection Fehler und wohl neuerdings irgendeine WAF FW, da haben sich schon viele auf FB beschwert...ich glaub da wird grad noch rumgebastelt...mal schauen was das nun wieder wird

**OlliL** · 17.11.2025, 17:23

Mh - mal abwarten.
Hatte heute erstmalig das von extern eingekaufte "sind sie ein Mensch?"-Captcha.
Die Cookies ausm Browser zu kopieren und zu verwenden hat erstmal geholfen. Hab mich erst durch die ganzen iframes gehangelt aber dann doch das tiefere Interesse erstmal verloren.
Mal beobachten.... Wollte jetzt ungerne mit Selenium anfangen.

**sonki** · 17.11.2025, 17:43

Die nutzen jetzt(?) ein CDN von Imperva...inclusive deren WAF. Na gucken wir mal wohin die Reise geht...wie üblich war der Social Media Account von denen mal wieder komplett überrascht und weiß von nix...da weiß mal wieder die linke Hand nicht was die rechte macht...

Update: Ja, meine Prüfscripte gehen nun nicht mehr...und auf Selenium & Co. hab ich keine Lust. Tja, dann ist dieses Kapitel auch erstmal wieder vorbei.
Und ja, Bot-Protection von Imperva (früher Incapsula), da kommt man auch mit Selenium nur noch bedingt gegen an. Und das alles, weil immer mehr Webseiten keine vernünftigen APIs bereitstellen und die Leute dann alles mühsam scrapen müssen/wollen. Und der Management-chatgpt-Generation fällt dann nur noch ein, eine Bot-Protection vorzuschalten.....

**Weltenwanderer** · 18.11.2025, 15:07

Hallo,

die Liste für Oktober ist nun raus:

https://www.nac.gov.pl/wp-content/uploads/2025/11/swa_nowe_skany_2025-10.xlsx

Für die Schlesien-Forscher:

85/20/0 Kaiser-Friedrich-Gedächtnis-Kirche Liegnitz
85/25/0 Kirchenbücher aus dem Kreis Goldberg
85/3/0 verschiedene Bürgerbücher aus Liegnitz

**OlliL** · 01.12.2025, 17:55

sonki - es reicht einfach das Cookie "incap_ses_<zahlen>_<zahlen>" mitzuschicken. Dann klappt der Zugriff wieder. Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder....

Aber ja - absolut unverständlich wiso die nicht einfach n feed auf ihrer Seite veröffentlichen sondern irgendwelche Excel-Sheets generieren einmal im Monat.... was ein Aufwand. Ne API wäre ja sogar noch Luxus... eigentlich will doch jeder nur zeitnah wissen wenn was neues veröffentlicht wurde oder wenn irgendwo Scans online gestellt wurden. Selbst Archion bekommt das ja irgendwie hin....

Was mich wundert - keinerlei Updates seit 14.11. bei den bei mir untersuchten Archiven...

Code:

+----+---------------------------------------------------------------------+
| id | name                                                                |
+----+---------------------------------------------------------------------+
| 34 | Archiwum Państwowe w Lesznie                                        |
| 42 | Archiwum Państwowe w Olsztynie                                      |
| 45 | Archiwum Państwowe w Opolu                                          |
| 65 | Archiwum Państwowe w Szczecinie                                     |
| 82 | Archiwum Państwowe we Wrocławiu                                     |
| 83 | Archiwum Państwowe we Wrocławiu Oddział w Jeleniej Górze            |
| 84 | Archiwum Państwowe we Wrocławiu Oddział w Kamieńcu Ząbkowickim      |
| 85 | Archiwum Państwowe we Wrocławiu Oddział w Legnicy                   |
| 86 | Archiwum Państwowe we Wrocławiu Oddział w Bolesławcu                |
| 89 | Archiwum Państwowe w Zielonej Górze                                 |
+----+---------------------------------------------------------------------+

**sonki** · 01.12.2025, 18:21

Zitat von OlliL

es reicht einfach das Cookie "incap_ses_<zahlen>_<zahlen>" mitzuschicken. Dann klappt der Zugriff wieder. Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder....

Hmmpfhh...ich hatte zwischenzeitlich doch mal ein Script geschrieben was playwright nutzt (sowas wie selenium). Aber das ist natürlich deutlich langsamer, so daß ich nur noch die für mich persönlich relevanten Archive teste. Aber wenn das natürlich auch weiterhin mit dem alten Script geht, wenn man es mit einem Cookie füttert, erleichtert das natürlich wieder etwas.

Zitat von OlliL

Aber ja - absolut unverständlich wiso die nicht einfach n feed auf ihrer Seite veröffentlichen sondern irgendwelche Excel-Sheets generieren einmal im Monat.... was ein Aufwand. Ne API wäre ja sogar noch Luxus... eigentlich will doch jeder nur zeitnah wissen wenn was neues veröffentlicht wurde oder wenn irgendwo Scans online gestellt wurden. Selbst Archion bekommt das ja irgendwie hin....

Tja, öffentlicher Dienst, da verdienen sich halt ein paar IT Firmen dumm und dämlich und brauchen dafür nicht mal was vernünftiges liefern.Ist ja hier nicht anders, siehe u.a. Invenio vom Bundesarchiv. Die Ausreden die ich da schon hören musste, warum dies oder das kein Feature ist....abenteuerlich ist kein Wort dafür.

**sonki** · 01.12.2025, 19:26

Zitat von OlliL

...Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder...

Danke nochnmal für den Tipp mit den Cookie. Hab jetzt wieder mein altes Script in Betrieb was einfach vorher via subprocess Chome im headless mode startet, szuka aufruft, dann die cookies ausliest, Chrome wieder schließt und dann das alte script weiter wie gewohnt ausführt. Läuft perfekt und das kurze Geplänkel mit headless Chome starten/stoppen dauert nur wenige Sekunden..
Hatte es erst mit Firefox probiert, aber FF speichert session cookies nicht in der sqlitedb und man kommt da nicht gut ran. Mit Chrome ist das einfacher, kann also headless im debugging mode vom python script gestartet werden und dann ruckizuck hat man die cookies.

**OlliL** · 01.12.2025, 20:41

Und das ist dann halt immer das Ding - kaufste dir teure Schlangenöl-Lösungen ein "weil jetzt ist endlich alles sicher!!!" und dann.... ja dann verwendest du einfach den Cookie.... lachhaft. Will nicht wissen was dieser "Service" kostet.
Ich vermute aber, "wir" sind hier nicht das größste Problem.... ich vermute eher Google oder Content-Sauger zum KI anlernen.

**OlliL** · 02.12.2025, 16:29

sonki - ich mache es jetzt ähnlich. Starte Chrome über Selenium und lass mir dann einfach über executeScript per JS "document.cookie" zurückliefern damit kann ich dann weiter arbeiten und den ChromeDriver direkt wieder schliessen... kein SqLite nötig

Müsste mit FF auch gehen, hab aber wegen anderen Dingen eh schon n fertiges Chrome-Setup für Selenium.
Was auffällt - wenn man den Chrome headless startet beißt die Bot-Protection zu.... öffnet sich also immer für 1-2 Sekunden ein Chrome-Fenster. Kann ich aber mit leben....

**sonki** · 02.12.2025, 21:23

Zitat von OlliL

sonki - ich mache es jetzt ähnlich. Starte Chrome über Selenium und lass mir dann einfach über executeScript per JS "document.cookie" zurückliefern damit kann ich dann weiter arbeiten und den ChromeDriver direkt wieder schliessen... kein SqLite nötig

Müsste mit FF auch gehen, hab aber wegen anderen Dingen eh schon n fertiges Chrome-Setup für Selenium.
Was auffällt - wenn man den Chrome headless startet beißt die Bot-Protection zu.... öffnet sich also immer für 1-2 Sekunden ein Chrome-Fenster. Kann ich aber mit leben....

Hmm..also ich muss nur einmal kurz Chrome starten.
Hier mal die paar relevanten Schnippsel (python code):

Der Teil aus dem alten Script wo ich die Cookies hole und in die Session packe:

Code:

  s = requests.Session()
  url = "https://szukajwarchiwach.gov.pl"
  cookies = get_chrome_cookies(url)
  s.cookies = cookiejar_from_dict(cookies)

Und hier der Teil aus get_chrome_cookies() mit den relevanten Parametern:

Code:

    chrome_args = [
        CHROME_PATH,
        f"--remote-debugging-port={DEBUG_PORT}",
        "--remote-allow-origins=*",
        f"--user-data-dir=C:/Temp/ChromeProfile",
        "--headless=new",
        url
    ]
    chrome_process = subprocess.Popen(chrome_args)
    time.sleep(10)
    [...] <-- hier dann das Auslesen der Cookies über den Debug-Port
    chrome_process.terminate()
    chrome_process.wait()

Entscheidend hier die relativ großzügen 10 Sekunden Sleep. Damit stelle ich sicher das die szukajwarchiwach Seite auch wirklich komplett geladen ist, bekanntlich ist sie ja öfters etwas zäh. Hatte erst nur 3 Sekunden, aber dann schafft es Chrome manchmal nicht die Seite vollständig zu laden und dann bekomme ich entsprechend keine aktuellen Cookies zurück. Also habe ich es jetzt mal mit 10 Sekunden veranschlagt....bei den letzten 5 Versuchen hat es gereicht.

**OlliL** · 03.12.2025, 19:38

Den Chrome via Selenium zu starten erschien mir erstmal simpler da ich dann auch Zugriff auf die JS-Console habe und so die cookies recht simpel auslesen kann

Wenn du auch JS ausführen kannst - evtl. über den debug port - könntest du auch mit "return document.readyState" abfragen ob die Seite vollständig geladen ist (liefert dann 'complete') so mache ich das mit nem WebDriverWait der wartet bis da 'complete' zurückkommt.

Immer noch gar keine Updates seit 14.11. - das ist doch komisch... gar keine Veränderungen (bei 'meinen' Archiven) - keine neuen Archivalien, keine Scans... nix.

**sonki** · Gestern, 09:59

Zitat von OlliL

Immer noch gar keine Updates seit 14.11. - das ist doch komisch... gar keine Veränderungen (bei 'meinen' Archiven) - keine neuen Archivalien, keine Scans... nix.

Tja, in den von dir genannten Archiven passiert in der Tat wenig, heute gabs mal was aus Köslin, aber sonst kommt momentan eher nur was aus Posen oder hin udn wieder Kattowitz. Abesehen vom Archiv Zamość wo gefühlt jeden Tag seit Monaten irgendwas passiert, aber das ist halt der Teil Polen der für die meisten hier eher uninteressant für die Forschung ist. Ich warte ja auch schon seit Jahren das vom Archiv Breslau mal irgendwas östlich der Oder kommt - da ich dort einige Standesämter komplett auswerten will/muss, weil ich keine sonstigen Daten habe, mit denen man eine Recherche beauftragen könnte. Grundsätzlich ist das alles relativ mau was da seit einem Jahr aus den Archiven kommt...

OlliL
Das ist der ganzeCode um die Cookies über den Debug-Port auszulesen - also einfacher gehts doch kaum noch, aber ist ja im Endeffekt auch egal wie man es macht, viele Wege führen nach Rom, Hauptsache es geht.

Code:

        sessions = requests.get(f"http://127.0.0.1:{DEBUG_PORT}/json").json()
        target_ws = sessions[0]["webSocketDebuggerUrl"]
        ws = websocket.create_connection(target_ws)

        ws.send(json.dumps({"id": 1, "method": "Network.enable"}))

        cookies = {}
        for attempt in range(retries):
            ws.send(json.dumps({"id": 2, "method": "Network.getCookies", "params": {"urls": [url]}}))
            response = json.loads(ws.recv())
            result = response.get("result")
            if result and "cookies" in result:
                cookies = {c["name"]: c["value"] for c in result["cookies"]}
                break
            time.sleep(delay)  # wait and retry if cookies not yet ready

        ws.close()
        return cookies

Neue Scans auf szukajwarchiwach.pl

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar

Kommentar