Neue Scans auf szukajwarchiwach.pl

Einklappen
X
 
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • OlliL
    Erfahrener Benutzer
    • 11.02.2017
    • 5934

    #1171
    sonki - nun gibts ein schönes Captcha beim Einstieg auf die Seite. Hast du das schon irgendwie "umschifft"?
    Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
    Website zum Familienname Vollus: http://www.familie-vollus.de/

    Kommentar

    • sonki
      Erfahrener Benutzer
      • 10.05.2018
      • 5858

      #1172
      Zitat von OlliL
      sonki - nun gibts ein schönes Captcha beim Einstieg auf die Seite. Hast du das schon irgendwie "umschifft"?
      Hab noch keines bekommen. Die haben aber seit ein paar Tagen ständig Connection Fehler und wohl neuerdings irgendeine WAF FW, da haben sich schon viele auf FB beschwert...ich glaub da wird grad noch rumgebastelt...mal schauen was das nun wieder wird
      ¯\_(ツ)_/¯

      Kommentar

      • OlliL
        Erfahrener Benutzer
        • 11.02.2017
        • 5934

        #1173
        Mh - mal abwarten.
        Hatte heute erstmalig das von extern eingekaufte "sind sie ein Mensch?"-Captcha.
        Die Cookies ausm Browser zu kopieren und zu verwenden hat erstmal geholfen. Hab mich erst durch die ganzen iframes gehangelt aber dann doch das tiefere Interesse erstmal verloren.
        Mal beobachten.... Wollte jetzt ungerne mit Selenium anfangen.
        Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
        Website zum Familienname Vollus: http://www.familie-vollus.de/

        Kommentar

        • sonki
          Erfahrener Benutzer
          • 10.05.2018
          • 5858

          #1174
          Die nutzen jetzt(?) ein CDN von Imperva...inclusive deren WAF. Na gucken wir mal wohin die Reise geht...wie üblich war der Social Media Account von denen mal wieder komplett überrascht und weiß von nix...da weiß mal wieder die linke Hand nicht was die rechte macht...

          Update: Ja, meine Prüfscripte gehen nun nicht mehr...und auf Selenium & Co. hab ich keine Lust. Tja, dann ist dieses Kapitel auch erstmal wieder vorbei.
          Und ja, Bot-Protection von Imperva (früher Incapsula), da kommt man auch mit Selenium nur noch bedingt gegen an. Und das alles, weil immer mehr Webseiten keine vernünftigen APIs bereitstellen und die Leute dann alles mühsam scrapen müssen/wollen. Und der Management-chatgpt-Generation fällt dann nur noch ein, eine Bot-Protection vorzuschalten.....
          Zuletzt geändert von sonki; 18.11.2025, 10:12.
          ¯\_(ツ)_/¯

          Kommentar

          • Weltenwanderer
            Moderator

            • 10.05.2016
            • 4807

            #1175
            Hallo,

            die Liste für Oktober ist nun raus:


            Für die Schlesien-Forscher:
            • 85/20/0 Kaiser-Friedrich-Gedächtnis-Kirche Liegnitz
            • 85/25/0 Kirchenbücher aus dem Kreis Goldberg
            • 85/3/0 verschiedene Bürgerbücher aus Liegnitz
            Kreis Militsch: Latzel, Gaertner, Meißner, Drupke, Mager
            Kreis Tarnowitz / Beuthen: Gebauer, Parusel, Michalski, Wilk, Olesch, Majer, Blondzik, Kretschmer, Wistal, Skrzypczyk, von Ziemietzky, von Manowsky
            Brieg: Parusel, Latzel, Wuttke, Königer, Franke
            Trebnitz: Stahr, Willenberg, Oelberg, Zimmermann, Bittermann, Meißner, Latzel
            Kreis Grünberg / Freystadt: Meißner

            Mein Stammbaum bei GEDBAS

            Kommentar

            • OlliL
              Erfahrener Benutzer
              • 11.02.2017
              • 5934

              #1176
              sonki - es reicht einfach das Cookie "incap_ses_<zahlen>_<zahlen>" mitzuschicken. Dann klappt der Zugriff wieder. Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder....

              Aber ja - absolut unverständlich wiso die nicht einfach n feed auf ihrer Seite veröffentlichen sondern irgendwelche Excel-Sheets generieren einmal im Monat.... was ein Aufwand. Ne API wäre ja sogar noch Luxus... eigentlich will doch jeder nur zeitnah wissen wenn was neues veröffentlicht wurde oder wenn irgendwo Scans online gestellt wurden. Selbst Archion bekommt das ja irgendwie hin....

              Was mich wundert - keinerlei Updates seit 14.11. bei den bei mir untersuchten Archiven...


              Code:
              +----+---------------------------------------------------------------------+
              | id | name                                                                |
              +----+---------------------------------------------------------------------+
              | 34 | Archiwum Państwowe w Lesznie                                        |
              | 42 | Archiwum Państwowe w Olsztynie                                      |
              | 45 | Archiwum Państwowe w Opolu                                          |
              | 65 | Archiwum Państwowe w Szczecinie                                     |
              | 82 | Archiwum Państwowe we Wrocławiu                                     |
              | 83 | Archiwum Państwowe we Wrocławiu Oddział w Jeleniej Górze            |
              | 84 | Archiwum Państwowe we Wrocławiu Oddział w Kamieńcu Ząbkowickim      |
              | 85 | Archiwum Państwowe we Wrocławiu Oddział w Legnicy                   |
              | 86 | Archiwum Państwowe we Wrocławiu Oddział w Bolesławcu                |
              | 89 | Archiwum Państwowe w Zielonej Górze                                 |
              +----+---------------------------------------------------------------------+
              Zuletzt geändert von OlliL; 01.12.2025, 17:58.
              Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
              Website zum Familienname Vollus: http://www.familie-vollus.de/

              Kommentar

              • sonki
                Erfahrener Benutzer
                • 10.05.2018
                • 5858

                #1177
                Zitat von OlliL
                es reicht einfach das Cookie "incap_ses_<zahlen>_<zahlen>" mitzuschicken. Dann klappt der Zugriff wieder. Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder....
                Hmmpfhh...ich hatte zwischenzeitlich doch mal ein Script geschrieben was playwright nutzt (sowas wie selenium). Aber das ist natürlich deutlich langsamer, so daß ich nur noch die für mich persönlich relevanten Archive teste. Aber wenn das natürlich auch weiterhin mit dem alten Script geht, wenn man es mit einem Cookie füttert, erleichtert das natürlich wieder etwas.

                Zitat von OlliL
                Aber ja - absolut unverständlich wiso die nicht einfach n feed auf ihrer Seite veröffentlichen sondern irgendwelche Excel-Sheets generieren einmal im Monat.... was ein Aufwand. Ne API wäre ja sogar noch Luxus... eigentlich will doch jeder nur zeitnah wissen wenn was neues veröffentlicht wurde oder wenn irgendwo Scans online gestellt wurden. Selbst Archion bekommt das ja irgendwie hin....
                Tja, öffentlicher Dienst, da verdienen sich halt ein paar IT Firmen dumm und dämlich und brauchen dafür nicht mal was vernünftiges liefern.Ist ja hier nicht anders, siehe u.a. Invenio vom Bundesarchiv. Die Ausreden die ich da schon hören musste, warum dies oder das kein Feature ist....abenteuerlich ist kein Wort dafür.
                ¯\_(ツ)_/¯

                Kommentar

                • sonki
                  Erfahrener Benutzer
                  • 10.05.2018
                  • 5858

                  #1178
                  Zitat von OlliL
                  ...Ich kopiere mir einfach alle Cookies aus dem Browser für die Site und schick die dann auch mit meinem Programm mit. Dann läufts wieder...
                  Danke nochnmal für den Tipp mit den Cookie. Hab jetzt wieder mein altes Script in Betrieb was einfach vorher via subprocess Chome im headless mode startet, szuka aufruft, dann die cookies ausliest, Chrome wieder schließt und dann das alte script weiter wie gewohnt ausführt. Läuft perfekt und das kurze Geplänkel mit headless Chome starten/stoppen dauert nur wenige Sekunden..
                  Hatte es erst mit Firefox probiert, aber FF speichert session cookies nicht in der sqlitedb und man kommt da nicht gut ran. Mit Chrome ist das einfacher, kann also headless im debugging mode vom python script gestartet werden und dann ruckizuck hat man die cookies.
                  Zuletzt geändert von sonki; 01.12.2025, 19:30.
                  ¯\_(ツ)_/¯

                  Kommentar

                  • OlliL
                    Erfahrener Benutzer
                    • 11.02.2017
                    • 5934

                    #1179
                    Und das ist dann halt immer das Ding - kaufste dir teure Schlangenöl-Lösungen ein "weil jetzt ist endlich alles sicher!!!" und dann.... ja dann verwendest du einfach den Cookie.... lachhaft. Will nicht wissen was dieser "Service" kostet.
                    Ich vermute aber, "wir" sind hier nicht das größste Problem.... ich vermute eher Google oder Content-Sauger zum KI anlernen.
                    Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
                    Website zum Familienname Vollus: http://www.familie-vollus.de/

                    Kommentar

                    • OlliL
                      Erfahrener Benutzer
                      • 11.02.2017
                      • 5934

                      #1180
                      sonki - ich mache es jetzt ähnlich. Starte Chrome über Selenium und lass mir dann einfach über executeScript per JS "document.cookie" zurückliefern damit kann ich dann weiter arbeiten und den ChromeDriver direkt wieder schliessen... kein SqLite nötig Müsste mit FF auch gehen, hab aber wegen anderen Dingen eh schon n fertiges Chrome-Setup für Selenium.
                      Was auffällt - wenn man den Chrome headless startet beißt die Bot-Protection zu.... öffnet sich also immer für 1-2 Sekunden ein Chrome-Fenster. Kann ich aber mit leben....
                      Zuletzt geändert von OlliL; 02.12.2025, 16:30.
                      Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
                      Website zum Familienname Vollus: http://www.familie-vollus.de/

                      Kommentar

                      • sonki
                        Erfahrener Benutzer
                        • 10.05.2018
                        • 5858

                        #1181
                        Zitat von OlliL
                        sonki - ich mache es jetzt ähnlich. Starte Chrome über Selenium und lass mir dann einfach über executeScript per JS "document.cookie" zurückliefern damit kann ich dann weiter arbeiten und den ChromeDriver direkt wieder schliessen... kein SqLite nötig Müsste mit FF auch gehen, hab aber wegen anderen Dingen eh schon n fertiges Chrome-Setup für Selenium.
                        Was auffällt - wenn man den Chrome headless startet beißt die Bot-Protection zu.... öffnet sich also immer für 1-2 Sekunden ein Chrome-Fenster. Kann ich aber mit leben....
                        Hmm..also ich muss nur einmal kurz Chrome starten.
                        Hier mal die paar relevanten Schnippsel (python code):

                        Der Teil aus dem alten Script wo ich die Cookies hole und in die Session packe:
                        Code:
                          s = requests.Session()
                          url = "https://szukajwarchiwach.gov.pl"
                          cookies = get_chrome_cookies(url)
                          s.cookies = cookiejar_from_dict(cookies)
                        Und hier der Teil aus get_chrome_cookies() mit den relevanten Parametern:
                        Code:
                            chrome_args = [
                                CHROME_PATH,
                                f"--remote-debugging-port={DEBUG_PORT}",
                                "--remote-allow-origins=*",
                                f"--user-data-dir=C:/Temp/ChromeProfile",
                                "--headless=new",
                                url
                            ]
                            chrome_process = subprocess.Popen(chrome_args)
                            time.sleep(10)
                            [...] <-- hier dann das Auslesen der Cookies über den Debug-Port
                            chrome_process.terminate()
                            chrome_process.wait()
                        Entscheidend hier die relativ großzügen 10 Sekunden Sleep. Damit stelle ich sicher das die szukajwarchiwach Seite auch wirklich komplett geladen ist, bekanntlich ist sie ja öfters etwas zäh. Hatte erst nur 3 Sekunden, aber dann schafft es Chrome manchmal nicht die Seite vollständig zu laden und dann bekomme ich entsprechend keine aktuellen Cookies zurück. Also habe ich es jetzt mal mit 10 Sekunden veranschlagt....bei den letzten 5 Versuchen hat es gereicht.
                        Zuletzt geändert von sonki; 02.12.2025, 22:25.
                        ¯\_(ツ)_/¯

                        Kommentar

                        • OlliL
                          Erfahrener Benutzer
                          • 11.02.2017
                          • 5934

                          #1182
                          Den Chrome via Selenium zu starten erschien mir erstmal simpler da ich dann auch Zugriff auf die JS-Console habe und so die cookies recht simpel auslesen kann
                          Wenn du auch JS ausführen kannst - evtl. über den debug port - könntest du auch mit "return document.readyState" abfragen ob die Seite vollständig geladen ist (liefert dann 'complete') so mache ich das mit nem WebDriverWait der wartet bis da 'complete' zurückkommt.

                          Immer noch gar keine Updates seit 14.11. - das ist doch komisch... gar keine Veränderungen (bei 'meinen' Archiven) - keine neuen Archivalien, keine Scans... nix.
                          Mein Ortsfamilienbuch Güstow, Kr. Randow: https://ofb.genealogy.net/guestow/
                          Website zum Familienname Vollus: http://www.familie-vollus.de/

                          Kommentar

                          • sonki
                            Erfahrener Benutzer
                            • 10.05.2018
                            • 5858

                            #1183
                            Zitat von OlliL
                            Immer noch gar keine Updates seit 14.11. - das ist doch komisch... gar keine Veränderungen (bei 'meinen' Archiven) - keine neuen Archivalien, keine Scans... nix.
                            Tja, in den von dir genannten Archiven passiert in der Tat wenig, heute gabs mal was aus Köslin, aber sonst kommt momentan eher nur was aus Posen oder hin udn wieder Kattowitz. Abesehen vom Archiv Zamość wo gefühlt jeden Tag seit Monaten irgendwas passiert, aber das ist halt der Teil Polen der für die meisten hier eher uninteressant für die Forschung ist. Ich warte ja auch schon seit Jahren das vom Archiv Breslau mal irgendwas östlich der Oder kommt - da ich dort einige Standesämter komplett auswerten will/muss, weil ich keine sonstigen Daten habe, mit denen man eine Recherche beauftragen könnte. Grundsätzlich ist das alles relativ mau was da seit einem Jahr aus den Archiven kommt...

                            OlliL
                            Das ist der ganzeCode um die Cookies über den Debug-Port auszulesen - also einfacher gehts doch kaum noch, aber ist ja im Endeffekt auch egal wie man es macht, viele Wege führen nach Rom, Hauptsache es geht.
                            Code:
                                    sessions = requests.get(f"http://127.0.0.1:{DEBUG_PORT}/json").json()
                                    target_ws = sessions[0]["webSocketDebuggerUrl"]
                                    ws = websocket.create_connection(target_ws)
                            
                                    ws.send(json.dumps({"id": 1, "method": "Network.enable"}))
                            
                                    cookies = {}
                                    for attempt in range(retries):
                                        ws.send(json.dumps({"id": 2, "method": "Network.getCookies", "params": {"urls": [url]}}))
                                        response = json.loads(ws.recv())
                                        result = response.get("result")
                                        if result and "cookies" in result:
                                            cookies = {c["name"]: c["value"] for c in result["cookies"]}
                                            break
                                        time.sleep(delay)  # wait and retry if cookies not yet ready
                            
                                    ws.close()
                                    return cookies
                            Zuletzt geändert von sonki; Gestern, 10:18.
                            ¯\_(ツ)_/¯

                            Kommentar

                            Lädt...