Linux Script zum download bei szukajwarchiwach.pl

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • ThomasG
    Benutzer
    • 28.11.2007
    • 97

    Linux Script zum download bei szukajwarchiwach.pl

    Im Anhang ein kleines Bash Script zum downloaden der Scans von http://szukajwarchiwach.pl
    falls es wer gebrauchen kann. Getestet die letzten Tage mit den Scans von Oppeln, sollte hoffentlich aber mit den anderen auch funktionieren.
    Da ich nicht immer wieder im Browser durch die Scans suchen wollte, läd mir das Script die Scans einer Signatur-Nummer herunter und speichert sie in einer PDF-Datei.

    Übersichtsseite im Browser aufrufen, z.B.

    für Oppeln. Links die interessante Signaturnummer suchen, z.B.
    45/1016/0/2.1/1 für "Urząd Stanu Cywilnego w Opolu 1874 Rejestr Urodzeń Księga Miejscowa Nr 1 do 106"

    Aufruf: "load.sh" "Archiv-Signatur-Nummer"
    z.B. "load.sh" "45/1016/0/2.1/1"
    bei obigem Beispiel.

    Bash Script läd dann alle Scans runter und speichert sie temporär.
    Wenn alle Bider runtergeladen sind, wird eine PDF-Datei im HOME-Ordner unter "$HOME/Downloads" erstellt, die alle Scans des Archives beinhaltet.
    Zielordner kann im Script abgeändert werden... ganz unten

    Abhängigkeiten:
    curl, lynx -> zum downloaden
    convert aus imagemagic -> zum konvertieren nach pdf
    pdfunite aus poppler-utils -> zum zusammenführen pdf

    Also ggf. nachinstallieren je nach Distribution mit z.B.
    sudo apt get install curl lynx-cur imagemagick imagemagick-doc poppler-utils

    Gruß: Thomas
    Angehängte Dateien
  • Acanthurus
    Erfahrener Benutzer
    • 06.06.2013
    • 1657

    #2
    Cool, danke!

    A.

    Kommentar

    • ThomasG
      Benutzer
      • 28.11.2007
      • 97

      #3
      Cool, wenn's neben mir noch wem anders nützt. Bringt ja nix wenn's hier nur in der Schublade rumliegt

      Kommentar

      • gki
        Erfahrener Benutzer
        • 18.01.2012
        • 4843

        #4
        Ich fände es dem Archiv gegenüber höflich, da an geeigneter Stelle mal ein wait einzubauen.
        Gruß
        gki

        Kommentar

        • ThomasG
          Benutzer
          • 28.11.2007
          • 97

          #5
          Hallöchem gki,

          da hast du recht und ich hatte's auch ursprünglich tatsächlich eingebaut, dann aber beim Testen gesehen, daß der Server ohne warten immer mal blockiert/limitiert. Daher hab ich's dann nicht wieder reingenommen. Außerdem wird nach jedem Download eh etwas gewartet weil pro Scan dann ein einzelnes PDF erstellt wird.
          In den Nutzungsbedingungen der Seite hab ich auch extra nachgesehen, ob irgendwelche Limits genannt werden, was aber nicht der Fall ist.

          Aber den Hinweis nehme ich mal zur Kenntniss, also bitte im Script in Zeile 63 vor dem "done" ein "sleep 1" zufügen

          Original:
          rm -f "$fname"
          done

          Ändern auf:
          rm -f "$fname"
          sleep 1
          done

          Gruß: Thomas

          Kommentar

          Lädt...
          X