Alte Schrift in Pdf-Datei durchsuchen

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • CodeRed
    Erfahrener Benutzer
    • 14.07.2011
    • 340

    Alte Schrift in Pdf-Datei durchsuchen

    Hallo an alle,

    ich bin heute auf die Paderbornsche Intelligenzblätter gestoßen, welche hier vor einiger Zeit zu einem kleinen Teil abgeschrieben und veröffentlicht wurden. Jetzt sind diese online und man kann sie als pdf-Datei runterladen.

    Soweit ich weiß kann man eine Pdf-Datei, die mit einem Textprogramm erstellt wurde, über ein Suchfeld nach einzelnen Wörtern durchsuchen.
    Bei den paderb`IB sind die Seiten als Grafik abgespeichert.

    Ist es möglich durch irgendwelche Programme große pdf-Dateien mit Grafiken alter Buchseiten so umzuwandeln, dass man sie durchsuchen kann?

    Vielleicht hat sich da jemand schonmal Gedanken drüber gemacht.

    Gruß Dominic
  • CodeRed
    Erfahrener Benutzer
    • 14.07.2011
    • 340

    #2
    danke Gerd für deine Antwort.

    Mit diesen OCR-Programmen hatte ich auch gelesen. Konnte damit aber nicht so viel anfangen. Desweiteren wusste/weiß ich auch nicht, welches Programm am besten für alte Schrift (speziell paderbornsche Intelligenzblätter) war/ist.

    Ich werde mal pdf professional ausprobieren.
    Vielleicht kennt jemand noch weitere gute Programme, am besten freeware.

    Gruß Dominic

    Kommentar

    • honkytonk
      Erfahrener Benutzer
      • 20.11.2007
      • 315

      #3
      Hallo,

      leider ist nicht jede OCR für Fraktur geeignet.

      Die Erkennungsrate hängt auch sehr stark von der Auflösung der Vorlage ab,
      je schärfer die Ränder abgegrenzt sind, desto besser wird das Ergebniss und bei den alten Druckverfahren waren die Ränder oft unscharf,
      so dass man bei den allermeisten OCR ein nicht sonderlich gutes Ergebnis zu erwarten hat, bei Frakturschriftarten.
      Dazu kommt noch das moderne OCR gegen Rechtschreib- und Thesaurusbibliotheken abgeglichen werden, was bei dem Fehlen von entsprechend alten Bibliotheken auch wiederum zu einer Verschlechterung des Ergebnisses führt, mit einer einfachen Suche nach OCR ist es hier nicht getan.

      Tesseract ist soweit mir bekannt ist, nahezu die einzige Open-Source OCR, die auch Fraktur beherrscht und das für Deutsch, Dänisch und Schwedisch.
      Allerdings ist das von mir aus ungetestet.

      Gruß
      Guido
      Zuletzt geändert von honkytonk; 16.10.2012, 23:58.

      Kommentar

      • CodeRed
        Erfahrener Benutzer
        • 14.07.2011
        • 340

        #4
        Hallo Guido,

        habe jetzt mal tesseract ausprobiert. Um es einfach nur zu durchsuchen ergibt es halt doch noch zuviele Fehler.
        Ich habe mal bei Google-books geschaut und eine handvoll Exemplare der o.g. Zeitschrift gefunden. Diese kann man durchsuchen.

        Ich bin aber leider kein Milliardenunternehmen , daher werde ich das wohl erstmal aufs Eis legen.

        Gruß Domi

        Kommentar

        Lädt...
        X