Programm zum Transkribieren von handgeschrieben Dokumenten

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • MartinSojka
    Benutzer
    • 27.03.2013
    • 16

    Programm zum Transkribieren von handgeschrieben Dokumenten

    Hallo.

    Ich habe jetzt im Laufe meiner Familienforschung ein paar 100 Scans von Geburts-, Heirat- und Sterbe-Urkunden in vier verschiedenen Sprachen angesammelt, der Großteil davon handschriftlich. Ich würde diese jetzt gerne mit einem "OCR-Overlay" versehen und als entsprechende PDF- oder DjVu-Datei abspeichern. Damit wäre es z.B. möglich, handgeschriebene Textpassagen in solchen Dokumenten direkt per Maus zu markieren und per Copy & Paste als Text zu übertragen. Mein Problem dabei ist nur, dass ich keine Software finde, die das überhaupt sinnvoll machen kann.

    Es gibt durchaus Transkriptions-Systeme, diese arbeiten aber allesamt (soweit ich sie finden konnte) nach dem Prinzip "aus einem Scan ein Textdokument erstellen". Das heißt ich habe anschließend zwei Dokumente - ein Bild und ein Text -, nicht ein zusammengesetztes Bild-mit-Text-Dokument.

    OCR-Programme beherrschen so etwas theoretisch, in der Praxis scheitern diese aber spektakulär an der Texterkennung (verständlicherweise), womit man einen guten Teil der Zeit damit kämpft, die Automatismen der Programme abzuschalten und um sie herumzuarbeiten.

    Am Ende will ich wirklich nur ein paar wenige Schritte ausführen können:

    1. Bild laden und zur Darstellung drehen, spiegeln und den Kontrast bzw. Farbverlauf ändern können.
    2. Zeilen (und wie sie zusammenhängen) definieren, am besten gleich als Textblöcke, in jeder beliebigen Orientierung (wichtig für "schiefe" Scans und solche, die Randbemerkungen in einer anderen Ausrichtung als der Haupttext haben).
    3. Wörter innerhalb von Zeilen - auch über mehrere Zeilen gehende - markieren und den passenden Text dorthin schreiben.
    4. Notizen an bestimmten Stellen hinzufügen.
    5. Das alles als PDF oder DjVu exportieren, für Upload und als Referenz für spätere Nachforschungen.

    ... und natürlich entsprechende Dateien später für Korrekturen wieder neu öffnen.

    Eigentlich ganz einfach. Trotzdem habe ich langsam das Gefühl, dass ich mir entsprechende Software selber schreiben muss ...

    Kennt vielleicht jemand entsprechende Tools?
  • Xtine
    Administrator
    • 16.07.2006
    • 28326

    #2
    Hallo Martin,

    ich fürchte, soetwas wirst Du Dir tatsächlich selber schreiben müssen. Allerdings könntest Du damit reich werden

    OCR funktioniert schon bei Fraktura (also Druckschrift) nicht sehr gut. Für Sütterlin gibt es soetwas auch, ich habe allerdings gehört, daß die Texterkennung grauenhaft sein soll Wenn man dann noch bedenkt, wieviel Schwierigkeiten wir hier in der Lesehilfe schon manchmal haben, die alten Handschriften richtig zu deuten, wie soll das dann erst ein Programm können?

    Wenn Du also ein gut funktionierendes OCR Programm für alte Handschriften entwickelt hast, dann sags mir, ich bin daran interessiert
    Viele Grüße .................................. .
    Christine
    sigpic .. .............
    Wer sich das Alte noch einmal vor Augen führt, um das Neue zu erkennen, der kann anderen ein Lehrer sein.
    (Konfuzius)

    Kommentar

    • MartinSojka
      Benutzer
      • 27.03.2013
      • 16

      #3
      Zitat von Xtine Beitrag anzeigen
      Wenn Du also ein gut funktionierendes OCR Programm für alte Handschriften entwickelt hast, dann sags mir, ich bin daran interessiert
      Zum Glück geht's mir ja nicht um (automatisches) OCR, "nur" darum, den Text quasi "auf das Bild" draufzukritzeln (mit all den Metadaten wie "das ist ein Wort" und "das ist eine Zeile" und "das hier ist unlesbar") - also händisches OCR.

      Kommentar

      • gki
        Erfahrener Benutzer
        • 18.01.2012
        • 4823

        #4
        Zitat von MartinSojka Beitrag anzeigen
        Zum Glück geht's mir ja nicht um (automatisches) OCR, "nur" darum, den Text quasi "auf das Bild" draufzukritzeln (mit all den Metadaten wie "das ist ein Wort" und "das ist eine Zeile" und "das hier ist unlesbar") - also händisches OCR.
        Es gibt etliche Programme mit denen man an PDFs Anmerkungen anbringen kann. Wenn Du Dein Dokument also in ein PDF umwandelts, solltest Du Dir behelfen können.
        Gruß
        gki

        Kommentar

        • MartinSojka
          Benutzer
          • 27.03.2013
          • 16

          #5
          Zitat von gki Beitrag anzeigen
          Es gibt etliche Programme mit denen man an PDFs Anmerkungen anbringen kann. Wenn Du Dein Dokument also in ein PDF umwandelts, solltest Du Dir behelfen können.
          Es geht mir nicht um Anmerkungen, sondern um eingefügten Text im sogennanten "text rendering mode 3" (PDF-Spezifikation Abschnitt 9.3.6), "Neither fill nor stroke text (invisible)", der den eigentlichen Scan überlagert.

          Dasselbe kann man per UTF-8-indizierte JB2-Formen im Mask Layer einer DjVu-Datei erreichen. Das Format wurde explizit für gescanntes Material entwickelt, von daher ist das dort "tiefer" und natürlicher verankert.

          Kommentar

          • gki
            Erfahrener Benutzer
            • 18.01.2012
            • 4823

            #6
            Zitat von MartinSojka Beitrag anzeigen
            Es geht mir nicht um Anmerkungen, sondern um eingefügten Text im sogennanten "text rendering mode 3" (PDF-Spezifikation Abschnitt 9.3.6), "Neither fill nor stroke text (invisible)", der den eigentlichen Scan überlagert.

            Dasselbe kann man per UTF-8-indizierte JB2-Formen im Mask Layer einer DjVu-Datei erreichen. Das Format wurde explizit für gescanntes Material entwickelt, von daher ist das dort "tiefer" und natürlicher verankert.
            Derartige Feinheiten hast Du am Anfang "vergessen" zu erwähnen.

            Wenn ich mal sowas brauche, verwende ich Xournal (http://en.wikipedia.org/wiki/Xournal)

            Macht zwar nicht 100% von dem was Du willst, aber vielleicht kann man ja die Ansprüche etwas schrumpfen. Außerdem ist es Open Source.
            Gruß
            gki

            Kommentar

            • Tesla2k
              Neuer Benutzer
              • 20.08.2014
              • 1

              #7
              Hast du dafür inzwischen eine Lösung gefunden? Ich bin grad auf der Suche nach genau so einem Programm.

              Kommentar

              Lädt...
              X