phonetische Namenssuche in Text für Linux

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • ThomasG
    Benutzer
    • 28.11.2007
    • 97

    phonetische Namenssuche in Text für Linux

    Im Anhang ein kleines Programmpack in Quellcode für Linux Nutzer die auch mit einem Terminal klar kommen zur phonetischen Namenssuche in Textdateien.
    Getestet mit PC Ubuntu Studio 13.10 64 Bit, Lappi Lubuntu 14.10 32 Bit, RaspberryPi Debian Wheezy 32 Bit... alles jeweils mit UTF-8 deutsches System.

    Runterladen, in den home Ordner entpacken, in den Ordner navigieren, Terminal öffnen und "sudo bash install.sh" ausführen. Zum kompilieren muß der gcc Kompiler installiert sein.

    Enthalten sind 3 Programme:
    phonecode-de zum Erzeugen von phonetischen Codes zu Namen/Worten
    phonecomp-de zum Vergleichen von zwei Namen auf phonetische Gleichheit
    phoneshow-de zum Durchsuchen von Text auf phonetisch ähnliche Namen


    Wenn man Glück hat, bekommt man hin und wieder eine Ortschronik oder ein Adressbuch in Textform oder möchte eine Webseite mit hunderten von Namen durchsuchen, ob denn was "passendes" bei ist. Wobei bei "passend" jeder weiß daß die Namensvariationen schier unendlich sind. Für solche Fälle ist phoneshow-de gedacht.
    Implementiert sind die phonetischen Verfahren: Kölner Phonetik, Phonem, Soundex, Extended Soundex. Weiterhin ist noch ein Levenshtein Filter integriert, sodaß man egal was man sucht, so ziemlich alles findet ;-)
    Das Programm funktioniert ähnlich "grep" nur daß eben eine phonetische Suche stattfindet.

    cat textdatei.txt | phoneshow-de -k -p Müller Meier
    Gibt brav alle Zeilen aus in denen sich phonetisch ähnliche Namen befinden.
    lynx -dump http://forum.ahnenforschung.net/showthread.php?t=105194 | phoneshow-de -k -p Müller Meier
    Durchsucht die entsprechende Seite hier im Forum nach ähnlich klingenden Namen.

    Hilfe und Anleitung gibt’s mit "phoneshow-de -h" bzw. "phoneshow-de -b"

    Wer also damit was anfangen kann: Viel Spaß damit
    Thomas
    Angehängte Dateien
  • ThomasG
    Benutzer
    • 28.11.2007
    • 97

    #2
    Falls doch wer Interesse hat, ist nun alles überarbeitet:
    phonetische Textsuche, unscharfe Suche, Kölner Phonetik, Phonem, Soundex, Extended Soundex, Caverphone, Daitch-Mokotoff - thgoso/phosude

    Kommentar

    • gki
      Erfahrener Benutzer
      • 18.01.2012
      • 4823

      #3
      Hallo Thomas,

      ich hatte Deinen ersten Beitrag nicht gesehen, nun aber: git clone etc.

      Läuft alles durch, aber:

      - build.sh fehlt das executable bit

      - es wird an meiner Spracheinstellung rumgemosert, die ist de_DE.utf8. Funktioniert aber alles.

      Die Resultate mit -K können sich sehen lassen, ich hab mal meine Sammlung nach "Hermannseder" durchsucht, es werden alle Schreibweisen (mit ein oder zwei n, mit ein oder zwei r (vorne), mit a,i,e,ö als erstem Vokal) offenbar gefunden.

      Ich hoffe, ich kann das gelegentlich sinnvoll einsetzen, vielen Dank!
      Gruß
      gki

      Kommentar

      • ThomasG
        Benutzer
        • 28.11.2007
        • 97

        #4
        Hallöchen gki,
        Na an so ein wenig Bit setzten wird's doch nicht scheitern :-) Keine Ahnung ob git oder deine Distri das rausnehmen. Ist ja auch GUT so. Das mit den Spracheinstellungen rummosern... soll nur ein Hinweis sein... bisher hat's bei mir überall funktioniert.
        Ich hab's für mich gemacht und brauch's immer mal wenn ich eine Chronik oder Webseite mit tausenden Namen durchsuchen will. Damit finde ich auf alle Fälle immer irgendwas ;-)
        Freut mich wenn's was nutzt, also viel Spaß damit: Thomas

        Kommentar

        Lädt...
        X