Einzelnen Beitrag anzeigen
  #1  
Alt 19.04.2015, 22:55
ThomasG ThomasG ist offline
Benutzer
 
Registriert seit: 28.11.2007
Beiträge: 97
Standard phonetische Namenssuche in Text für Linux

Im Anhang ein kleines Programmpack in Quellcode für Linux Nutzer die auch mit einem Terminal klar kommen zur phonetischen Namenssuche in Textdateien.
Getestet mit PC Ubuntu Studio 13.10 64 Bit, Lappi Lubuntu 14.10 32 Bit, RaspberryPi Debian Wheezy 32 Bit... alles jeweils mit UTF-8 deutsches System.

Runterladen, in den home Ordner entpacken, in den Ordner navigieren, Terminal öffnen und "sudo bash install.sh" ausführen. Zum kompilieren muß der gcc Kompiler installiert sein.

Enthalten sind 3 Programme:
phonecode-de zum Erzeugen von phonetischen Codes zu Namen/Worten
phonecomp-de zum Vergleichen von zwei Namen auf phonetische Gleichheit
phoneshow-de zum Durchsuchen von Text auf phonetisch ähnliche Namen


Wenn man Glück hat, bekommt man hin und wieder eine Ortschronik oder ein Adressbuch in Textform oder möchte eine Webseite mit hunderten von Namen durchsuchen, ob denn was "passendes" bei ist. Wobei bei "passend" jeder weiß daß die Namensvariationen schier unendlich sind. Für solche Fälle ist phoneshow-de gedacht.
Implementiert sind die phonetischen Verfahren: Kölner Phonetik, Phonem, Soundex, Extended Soundex. Weiterhin ist noch ein Levenshtein Filter integriert, sodaß man egal was man sucht, so ziemlich alles findet ;-)
Das Programm funktioniert ähnlich "grep" nur daß eben eine phonetische Suche stattfindet.

cat textdatei.txt | phoneshow-de -k -p Müller Meier
Gibt brav alle Zeilen aus in denen sich phonetisch ähnliche Namen befinden.
lynx -dump http://forum.ahnenforschung.net/showthread.php?t=105194 | phoneshow-de -k -p Müller Meier
Durchsucht die entsprechende Seite hier im Forum nach ähnlich klingenden Namen.

Hilfe und Anleitung gibt’s mit "phoneshow-de -h" bzw. "phoneshow-de -b"

Wer also damit was anfangen kann: Viel Spaß damit
Thomas
Angehängte Dateien
Dateityp: zip phonepack-de.zip (20,2 KB, 13x aufgerufen)
Mit Zitat antworten