#1  
Alt 19.04.2015, 21:55
ThomasG ThomasG ist offline
Benutzer
 
Registriert seit: 28.11.2007
Beiträge: 21
Standard phonetische Namenssuche in Text für Linux

Im Anhang ein kleines Programmpack in Quellcode für Linux Nutzer die auch mit einem Terminal klar kommen zur phonetischen Namenssuche in Textdateien.
Getestet mit PC Ubuntu Studio 13.10 64 Bit, Lappi Lubuntu 14.10 32 Bit, RaspberryPi Debian Wheezy 32 Bit... alles jeweils mit UTF-8 deutsches System.

Runterladen, in den home Ordner entpacken, in den Ordner navigieren, Terminal öffnen und "sudo bash install.sh" ausführen. Zum kompilieren muß der gcc Kompiler installiert sein.

Enthalten sind 3 Programme:
phonecode-de zum Erzeugen von phonetischen Codes zu Namen/Worten
phonecomp-de zum Vergleichen von zwei Namen auf phonetische Gleichheit
phoneshow-de zum Durchsuchen von Text auf phonetisch ähnliche Namen


Wenn man Glück hat, bekommt man hin und wieder eine Ortschronik oder ein Adressbuch in Textform oder möchte eine Webseite mit hunderten von Namen durchsuchen, ob denn was "passendes" bei ist. Wobei bei "passend" jeder weiß daß die Namensvariationen schier unendlich sind. Für solche Fälle ist phoneshow-de gedacht.
Implementiert sind die phonetischen Verfahren: Kölner Phonetik, Phonem, Soundex, Extended Soundex. Weiterhin ist noch ein Levenshtein Filter integriert, sodaß man egal was man sucht, so ziemlich alles findet ;-)
Das Programm funktioniert ähnlich "grep" nur daß eben eine phonetische Suche stattfindet.

cat textdatei.txt | phoneshow-de -k -p Müller Meier
Gibt brav alle Zeilen aus in denen sich phonetisch ähnliche Namen befinden.
lynx -dump http://forum.ahnenforschung.net/showthread.php?t=105194 | phoneshow-de -k -p Müller Meier
Durchsucht die entsprechende Seite hier im Forum nach ähnlich klingenden Namen.

Hilfe und Anleitung gibt’s mit "phoneshow-de -h" bzw. "phoneshow-de -b"

Wer also damit was anfangen kann: Viel Spaß damit
Thomas
Angehängte Dateien
Dateityp: zip phonepack-de.zip (20,2 KB, 12x aufgerufen)
Mit Zitat antworten
  #2  
Alt 16.04.2017, 13:39
ThomasG ThomasG ist offline
Benutzer
Themenstarter
 
Registriert seit: 28.11.2007
Beiträge: 21
Standard

Falls doch wer Interesse hat, ist nun alles überarbeitet:
https://github.com/thgoso/phosude
Mit Zitat antworten
  #3  
Alt 16.04.2017, 18:40
gki gki ist offline
Erfahrener Benutzer
 
Registriert seit: 18.01.2012
Beiträge: 3.448
Standard

Hallo Thomas,

ich hatte Deinen ersten Beitrag nicht gesehen, nun aber: git clone etc.

Läuft alles durch, aber:

- build.sh fehlt das executable bit

- es wird an meiner Spracheinstellung rumgemosert, die ist de_DE.utf8. Funktioniert aber alles.

Die Resultate mit -K können sich sehen lassen, ich hab mal meine Sammlung nach "Hermannseder" durchsucht, es werden alle Schreibweisen (mit ein oder zwei n, mit ein oder zwei r (vorne), mit a,i,e,ö als erstem Vokal) offenbar gefunden.

Ich hoffe, ich kann das gelegentlich sinnvoll einsetzen, vielen Dank!
__________________
Gruß
gki
Mit Zitat antworten
  #4  
Alt 16.04.2017, 18:50
ThomasG ThomasG ist offline
Benutzer
Themenstarter
 
Registriert seit: 28.11.2007
Beiträge: 21
Standard

Hallöchen gki,
Na an so ein wenig Bit setzten wird's doch nicht scheitern :-) Keine Ahnung ob git oder deine Distri das rausnehmen. Ist ja auch GUT so. Das mit den Spracheinstellungen rummosern... soll nur ein Hinweis sein... bisher hat's bei mir überall funktioniert.
Ich hab's für mich gemacht und brauch's immer mal wenn ich eine Chronik oder Webseite mit tausenden Namen durchsuchen will. Damit finde ich auf alle Fälle immer irgendwas ;-)
Freut mich wenn's was nutzt, also viel Spaß damit: Thomas
Mit Zitat antworten
Antwort

Lesezeichen

Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche
Ansicht

Forumregeln
Es ist Ihnen nicht erlaubt, neue Themen zu verfassen.
Es ist Ihnen nicht erlaubt, auf Beiträge zu antworten.
Es ist Ihnen nicht erlaubt, Anhänge hochzuladen.
Es ist Ihnen nicht erlaubt, Ihre Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.

Gehe zu

Alle Zeitangaben in WEZ +1. Es ist jetzt 16:47 Uhr.