Auf dieser Seite soll das erste digitale deutsche Wörterbuch erstellt werden. "Digital" meint in diesem Sinne "algorithmisch". Mit den Arbeiten am http://www.metricalizer.de haben wir den Grundstein dafür gelegt, etliche Bestandteile der Lexikographie zu berechnen und nicht mehr zu erarbeiten.

Nimmt man einmal www.wiktionary.org als Vergleich, so könnten wir algorithmisch folgendes berechnen:

gramm. Einordnung: ja
Worttrennung: ja
Aussprache: ja
Reime: ja
Bedeutungen: nein
Herkunft: nein
Synonyme: ja
Gegenwörter: nein
Oberbegriffe: nein
Unterbegriffe: nein
Beispiele: ja
Redewendungen: ja
Sprichwörter: ja
Wortkombinationen: ja
Wortbildung: ja

Folgende Techniken können wir bereits verarbeiten:

Tokenizer: Die sprachlichen Zeichen eines Ausdrucks werden separiert. Alle Zeichenketten eines Textes werden erkannt und in eine Datenbank übertragen. Die dadurch erzeugten Einträge werden „Token“ genannt.

Typenizer: Tokens werden einem Type zugeordnet. Ist eine Zeichenkette mehrfach im Text belegt, dann werden in diesem Schritt alle diese Zeichenketten reduziert. Doppelte Einträge werden also getilgt. Diese Form der Reduzierung erzeugt „Types“.

Lemmatizer: Zeichenketten werden einer grammatischen Grundform zugeordnet. Dabei werden die Formen (Lemmata) erzeugt, die in einem Wörterbuch stehen.

Flexionizer: Für die Grundform einer Zeichenkette werden mögliche Flexionsformen berechnet. Dies ist die Umkehrberechnung des Lemmatizer. Der Flexionizer generiert alle Flexionsformen (Beugungsformen, die durch Deklination oder Konjugation entstehen). Berechnet werden Präsens, Präteritum, Imperativ, Infinitiv Präsens, Partizip Präsens, Partizip Pefekt, Perfekt, Infinitiv Perfekt, Plusquamperfekt, Futur I, Infinitiv Futur I, Futur II, Infinitiv Futur II.

POS-Tagger: Eine oder mehrere Zeichenketten werden mit dem Part-of-Speech-Tagger in der Wortart bestimmt. Kann die Zeichenkette für mehrere Wortarten stehen, dann werden alle Wortarten ausgegeben.

Grammaticalizer: Die grammatische Funktion der Zeichenketten innerhalb einer syntaktischen Funktion werden bestimmt.

Compotector: Komposita (Wortzusammensetzungen) werden erkannt. Der Compotector erkennt Wortzusammensetzungen und analysiert die Art und Weise des Kompositums.

Decomposer: Komposita werden in Bestandteile zerlegt.

Composer: Zeichenketten werden zu Komposita verbunden. Fugenzeichen werden berechnet.

Hybridizer: Zwitterwörter (Wörter, die auf unterschiedliche Weise betont sein können) werden erkannt.

Silbensegmentierung: Eine Zeichenkette wird in Silben zerlegt. Die Trennung erfolgt entweder nach den Regeln der Rechtschreibung oder nach den Regeln der Sprechsilbe. Wir nach den Regeln der Rechtschreibung getrennt, dann kann die Silbensegmentierung berechnen, wo die besten Trennstellen liegen.

Morpholizer: Die Silben einer Zeichenkette werden morphologisch bewertet.

Vocalizer: Die Vokallänge der jeweiligen Silbe wird bestimmt.

Prosodizer: Die Betonung der Silben werden qualifiziert. Der Prosodizer arbeitet zeichenkettenübergreifend und bestimmt die Betonung in Abhängigkeit zur Umgebung.

IPAnizer: Eine Zeichenkette wird in Lautschrift (IPA oder SAMPA) umgewandelt, Silbengrenzen und Betonungen werden eingebunden.

Rhymizer: Mögliche Reime für eine Zeichenkette werden ermittelt.

Sythesizer: Eine phonetische Umschrift wird durch Sprachsynthese verlautlicht.

G2P / Letter to Sound: Die Graphem-zu-Phonem-Zuordnung wandelt eine orthographische Zeichenkette in Phoneme.

Metricalizer: Die metrische Struktur eines Gedichtes wird analysiert.

Die größten Probleme in der algorithmischen Berechnung stellen die Semantik und die Ethymologie dar. Wer Ideen hat, wie man auch diese Bestandteile berechnen könnte, ist herzlich eingeladen, mitzudenken

Klemens Bobenhausen, bobenhausen@googlemail.com
http://www.freiburger-anthologie.de
http://www.lyrik-und-lied.de
http://www.metricalizer.de
http://www.echtreim.de
http://www.reim-box.de