Stemming
AlsStemming(Stammformreduktion,Normalformenreduktion) bezeichnet man imInformation Retrievalsowie in derlinguistischen Informatikein Verfahren, mit dem verschiedenemorphologischeVarianten einesWortesauf ihren gemeinsamenWortstammzurückgeführt werden, z. B. dieDeklinationvonWortesoderWörterzuWortundKonjugationvongesehenodersahzuseh.
Geschichte
[Bearbeiten|Quelltext bearbeiten]Im Jahr 1968 veröffentlichteJulie Beth Lovins(1945–2018) den ersten bekannten Stemming-Algorithmus.[1]DieserAlgorithmushatte einen großen Einfluss auf die weitere Entwicklung von Stemming-Algorithmen. Ein späterer Stemmer wurde 1980 vonMartin Porterveröffentlicht.[2]Dieser Stemmer wurde zum De-facto-Standard für das Stemming englischsprachiger Texte. Porter erhielt im Jahr 2000 denTony Kent Strix Awardfür seine Arbeit auf dem Gebiet der Stemming-Algorithmen und des Information Retrievals.
Es wurden viele Implementierungen desPorter-Stemmer-Algorithmusgeschrieben und kostenlos verteilt, von denen viele jedoch kleine Fehler enthielten. Dies führte dazu, dass diese Stemmer niemals ihr volles Potenzial abschöpfen konnten. Um diese Fehlerquelle zu beseitigen, veröffentlichte Porter um das Jahr 2000 eine offizielle Implementierung des Algorithmus.[3]In den folgenden Jahren erweiterte er seine Arbeit, indem er mitSnowballein Framework zum Schreiben von Stemming-Algorithmen schuf. Des Weiteren schuf er einen verbesserten Stemmer für die englische Sprache zusammen mit Stemmern für andere Sprachen.
Stemming-Verfahren
[Bearbeiten|Quelltext bearbeiten]Zum Stemming gibt es verschiedeneAlgorithmenfür verschiedene Sprachen. Die Entwicklung eines Stemmers ist eine experimentelle Wissenschaft, da Algorithmen nicht verifiziert werden können, sondern erst anTextkorporaund in der Praxis getestet werden müssen.
Beispiele:
- Porter-Stemmer-Algorithmus
- KSTEM(Robert Krovetz:Viewing morphology as an inference process,1993)
- N-Gramm-Verfahren
- lexikonbasiertes Stemming(Lemmatisierung)
- korpusbasiertes Stemming
- statistische Verfahren
- computerlinguistischeVerfahren.
Eine alternative, sehr viel einfachere und weniger genaue Möglichkeit ist die Suche nach Teil-Zeichenketten, z. B. mit demStern-Operator.Dies bezeichnet man auch alsTrunkierung.
Anmerkungen
[Bearbeiten|Quelltext bearbeiten]Im Gegensatz zur Suche, beispielsweise mitregulären Ausdrücken,die für Suche in großen Datenbeständen – z. B.Suchmaschinen– zu langsam wäre, wird eine Menge von Texten einmaligindexiert,um später schnell durchsucht werden zu können.
In einigen Sprachen spielt auch die Wortzerlegung und Zusammensetzung (lief weg→weglaufen) eine wichtige Rolle.
Siehe auch
[Bearbeiten|Quelltext bearbeiten]- Indexierung,Volltextindexierung
- Stoppwort
- Part-of-speech-Tagging
- Gemeinschaftliches Indexieren(Tagging)
Einzelnachweise
[Bearbeiten|Quelltext bearbeiten]- ↑Julie Beth Lovins:Development of a stemming algorithm.In:Mechanical Translation and Computational Linguistics.Bd. 11, Nr. 2, Juni 1968, S. 22–31.
- ↑Martin Porter:An algorithm for suffix stripping.In:Program.Bd. 3, Nr. 14, Juli 1980, S. 130–137.
- ↑Offizielle Implementierung des Porter-Stemmer-Algorithmus