EXTRAKT- Linguistic Engine

EXTRAKT erweitert die Suchanfrage und verbessert dadurch die Suchergebnisse.

Linguistic Engine

Eine konventionelle Suche liefert in der Regel viele Treffern. Die Treffermenge sollte jedoch u.U. höher sein, so dass eine beträchtliche Anzahl von zusätzlichen Treffern erzielt wird. Dies beruht darauf, dass die (morphologischen) Varianten der Suchbegriffe durch die konventionelle Suche nicht "erreicht" werden.

Hier greift das linguistische "Wissen" von EXTRAKT, das die unterschiedlichen Formen der Suchterme automatisch erzeugt und der Suche hinzufügt. Es sind dies die verschiedenen Formen eines Wortes (Flexionsformen, etwa Mehrzahl, Kasusformen etc.), aber auch die unterschiedlichen Schreibweisen (etwa alte und neue Rechtschreibung im Deutschen, die schweizerdeutsche Schreibung, britisches und amerikanisches Englisch) oder die Schreibweise von Umlauten (ä wird ae).

Beispiel

Wird beispielsweise nach "internationalen Verträgen" gesucht, so erkennt EXTRAKT zunächst die dazugehörigen Grundformen ("international" und "Vertrag") und erzeugt dann auch die restlichen Formen.

Das ergibt für: international

  • internationale
  • internationalem
  • internationalen
  • internationaler
  • internationales

und für: Vertrag

  • Vertrags
  • Vertrages
  • Vertrage
  • Verträge
  • Verträgen

Es ist verständlich, dass eine derart angereicherte Suche bessere Treffer liefert. Das Problem einer effektiven Suche wird noch größer, wenn in gemischtsprachigen Datenbeständen gesucht wird. Durch die Übersetzungskomponente in EXTRAKT werden die Begriffe aus der ursprünglichen Suchanfrage in verschiedene Sprachen übersetzt und auch hier werden die unterschiedlichen Formen der übersetzten Begriffe generiert und der Suche hinzugefügt.

Für das Beispiel "internationale Verträge" ergibt die Übersetzung folgende zusätzlichen Begriffe und Formen:

Französisch:

  • accord + accords
  • contrat + contrats
  • convention + conventions
  • traité + traités
  • international + internationaux

Englisch:

  • agreement + agreements
  • convention + conventions
  • treaty + treaties
  • international

Es liegt auf der Hand, dass durch eine derartige Erweiterung der Suchanfrage auch die Ergebnisse entscheidend verbessert werden.

Zusätzlich zu den Sprachen Deutsch, Englisch und Französisch deckt EXTRAKT auch noch Italienisch, Spanisch und Latein ab.

Andere Sprachen (wie etwa Niederländisch) sind in Vorbereitung.

Technische Informationen zu EXTRAKT

Die Grundlage von EXTRAKT sind sehr große (Vollformen-) Wörterbücher der verschiedenen Sprachen und Sprachpaare. Die Größe dieser Wörterbücher reicht von einigen tausend Einträgen (beispielsweise das Wörterbuch für die neue deutsche Rechtschreibung mit ca. 6.000 Einträgen) bis zu fast einer Million Einträgen (das deutsche Kompositawörterbuch enthält ca. 940.000 Einträge). Die Übersetzungswörterbücher enthalten zwischen 20.000 und 130.000 Einträge. Diese Wörterbücher sind durch ein spezielles Verfahren stark komprimiert und können im Arbeitsspeicher des Computers gehalten werden, wodurch Analyse und Übersetzung äußert schnell sind.

Neben diesen Wörterbüchern kommen weitere computerlinguistische Verfahren zum Einsatz, etwa bei der Erkennung von Mehrwort-Begriffen (Beispiel: frz. "pomme de terre"). Spezialwörterbücher, Synonym-Wörterbücher, Thesauri und "private" Wörterbücher können dem System auf einfache Weise hinzugefügt werden.

EXTRAKT basiert auf dem Linguistic Server EXTRAKT, ist für WINDOWS NT, WINDOWS 2000, XP und LINUX verfügbar und auch in verschiedenen anderen Anwendungen im Einsatz, etwa bei der Internet Suchmaschine Scoutmaster.

EXTRAKT geht auf Projekte zurück, die teilweise durch die Europäische Union im Rahmen des ESPRIT- und des LIBRARIES - Programms unterstützt wurden.

Literatur

Die Grundlagen der linguistischen Analyse für das Deutsche, wie sie in EXTRAKT verwendet wird, ist beschrieben in: Stegentritt, Erwin (Ed.): German Analysis, Morpho-Syntax within the free-text retrieval project EMIR. (Sprachwissenschaft - Computerlinguistik. Linguistics - Computational Linguistics vol. 15). Saarbrücken 1993.  

Ein Vergleich einer linguistisch angereicherten Suche mit einer konventionellen Suche auf der Basis von ca. 50 Suchanfragen findet sich in: Stegentritt, Erwin: Evaluationsresultate des mehrsprachigen Suchsystems CANAL/LS. in ABI-Technik. Nr. 1, 1998. S. 38-46.

Sie können weitere Informationen hier finden.

« ReportWeaverEXTRAKT - Linguistic Engine
  • LIB-IT GmbH

    Riedbachstraße 5
    74385 Pleidelsheim
    Deutschland

    Tel: +49 (0) 7144 80 41 - 0
    Fax: +49 (0) 7144 80 41 - 108
    eMail: info(at)lib-it.de
    Web: www.lib-it.de

  • LIB-IT DMS GmbH

    Riedbachstraße 5
    74385 Pleidelsheim
    Deutschland

    Tel: +49 (0) 7144 80 41 - 0
    Fax: +49 (0) 7144 80 41 - 108
    eMail: info(at)lib-it.de
    Web: www.lib-it.de