Option: Linguistisches Analysemodul WebCANAL

Linguistisches Analyse- und Übersetzungsmodul

Was bietet die Komponente?

Eine konventionelle Suche liefert manchmal eine Vielzahl von Treffern. Die Treffermenge verschleiert jedoch u.U. die Tatsache, dass eine beträchtliche Anzahl von zusätzlichen Treffern erzielt werden könnte. Dies beruht darauf, dass die (morphologischen) Varianten der Suchbegriffe durch die konventionelle Suche nicht 'erreicht' werden.

Hier greift das linguistische 'Wissen' von WebCANAL, das die unterschiedlichen Formen der Suchterme automatisch erzeugt und der Suche hinzufügt. Es sind dies die verschiedenen Formen eines Wortes (Flexionsformen, etwa Mehrzahl, Kasusformen etc.), aber auch die unterschiedlichen Schreibweisen (etwa alte und neue Schreibung im Deutschen, die schweizerdeutsche Schreibung, britisches und amerikanisches Englisch) oder die Schreibung von Umlauten (ä wird ae).

Beispiel

Wird beispielsweise nach "internationalen Verträgen" gesucht, so erkennt WebCANAL zunächst die dazugehörigen Grundformen ("international" und "Vertrag") und erzeugt dann auch die restlichen Formen.

Das ergibt für: international

  • internationale
  • internationalem
  • internationalen
  • internationaler
  • internationales

und für: Vertrag

  • Vertrags
  • Vertrages
  • Vertrage
  • Verträge
  • Verträgen

Es ist verständlich, dass eine derart angereicherte Suche bessere Treffer liefert. Das Problem einer effektiven Suche wird noch größer, wenn in gemischtsprachigen Datenbeständen gesucht wird, und dies ist in Bibliotheken im Allgemeinen der Fall.

Durch die Übersetzungskomponente in WebCANAL werden die Begriffe aus der ursprünglichen Suchanfrage in verschiedene Sprachen übersetzt und auch hier werden die unterschiedlichen Formen der übersetzten Begriffe generiert und der Suche hinzugefügt.

Für das Beispiel "internationale Verträge" ergibt die Übersetzung folgende zusätzlichen Begriffe und Formen:

Französisch:

  • accord + accords
  • contrat + contrats
  • convention + conventions
  • traité + traités
  • international + internationaux

Englisch:

  • agreement + agreements
  • convention + conventions
  • treaty + treaties
  • international

Es liegt auf der Hand, dass durch eine derartige Erweiterung der Suchanfrage auch die Ergebnisse entscheidend verbessert werden.

Zusätzlich zu den Sprachen Deutsch, Englisch und Französisch deckt WebCANAL auch noch Italienisch, Spanisch und Latein ab. Andere Sprachen (wie etwa Niederländisch) sind in Vorbereitung.

Technische Informationen zu WebCANAL

Die Grundlage von WebCANAL sind sehr große (Vollformen-) Wörterbücher der verschiedenen Sprachen und Sprachpaare. Die Größe dieser Wörterbücher reicht von einigen tausend Einträgen (beispielsweise das Wörterbuch für die neue deutsche Orthographie mit ca. 6.000 Einträgen) bis zu fast einer Million Einträgen (das deutsche Kompositawörterbuch enthält ca. 940.000 Einträge). Die Übersetzungswörterbücher enthalten zwischen 20.000 und 130.000 Einträge. Diese Wörterbücher sind durch ein spezielles Verfahren stark komprimiert und können im Arbeitsspeicher des Computers gehalten werden, wodurch Analyse und Übersetzung äußert schnell sind.

Neben diesen Wörterbüchern kommen weitere computerlinguistische Verfahren zum Einsatz, etwa bei der Erkennung von Mehrwort-Begriffen (Beispiel: frz. "pomme de terre"). Spezialwörterbücher, Synonym-Wörterbücher, Thesauri und "private" Wörterbücher können dem System auf einfache Weise hinzugefügt werden.

WebCANAL basiert auf dem Linguistic Server EXTRAKT, ist für WINDOWS und LINUX verfügbar und auch in verschiedenen anderen Anwendungen im Einsatz, etwa bei der Internet Suchmaschine Scoutmaster.

WebCANAL geht auf Projekte zurück, die teilweise durch die Europäische Union im Rahmen des ESPRIT- und des LIBRARIES - Programms unterstützt wurden.

Literatur

Die Grundlagen der linguistischen Analyse für das Deutsche, wie sie in WebCANAL verwendet wird, ist beschrieben in: Stegentritt, Erwin (Ed.):German Analysis, Morpho-Syntax within the free-text retrieval project EMIR. (Sprachwissenschaft - Computerlinguistik. Linguistics - Computational Linguistics vol. 15). Saarbrücken 1993.

Ein Vergleich einer linguistisch angereicherten Suche mit einer konventionellen Suche auf der Basis von ca. 50 Suchanfragen findet sich in: Stegentritt, Erwin: Evaluationsresultate des mehrsprachigen Suchsystems CANAL/LS. in ABI-Technik. Nr. 1, 1998. S. 38-46.

Dienstleistung um WebCANAL

Jede Bibliothek hat ihre speziellen Gegebenheiten und Erfordernisse. Im Zusammenhang mit WebCANAL können besondere Wörterbücher oder andere Dienstleistungen, die auf den Datenbestand der Bibliothek und den Wünschen der Benutzer zugeschnitten sind, angeboten werden.

Hierzu gehört etwa das Erzeugen zusätzlicher, fachgebietsspezifischer Wörterbücher, das automatische Generieren von Synonymlisten, die Ergänzung von WebCANAL durch zusätzliche Funktionen, etwa einer phonetischen Suche usw.

Content von WebCANAL

SYNONYME und verwandte Begriffe

Neben den vorher genannten Standardwörterbüchern, die in WebCANAL enthalten sind, können zusätzliche lexikalische Informationsquellen eingebunden werden. Dazu gehört etwa für das Deutsche ein Wörterbuch von Synonymen und verwandten Begriffen.

So kann etwa dem Benutzer eine Liste von Begriffen zur Auswahl angeboten werden.

Beispiel: LOHN

abgeltung, arbeitseinkommen, arbeitslohn, auszahlung, bezahlen, bezahlung, entgelt, entlohnung, gehalt, honorieren, verdienst, vergütung, zahlen, zahlung.

Thesaurus

Zu WebCANAL werden auch verschiedene Thesauri angeboten. Hier ein Beispiel aus einem juristischen Thesaurus.

VERTRAGSBRUCH:

Teil von VERTRAGRECHT
Verursacht: SCHADENERSATZANSPRUCH
ENGLISCH: BREACH OF CONTRACT
FRANZÖSISCH: RUPTURE DE CONTRACT

Beispiel für WebCANAL mit dem Wort "Kartellrecht"

Nach Klicken des Symbols für die Begriffsanalyse erhält der Nutzer die folgende Auswahl:

Und nach Anwahl der gewünschten Sprachen und Auslösen der Analyse_Übersetzung folgende Ergebnisliste, aus der der Benutzer die gewünschten Suchbegriffe auswählt:

Mit Hilfe der TRANSFER-Schaltfläche werden jetzt alle vom Benutzer gewählten Suchbegriffe in den LIBERO WebOPAC als "Oder-Suche" übertragen:

Übertragene Begriffe:

Kartell; Kartellrecht; Kartellrechts; recht; antitrust law; cartel law; restrictive trade practices act; cartel; justices

LIBERO v6 beim 103. Deutschen Bibliothekartag in...

Congress Centrum, Halle 5, Stand 19 - 03. bis 06. Juni 2014.

LIBERO Digital Library ist auf dem Markt

Hochinteressante Innovation

WiDGET 2.0 für LIBERO jetzt erhältlich

Die Nachfrage nach mobilen Diensten wächst ständig und mit LIBERO können Bibliotheken der Nachfrage ihrer Benutzer...