ArticlePDF Available

Multilinguale Suche in Bibliothekskatalogen - ein semantischer Ansatz mit Open-Source-Software und Open Data

Authors:

Abstract

Die in der Sächsischen Landesbibliothek — Staats- und Universitätsbibliothek Dresden (SLUB) verwendete Suchmaschinentechnologie gibt aus, was über das Matching einer Suchanfrage mit den indizierten Titeldaten des Bestandskatalogs herausgefiltert wird. Titel, die mit anderssprachigen oder synonymen Deskriptoren erschlossen sind, lassen sich jedoch nur durch eine Umformulierung der Suchanfrage auffinden. Ein auf Basis von Open-Source-Software und Open Data neu entwickeltes, intelligentes Suchsystem ermöglicht es nun, Suchanfragen völlig zwanglos zu formulieren — und liefert alle semantisch relevanten Katalogeinträge unabhängig von ihrer Originalsprache nach Relevanz sortiert zurück.
Achim Bonte, Robert Glaß, Anne Horn, Jens Mittelbach
Die Multilinguale Suche der SLUB Dresden Ein semantischer Ansatz mit Open Source
Software und Open Data
Preprint der publizierten Version: Bonte, Achim, Robert Glaß, Anne Horn, und Jens Mittelbach.
„Multilinguale Suche in Bibliothekskatalogen - ein semantischer Ansatz mit Open-Source-Software
und Open Data.“ HMD - Praxis der Wirtschaftsinformatik 49, Nr. 283 (Februar 2012): 6873.
http://www.dpunkt.de/hmdissues/283/07.php.
Abstract
Die in der SLUB Dresden auf der Grundlage von Suchmaschinentechnologie realisierte
Volltextsuche kann nur ausgeben, was über ein Matching der Terme einer Suchanfrage mit den
beschreibenden Informationen in den Titeldaten des Bestandskatalogs herausgefiltert wird. Titel,
die mit anderssprachigen oder synonymen Deskriptoren erschlossen sind, können gewöhnlich nur
durch eine entsprechende Umformulierung der Suchanfrage gefunden werden. Sonstige
semantische Relationen zwischen den Deskriptoren fehlen zu großen Teilen ganz. Das von vielen
Nutzern bevorzugte thematische Browsing deckt oftmals nur einen Ausschnitt des gesamten
Bestandes einer Bibliothek ab. „SLUBsemantics“ hingegen erfasst alle lokalen Katalogdaten und
ermöglicht Anwendern, ihre Suchanfragen völlig zwanglos zu formulieren in ihrer Muttersprache,
mit ihrem persönlichen Wortschatz und liefert ihnen alle semantisch relevanten Katalogeinträge
nach Relevanz sortiert zurück. Semantische Beziehungen zwischen den Themen werden zur
einfachen Navigation in den Ergebnissen als Verzweigungsstrukturen dargestellt.
Inhaltsübersicht
1 Intelligente Suchsysteme Eine Herausforderung (nicht nur) für Bibliotheken
2 Die multilinguale semantische Suche der SLUB Dresden
3 Einsatz von Open Data und Open Source Software
4 Ausblick Weiterentwicklung und Weiterverwendung
1 Intelligente Suchsysteme Eine Herausforderung (nicht nur) für Bibliotheken
Internetsuchmaschinen durchsuchen und indizieren Milliarden von Webinhalten gleich welchen
(Online-)Medientypus und investieren einen Großteil ihrer Ressourcen in die ständige
Verbesserung der zugrundeliegenden Suchalgorithmen. Der Anwender erhält schließlich eine
gewaltige, gut sortierte Ergebnismenge, etwa zu Webseiteninhalten, Nachrichten, Videos, Blog-
und Foreneinträgen oder sozialen Profilen. Die Suche im Katalog einer Bibliothek unterscheidet
sich hiervon zentral: Der durch eine Suchsoftware indizierbare Bestand einer Bibliothek beschränkt
sich auf lokal verfügbare Bestandsnachweise zu gedruckten wie elektronischen, lizenzierten
Medien, zu Büchern, Zeitschriften und Aufsätzen, Tonträgern und Filmen, Noten und grafischen
Dokumenten (Fotos, Karten, Zeichnungen). Schon allein diese Tatsache beschränkt die mögliche
Ergebnismenge deutlich.
Zudem ist der zur Verfügung stehende Informationsgehalt je Publikation, der eine Indizierung erst
ermöglicht, oftmals sehr beschränkt. In der Regel sind allein Angaben zu Titel, Autor,
Herausgeber, Erscheinungsjahr, Verlag und ISBN-Nummer im Katalog einer Bibliothek erfasst.
Eine herkömmliche Volltextsuche kann hier letztlich nur ausgeben, was über ein Matching der
Terme der Suchanfrage mit den beschreibenden Informationen in den Katalogdaten herausgefiltert
wird. Katalogeinträge, die mit anderssprachigen oder synonymen Deskriptoren erschlossen sind,
können gewöhnlich nur durch eine entsprechende Neuformulierung der Suchanfrage aufgefunden
werden. Sonstige semantische Relationen zwischen den Deskriptoren fehlen zu großen Teilen
ganz. Der Anwender ist darauf angewiesen seine Suchanfrage sehr genau und detailliert zu
formulieren, um die für ihn relevanten Informationen in den Suchergebnissen zu finden. Im
Ergebnis recherchieren nicht wenige Bibliotheksbenutzer zunächst in Internetsuchmaschinen oder
bei Online-Buchhändlern, bevor sie mit dem ermittelten Titelmaterial „ihren“ Bibliothekskatalog
befragen.
Um Anwendern Umwege über externe Diensteanbieter zu ersparen, haben das Unternehmen
Avantgarde Labs und die SLUB Dresden in einem gemeinsamen Entwicklungsprojekt eine
neuartige Suchtechnologie entwickelt. Inspiriert durch die wachsenden Möglichkeiten des
Semantic Web der Bereicherung des World Wide Web um die Dimension der Bedeutung von
Informationen galt es mit Hilfe eines speziellen Werkzeugs zwei besonders anspruchsvolle
Aufgaben im SLUB-Katalog anzugehen: Erstens, die Verbesserung der thematischen Suche, die
von Benutzern eigentlich bevorzugt, jedoch bisher gegenüber titelgenauen Abfragen sehr viel
schlechtere Suchergebnisse liefert. Zweitens sollte der Tatsache Rechnung getragen werden,
dass viele Benutzer einer wissenschaftlichen Bibliothek zwar fremdsprachige Dokumente
verstehen, aber mit der fremden Sprache nicht aktiv arbeiten können. Ziel war mithin, bei Eingabe
von „Automatikgetriebe“ zum Beispiel auch Texte zu „automatic transmission“ auffindbar zu
machen.
Die SLUB Dresden verfolgt seit einigen Jahren einen dezidiert kooperativen Ansatz der Öffnung
gegenüber innovativen High-Tech-Unternehmen. Während die meist jungen Firmen ihre
avantgardistischen Ideen in Anwendungen umsetzen können, profitiert die Bibliothek von deren
besonderer Innovationskraft und Einsatzbereitschaft. Im intensiven Austausch der auf beiden
Seiten beteiligten Experten entstehen auf diese Weise besonders passgenaue Produkte.
Entsprechend wäre auch die hier vorgestellte multilinguale semantische Suche ohne die enge
Zusammenarbeit des Dresdner Unternehmens Avantgarde Labs mit der SLUB Dresden
keineswegs möglich gewesen.
Avantgarde Labs ist ein forschungsnaher IT-Dienstleister, der sich insbesondere auf die
Entwicklung intelligenter Informationssysteme spezialisiert hat. Das seit 2008 bestehende
Unternehmen verfügt über umfangreiche Expertise in den Bereichen Datenlogistik,
Datenmodellierung, Data- und Text Mining, Softwareentwicklung sowie intelligenter
Suchtechnologien. Avantgarde Labs hat sich zudem ein umfangreiches Softwareportfolio aufbaut,
welches ausschließlich auf lizenzkostenfreier Open-Source Software beruht.
Die Sächsische Landesbibliothek Staats- und Universitätsbibliothek Dresden (SLUB Dresden) ist
eine der größten und leistungsfähigsten wissenschaftlichen Bibliotheken in Deutschland. Sie ist
Bibliothek der Technischen Universität Dresden, Landesbibliothek für Sachsen und ein
bedeutendes Innovations- und Koordinierungszentrum im deutschen und europäischen
Bibliothekswesen.
2 Die mulitlinguale semantische Suche der SLUB Dresden
Im Mittelpunkt der neuen Anwendung mit dem aufschlussreichen Namen „SLUBsemantics“ steht
die Idee, den Benutzer seine Anfrage völlig zwanglos formulieren zu lassen in seiner
Muttersprache, mit seinem persönlichen Wortschatz und ihm alle semantisch relevanten
Katalogeinträge in strukturierten Trefferlisten zurück zu liefern. Das bedeutet konkret, dass die
Terme aus der Suchanfrage nicht in den Metadaten der relevanten Katalogisate vorhanden sein
müssen. Die Software erkennt automatisch den inhaltlichen Zusammenhang und gibt strukturierte,
auf Wunsch auch grafisch aufbereitete Suchergebnisse aus. Gibt der Benutzer zum Beispiel das
Wort „Bank“ ein, werden ihm sowohl relevante Katalogeinträge zu (einzelnen) Kreditinstituten, der
Bankenkrise oder dem Eurosystem als auch zum Sitzmöbel, einer Sandbank oder einzelnen
Personen, wie dem britischen Naturforscher Joseph Banks vorgeschlagen. Sucht er „Hauptstadt
Belgien“, werden auch alle Treffer mit „Brüssel“ berücksichtigt. Lautet die Eingabe „Once upon a
time in the west“, erhält er zugleich Treffer zum deutschen Filmtitel „Spiel mir das Lied vom Tod“,
zum Regisseur Sergio Leone oder zu „Zwei glorreiche Halunken“, einem anderen Italo-Western
Sergio Leones. Die einzelnen möglichen Bedeutungen und Kontexte eines Wortes werden als
Konzepte bezeichnet. Alle Ressourcen des SLUB-Katalogs, die einen Bezug zu den gefundenen
Konzepten haben, werden als Ergebnismenge vorgeschlagen unabhängig von deren
Originalsprache. Der Benutzer spart sich damit Übersetzungsaufwand in externen Quellen und die
mehrfache Eingabe von Suchanfragen. Darüber hinaus wird er auf bislang verdeckte
Inhaltsbeziehungen zu anderen Bibliotheksbeständen hingewiesen und erhält so während der
Katalogsuche reichlich Gelegenheit, kontinuierlich hinzu zu lernen bzw. sich von den Funden neu
anregen zu lassen. Seit dem amerikanischen Soziologen Robert Merton (1910-2003) kennen wir
dieses Phänomen in der internationalen Wissenschaft als Serendipity. Serendipity steht für das
ursprünglich gar nicht Gesuchte, das sich als unerwartete, bereichernde Entdeckung erweist (vgl.
[Merton & Barber 2004]). Der SLUB-Katalog wird in diesem Sinne nicht nur zu einem noch
mächtigeren Auskunftsmittel, sondern buchstäblich zu einem Ort des Entdeckens und Lernens.
Abbildung 1: SLUBsemantics Graphisch strukturierte Suchergebnisse für die Suchanfrage
„Hauptstadt Belgien“
SLUBsemantics erfasst alle lokalen Katalogdaten und ermöglicht zudem die Eingabe der
Suchbegriffe in derzeit drei Sprachen: Deutsch, Englisch und Polnisch. Der neue Ansatz der
multilingualen Suchtechnologie vergrößert die Menge relevanter Suchergebnisse dramatisch.
Semantische Beziehungen zwischen den Themen werden als Verzweigungsstrukturen dargestellt.
Bei Orientierung und Auswahl hilft eine grafische Visualisierung, die ein mehrfaches hierarchisches
Einschränken der Suchergebnisse unterstützt. Mit der intuitiv zu bedienenden graphischen Suche
kann sich der Benutzer zielgerichtet seinen Interessen nähern. Bei der Anfrage „Bank“ würde die
Auswahl in der höchsten Hierarchieebene etwa „Gesellschaft“, „Wirtschaft“, „Wissenschaft“ und
„Geschichte“ anbieten. In einer tieferen Hierarchieebene entscheidet sich der Anwender zwischen
„Sozialwissenschaft“, „Politikwissenschaft“ und „Naturwissenschaft“ für eine konkrete
Interpretation. Dabei werden in Echtzeit die relevanten Katalogeinträge eingeschränkt und
entsprechend ihrer aktuellen Relevanz neu sortiert.
3 Einsatz von Open Data und Open Source Software
Die revolutionäre Funktionsweise von SLUBsemantics ist Resultat eines so einfachen wie
einleuchtenden Prinzips des Rückgriffs auf große, sozial gepflegte und netzwerkartig angelegte
Informationsstrukturen zum Zweck der automatischen Anreicherung und Verknüpfung von
Katalogdaten. In Bibliothekskatalogen weisen bibliografische Repräsentationen von Objekten
abgesehen von wenigen, mit viel Aufwand gepflegten Normdaten wie SWD-Schlagworten oder
Personennormdaten gewöhnlich kaum Verknüpfungen und fast gar keine semantische
Relationen auf. Obgleich Linked Open Data (d.h. frei verfügbare Daten im WWW, welche per URI
identifiziert sind und direkt auf andere Datensätze verweisen) heute ein ngiges Schlagwort ist,
lässt sich dieser grundsätzliche Mangel nicht etwa durch die bloße Bereitstellung der
bibliografischen Daten als sogenannte offene RDF-Tripel beheben, da die notwendigen
Verknüpfungen fehlen, um wirklich semantische Qualität zu erzielen. Der hier vorgestellte Ansatz
stellt bibliografische Daten mittels Data-Mining-Technologien in einen thematischen Kontext. Der
Kontext stammt aus dem größten sozial erzeugten Informationsnetzwerk, das die Menschheit
bislang erschaffen hat, der freien Enzyklopädie „Wikipedia“. Die Vorteile dieses Netzwerks liegen
auf der Hand: Es wird pausenlos von Millionen von Menschen mit Spezialwissen aktualisiert und
erweitert (für diverse Statistiken vgl. [WIKISTATS 2011]), es ist in den verschiedensten Sprachen
verfügbar und bildet das Menschheitswissen so umfassend und detailliert ab wie keine andere
Ressource. Von hier aus finden die Informationen dank der neuen Technologie den Weg in den
SLUB-Katalog.
Die Herausforderung bestand dabei insbesondere in der intelligenten, automatisierten
Verknüpfung individueller Katalogeinträge mit externen Informationsbeständen. Zum Zweck der
semantischen Anreicherung wurden die frei verfügbaren Textinformationen der deutschen,
englischen und polnischen Wikipedia sowie die als Linked Open Data verfügbaren Normdaten der
Deutschen Nationalbibliothek verwendet (für mehr Informationen vgl. [DNB 2011]).
Die Zusammenführung dieser sehr heterogenen Datensätze stellt eine typische
Datenintegrationsaufgabe dar, welche sich durch die Art der zugrundeliegenden Datenstruktur
meist textuelle Information aus den Metadaten des Bibliothekskatalogs und der Einträge in
Wikipedia stark von Standardintegrationsaufgaben unterscheidet. Da ein direkter Abgleich
zwischen Wort bzw. Wortkombinationen der unterschiedlichen Datentöpfe nur selten zum Erfolg
führte, musste ein individuelles iteratives Integrationsverfahren entwickelt werden. Hierfür wurden
zwei freie Software-Projekte der Apache Software Foundation Solr und Lucene verwendet.
Apache Solr ist ein effizientes und skalierbare Indexsystem, welches mit der
Volltextsuchtechnologie Apache Lucene abgefragt werden kann. Für zahlreiche Webanwendung
stellt diese Kombination einen Quasi-Such-Standard dar. Im Ergebnis konnte eine latente
Beziehung zwischen Suchressource und externer Datenquelle hergestellt werden. Potentielle
Kandidaten wurden schließlich mittels Data-Mining-Verfahren entsprechend ihrer Relevanz weiter
eingeschränkt. Als besonders geeignete Lösung erwies sich hierfür die Enterprise Open Source
Software Rapidminer der Dortmunder Firma Rapid-I. Die Orchestrierung aller Datenextraktions,
transformations und -integrationsprozesse wurde mit der Enterprise Open Source
Datenintegrationslösung Talend der gleichnamigen französischen Firma durchgeführt. Die auf
Java basierende Lösung ermöglicht durch ihre graphische Oberfläche ein einfaches Design von
E(xtraction)-T(ransformation)-L(oading)-Prozessen. Zudem unterstützt Talend eine hohe Flexibilität
im Handling mit unterschiedlichsten Datenquellen durch vielseitige Konnektoren zu Datenbanken,
Flatfiles und zahlreichen Protokollen, als auch durch vordefinierte Komponenten zur Verarbeitung
und Anreicherung von Daten. Durch den frei verfügbaren Source Code sowie die ausschließliche
Verwendung von offenen Schnittstellen und Standards konnte eine Integration zahlreicher anderer
(kleinerer) Open-Source Projekte (z.B. Software zur Spracherkennung von Texten) sowie eigener
Entwicklungen an individuelle Bedürfnisse erfolgen.
Abbildung 2: Grafik zur groben technischen Organisation
4 Ausblick
SLUBsemantics ist seit Mitte Dezember in einer Beta-Version auf der Webseite der SLUB
verfügbar und macht in einer ersten Ausbaustufe etwa 4 Mio. lokale Titeldaten des SLUB-Katalogs
auf eine Weise zugänglich, die weltweit einzigartig sein dürfte. Die bereits in der ersten Ausgabe
erstaunlich präzise Suchfunktion, soll in den nächsten Monaten konsequent weiterentwickelt
werden. Neben der Verbesserung der Anreicherungs- und Suchalgorithmen sollen die Benutzer
systematisch in die Optimierung der Verlinkungsstruktur einbezogen werden, womit die
automatisch erzeugten Anreicherungskonzepte durch menschliche Intelligenz auf Plausibilität
geprüft und inhaltlich ergänzt würden. Dieses Konzept des sogenannten User Tagging wird
funktionieren, sofern die Benutzer hinreichende Beteiligungsanreize, d.h. eine beispielsweise
spielerisch zu bedienende Oberfläche sowie eine sichtbare Qualitätssteigerung erhalten.
Ihre volle Macht kann die Lösung zudem entfalten, wenn bei der Anreicherung nicht nur die knapp
vier Millionen lokalen Bestandstitel der SLUB Dresden durchsucht würden, sondern auch die im
Bestandskatalog verfügbaren, lizenzierten Volltexte. Das Ergebnis der Termextraktion und
semantischen Anreicherung verbessert sich um ein Vielfaches, je mehr Informationen zur
Indizierung zur Verfügung stehen. Daher würde die Erweiterung der Datenbasis um
Volltextdokumente für die entwickelte, multilinguale Suche nicht nur eine Steigerung des Recalls
(Anzahl der relevanten Suchergebnisse), sondern vor allem auch der Precision (Genauigkeit der
Übereinstimmung der Suchanfrage mit einem Suchergebnis) bedeuten. Hier zeigt sich auch das
Potential der neuartigen Suchtechnologie für jedwede Anwendungsbereiche; insbesondere für
unternehmensinterne Dokumentensuche. Eine thematische Suche, die dem Anwender
Suchanfragen in seiner natürlichen Sprache ermöglicht und dennoch alle tatsächlich, fachlich
relevanten und naheliegenden Dokumente liefert, reduziert nicht nur den Zeitaufwand für eine
erfolgreiche Suche, sondern kann auch bisher verborgenes Wissen aufdecken (Serendipity).
5 Literatur
[DNB 2011] Deutsche Nationalbibliothek (DNB): Der Linked Data Service der Deutschen
Nationalbibliothek, http://files.d-nb.de/pdf/linked_data.pdf; Zugriff am 25.11.2011
[Merton & Barber 2004] Merton, R. K.; Barber, E. G.: The Travels and Adventures of Serendipity: A
Study in Sociological Semantics and the Sociology of Science. Princeton University Press,
Princeton 2004.
[WIKISTATS 2011] Wikistats: Wikimedia Statistics, http://stats.wikimedia.org/index.html#fragment-
12; Zugriff am 25.11.2011
Dr. Achim Bonte
Sächsische Landesbibliothek -
Staats- und Universitätsbibliothek Dresden
01054 Dresden
achim.bonte@slub-dresden.de
www.slub-dresden.de
Robert Glaß
Avantgarde Labs
Löbauer Straße 19
01099 Dresden
rglass@avantgarde-labs.de
www.avantgarde-labs.de
Anne Horn
Avantgarde Labs
Löbauer Straße 19
01099 Dresden
ahorn@avantgarde-labs.de
www.avantgarde-labs.de
Dr. Jens Mittelbach
Sächsische Landesbibliothek -
Staats- und Universitätsbibliothek Dresden
01054 Dresden
jens.mittelbach@slub-dresden.de
www.slub-dresden.de
ResearchGate has not been able to resolve any citations for this publication.
Article
From the names of cruise lines and bookstores to an Australian ranch and a nudist camp outside of Atlanta, the wordserendipity--that happy blend of wisdom and luck by which something is discovered not quite by accident--is today ubiquitous. This book traces the word's eventful history from its 1754 coinage into the twentieth century--chronicling along the way much of what we now call the natural and social sciences.The book charts where the term went, with whom it resided, and how it fared. We cross oceans and academic specialties and meet those people, both famous and now obscure, who have used and abusedserendipity. We encounter a linguistic sage, walk down the illustrious halls of the Harvard Medical School, attend the (serendipitous) birth of penicillin, and meet someone who "manages serendipity" for the U.S. Navy.The story ofserendipityis fascinating; that ofThe Travels and Adventures of Serendipity, equally so. Written in the 1950s by already-eminent sociologist Robert Merton and Elinor Barber, the book--though occasionally and most tantalizingly cited--was intentionally never published. This is all the more curious because it so remarkably anticipated subsequent battles over research and funding--many of which centered on the role of serendipity in science. Finally, shortly after his ninety-first birthday, following Barber's death and preceding his own by but a little, Merton agreed to expand and publish this major work.Beautifully written, the book is permeated by the prodigious intellectual curiosity and generosity that characterized Merton's influentialOn the Shoulders of Giants. Absolutely entertaining as the history of a word, the book is also tremendously important to all who value the miracle of intellectual discovery. It represents Merton's lifelong protest against that rhetoric of science that defines discovery as anything other than a messy blend of inspiration, perspiration, error, and happy chance--anything other than serendipity.
Der Linked Data Service der Deutschen Nationalbibliothek, http://files.d-nb.de/pdf/linked_data.pdf; Zugriff am 25 The Travels and Adventures of Serendipity: A Study in Sociological Semantics and the Sociology of Science
  • R K Merton
  • E G Barber
DNB 2011] Deutsche Nationalbibliothek (DNB): Der Linked Data Service der Deutschen Nationalbibliothek, http://files.d-nb.de/pdf/linked_data.pdf; Zugriff am 25.11.2011 [Merton & Barber 2004] Merton, R. K.; Barber, E. G.: The Travels and Adventures of Serendipity: A Study in Sociological Semantics and the Sociology of Science. Princeton University Press, Princeton 2004.
Jens Mittelbach Sächsische Landesbibliothek - Staats-und Universitätsbibliothek Dresden 01054 Dresden jens.mittelbach@slub-dresden.de www.slub-dresden
  • Dr
Dr. Jens Mittelbach Sächsische Landesbibliothek - Staats-und Universitätsbibliothek Dresden 01054 Dresden jens.mittelbach@slub-dresden.de www.slub-dresden.de