Значение слова "DOKUMENTSUCHSYSTEM" найдено в 1 источнике

DOKUMENTSUCHSYSTEM

найдено в "Universal-Lexicon"

Dokumentsuchsystem
 
[engl. information retrieval system], ein Verfahren oder Programm, mit dessen Hilfe man aus einer sehr großen Zahl von Quellen eine kleine Menge von Dokumenten herausfiltern kann, welche vom Nutzer spezifizierte Informationen enthalten. Dokumentsuchsysteme werden seit jeher bei Bibliotheken eingesetzt; mit zunehmender Verbreitung von elektronisch gespeicherten Dokumenten und der Vernetzung der Informationsspeicher (World Wide Web) spielen elektronische Systeme eine immer größere Rolle. Im WWW heißen Dokumentsuchsysteme meist Suchmaschinen.
 
Die grundlegenden Suchstrategien der Dokumentsuchsysteme sind die boolesche Suche, Gewichtungsmodelle und Klassifikationen.
 
Bei der booleschen Suche werden Dokumente nach einzelnen Wörtern durchsucht. Mehrere Suchbegriffe können angegeben und durch logische Operatoren (z. B. And, Or, Not, Near) verknüpft werden. Beispielsweise filtert die Suchanfrage »Wetter And Deutschland« nur diejenigen Dokumente heraus, in denen sowohl das Wort »Wetter« als auch das Wort »Deutschland« auftreten. Die boolesche Suche zeichnet sich durch logische Klarheit aus, beschränkt sich aber im Wesentlichen auf die Faktensuche (ohne Intelligenz und Berücksichtigung des Kontextes).Sie ist die meistverwendete Suchmethode bei kommerziellen Internet-Suchmaschinen (z. B. Altavista), da hierfür keine zusätzliche Aufbereitung der zu durchsuchenden Dokumente erforderlich ist.
 
Die Gewichtungsmodelle suchen Dokumente nach einer geringen Anzahl von Wörtern ab und ordnen die Suchergebnisse nach bestimmten, typischerweise auftretenden Merkmalen: Taucht z. B. ein Wort häufig in einem Dokument auf, steht es am Anfang des Dokuments oder gar in der Titelzeile, wird das Dokument als besonders informationsträchtig gewichtet. Taucht ein Wort dagegen in sehr vielen Dokumenten auf (z. B. »und«), wird es als wenig bedeutsam angesehen. Überdies können Dokumente, auf die von vielen anderen Dokumenten verwiesen wird, als inhaltsträchtig gelten. Die Suchmaschine Google arbeitet sehr erfolgreich mit solchen Ergebnisgewichtungen.
 
Klassifikationen strukturieren Themen oder Objekte eines Wissensgebietes nach einem mehr oder weniger formalen Schema. Sie sind gewöhnlich hierarchisch geordnet und werden als Baumstruktur realisiert: Eine Menge von Themen wird in (idealerweise) überschneidungsfreie Teilmengen (Klassen, Kategorien) zerlegt, welche die gesamte Themenmenge abdecken. Diese Klassen werden ihrerseits wieder in kleinere überschneidungsfreie Teilmengen zerlegt. Klassen und Unterklassen werden durch Bezeichner oder Nummerierungen benannt, wobei die Bezeichnungen von Unterklassen durch Anhängen einer weiteren Kennzeichnung an den Namen der übergeordneten Klasse gebildet werden. Diese Bezeichner können als Suchmerkmal dienen. Vorteilhaft an Klassifikationen ist die klare inhaltliche Struktur, wodurch der Benutzer schnell zu einem relevanten Ergebnis gelangt. Da nur der Mensch eine korrekte Klassifizierung mit vertretbarem Aufwand vornehmen kann, ist die Anzahl der durch eine Klassifikation erfassten Dokumente geringer als diejenige, die sich mit der booleschen Suche finden lassen. Klassifikationen können nur schwer an neue Entwicklungen angepasst werden. Die feste Klasseneinteilung erfordert beim Klassifizieren und Suchen von Objekten Entscheidungen, die nicht immer eindeutig oder objektiv zu treffen sind, sondern die bei verschiedenen Nutzern unterschiedlich ausfallen können. Zur Abhilfe werden zusätzliche Verweise zwischen Klassen zugelassen. Viele Suchmaschinen bieten neben der booleschen Suche auch eine Klassifikation an. Im WWW nennt man klassifizierende Suchprogramme meist Kataloge. Eine mit der Klassifikation verwandte Methode ist die Erstellung eines Thesaurus.
 
Nutzende eines Dokumentsuchsystems können ihren Informationsbedarf häufig nur vage formulieren, und dieser kann sich im Laufe eines Suchprozesses entwickeln, präzisieren und verändern. Deshalb müssen zum einen Suchsysteme mit unscharfen Anfragen umgehen können, zum anderen muss die Dokumentsuche als interaktiver Prozess zwischen Mensch und Maschine betrachtet werden, der sich über mehrere Such- und Ergebniszyklen erstrecken kann. Verschiedene Dokumentsuchsysteme berücksichtigen dies z. B. durch eine Kombination von boolescher Suche und Gewichtungsmodell. Mit computerlinguistischen Methoden können auch in einem Dokument vorkommende Wörter in verschiedenen grammatikalischen Formen oder leicht variierenden Schreibweisen richtig zum Suchwort in der grammatischen Grundform zugeordnet werden (Stemming).
 
Die Qualität eines Dokumentsuchsystems drückt sich darin aus, ob die informationsträchtigsten Dokumente bei einer Suche erfasst werden (Abdeckung) und wie groß der Anteil der relevanten Dokumente in der Liste der herausgesuchten Dokumente ist (Präzision). In der Regel lässt sich eine möglichst vollständige Abdeckung der relevanten Dokumente nur zu Lasten der Präzision erreichen und umgekehrt.


T: 34