Suchmaschinen - Die Enzyklopädie der Wirtschaftsinformatik

Dieser Beitrag beschreibt den Aufbau, die Funktionen und die Problembereiche von Suchmaschinen im World Wide Web.

Definition

Eine Suchmaschine (auch: Web-Suchmaschine; Universalsuchmaschine) ist ein Computersystem, das Inhalte aus dem World Wide Web mittels Crawling erfasst und über eine Benutzerschnittstelle durchsuchbar macht, wobei die Ergebnisse in einer nach systemseitig angenommener Relevanz geordneten Darstellung aufgeführt werden.

Aufbau algorithmischer Suchmaschinen

Komponenten

Die Aufgabe des Crawlers ist es, neue Dokumente aufzufinden und die Existenz bestehender zu überprüfen, indem Hyperlinks innerhalb bereits bekannter Dokumente verfolgt werden. Der Crawling-Vorgang findet kontinuierlich statt.

Das System zur Syntaxanalyse (parsing module) zerlegt die gefundenen Dokumente in indexierbare Einheiten (einzelne Wörter, Wortstämme oder N-Gramme) und verzeichnet deren Vorkommen innerhalb des Dokuments.

Der Indexer speichert die Wort-Speicherstelle-Paare ab. So werden zwei Indizes erstellt, erstens derjenige der Wörter mit den Nummern der Dokumente, in denen diese vorkommen und zweitens ein Index mit den Dokumentnummern und denen ihnen zugeordneten Wörtern.

Gibt der Nutzer eine Suchanfrage ein, so wird mittels des Query Module der Index abgefragt. Das Anfragemodul (query module) setzt die eingegebene Suchanfrage in eine weiterverarbeitbare Form um. Dabei werden beispielsweise besondere Befehle und Operatoren so aufgelöst, dass sie entsprechend im Index abgefragt werden können. Die Index Stream Readers dienen dazu, die umgesetzte Suchanfrage mit dem Index abzugleichen und die passenden Dokumente an das Anfragemodul zurückzugeben. Von dort aus werden die Informationen zu den gefundenen Dokumenten an den Nutzer ausgegeben [ausführlich zu den Komponenten: Lewandowski 2005, S. 26-30].

Ranking

Kernkomponente jeder Suchmaschine ist das Ranking, welches auf die gefundene Treffermenge angewendet wird. Vor allem bedingt durch das Nutzerverhalten im Web, welches durch wenig elaborierte Anfragen und die starke Fokussierung auf die ersten Trefferplätze der Ergebnisliste gekennzeichnet ist [Spink&Jansen 2004; Hochstotter & Koch], ist ein Ranking nötig, welches sich vor allem auf die Präzision der Suchergebnisse konzentriert. Die Vollständigkeit der Treffermenge (Recall) steht demgegenüber im Hintergrund.

Auch wenn die Rankingverfahren der Suchmaschinen nicht offengelegt werden und es sich, wenn man jeden einzelnen Faktor berücksichtigt, um ein Zusammenspiel von hunderten von Faktoren handelt, so haben sich doch vier Bereiche herausgebildet, die für das Ranking der Ergebnisse bestimmend sind.

Mittels textspezifischer Faktoren wird abgeglichen, welche Wörter der Suchanfrage in den zu durchsuchenden Dokumenten vorkommen und daher in die Treffermenge mit aufgenommen werden sollen. Das Vorkommen der Suchbegriffe kann sich auch auf im Dokument vorkommende Varianten der Suchbegriffe oder Wörter aus auf das Zieldokument verweisenden Dokumenten (aus den Ankertexten) beziehen [Lewandowski 2015, S. 92]. Neben dem Vorkommen der Suchbegriffe wird mittels Textstatistik ein Vorkommen an exponierter Stelle (z.B. Überschrift, Beginn des Dokuments, besondere Hervorhebung) höher gewichtet.
Zweiter bestimmender Bereich im Ranking ist die Messung der Popularität von Dokumenten, meist durch deren Verlinkung (Beispiele für Algorithmen: PageRank, HITS), aber auch durch das Klickverhalten der Nutzer (Erfassung über Logfiles, Toolbars; Protokollierung der Daten von Nutzern, die in einen der Dienste einer Suchmaschine eingeloggt sind) und die Erfassung von expliziten Bewertungen (vor allem im Kontext von Social Media).
Dritter Rankingbereich ist die Aktualität. Je nach Zweck der Anfrage kann es sinnvoll sein, entweder besonders aktuelle Dokumente oder statische, dafür populäre Dokumente anzuzeigen. Da linktopologische Algorithmen tendenziell ältere Dokumente bevorzugen, wird Aktualität auch als Ausgleichsfaktor herangezogen. In der Praxis sind meist durchmischte Trefferlisten zu finden, in die einige besonders aktuelle Dokumente eingestreut werden.
Lokalität berücksichtigt den Standort des Nutzers. Suchergebnisse können so an den momentanen Standort und damit assoziierte Kontexte und Informationsbedürfnisse angepasst werden.
Personalisierung: Die Ergebnisse werden an den individuellen Nutzer angepasst, wobei vor allem die von diesem Nutzer in der Vergangenheit gestellten Suchanfragen und getätigten Interaktionen als Basis der Berechnung dienen.
Technische Rankingfaktoren sind Faktoren, die sich nicht auf die inhaltliche Güte von Informationsobjekten beziehen, sondern unterstützend beispielsweise die Ladegeschwindigkeit von Webseiten berücksichtigen.

Während klassisch in Suchmaschinen gerankte Trefferlisten angezeigt werden, bei denen jeder Treffer in gleicher Weise präsentiert wird, verfolgen Suchmaschinen inzwischen den sog. Universal-Search-Ansatz, bei dem zwar die Listendarstellung grundsätzlich bestehen bleibt, jedoch um Treffer aus sog. vertikalen Suchen (gesonderten thematischen Datenbeständen) angereichert wird [Quirmbach 2009]. Hinzu kommt die Abkehr von Dokumenten als Suchergebnissen und die Hinwendung zu Fakteninformationen, die die Suchanfragen direkt auf der Suchergebnisseite beantworten sollen (z.B. bei Google mit dem sog. Knowledge Graph).

Problembereiche

Suchmaschinen werden vor allem kritisch betrachtet hinsichtlich der Qualität der Ergebnisse, des Datenschutzes (vor allem für die Personalisierung von Suchergebnissen und Werbung werden umfangreiche Datensammlungen, die bedingt einem individuellen Nutzer zugeordnet werden können, angelegt), hinsichtlich der angenommenen Meinungsmacht von Suchmaschinen sowie hinsichtlich der bevorzugten Präsentation der von den Suchmaschinenbetreibern bzw. ihrer Partner bereitgestellten Angebote in den Trefferlisten (Verletzung der sog. Such-Neutralität).

Suchmaschinenmarkt

Der Suchmaschinenmarkt wird von wenigen Anbietern dominiert; international bedeutsam sind vor allem die Suchmaschinen Google und Bing. Besonders in Europa ist der Suchmaschinenmarkt stark durch Google bestimmt, welches in den meisten Ländern Marktanteile von mehr als 90 Prozent erreicht. Portale (wie Yahoo oder T-Online) beziehen ihre Suchergebnisse in der Regel von einer der großen Suchmaschinen (sog. Partnerindex-Modell).

Literatur

Höochstotter, Nadine & Koch, Martina. Standard parameters for searching behaviour in search engines and their empirical evaluation. Journal of Information Science, 35(1), 45–65, 2009

Levene, Mark: An Introduction to Search Engines and Web Navigation. Harlow: Pearson Education Limited, 2006

Lewandowski, Dirk: Suchmaschinen verstehen. Berlin Heidelberg: Springer, 2015

Lewandowski, Dirk (Hrsg.): Handbuch Internet-Suchmaschinen. 3 Bände (2009-2013). Berlin: Akademische Verlagsgesellschaft AKA

Lewandowski, Dirk; Höchstötter, Nadine: Qualitätsmessung bei Suchmaschinen: System- und nutzerbezogene Evaluationsmaße. In: Informatik Spektrum 30 (2007), Nr. 3, S. 159-169

Machill, Marcel; Beiler, Markus (Hrsg.): Die Macht der Suchmaschinen/ The Power of Search Engines. Köln: Herbert von Halem Verlag, 2007

Quirmbach, Sonja: Universal Search. In: Lewandowski, Dirk (Hrsg.): Handbuch Internet-Suchmaschinen. Heidelberg. AKA Verlag, 2009

Hier weiterverbreiten

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.