zum Inhalt springen

Google & Co.: Indexbasierte Suchmaschinen

Die Suchmaschine Google ist für die meisten Studierenden (und sogar für viele Lehrende) der meistgenutzte Einstiegspunkt ins WWW. Seit seiner Gründung 1998 hat Google nach und nach die redaktionell erstellten Webverzeichnisse verdrängt und ist selbst zum meistgenutzten Suchdienst im WWW avanciert. Die simple intuitive Bedienung sowie die Schnelligkeit und die Menge der Suchergebnisse tragen gleichermaßen zum Erfolg des Recherchewerkzeugs bei. Die schier unüberschaubare und täglich wachsende Menge von Dokumenten im WWW suggeriert, dass praktisch das gesamte Wissen der Menschheit zur Verfügung steht und durchsucht werden kann. Doch täuscht die Datenmenge leicht darüber hinweg, dass längst nicht alle Publikationen im WWW zur Verfügung stehen. Viele Texte werden auch in Zukunft nur in analoger Form vorliegen, weil urheberrechtliche Gründe oder eine geringe Nachfrage eine Digitalisierung verhindern.

Doch selbst digitale Informationen bleiben Google teilweise verborgen. Die meisten Suchanfragen liefern eine unüberschaubare Menge an Treffern und suggerieren dadurch den Nutzern ein vollständiges Suchergebnis. In Anbetracht mehrerer Hunderttausend Fundstellen keimt selten der Verdacht auf, es könnten relevante Informationen fehlen. Dennoch blendet Google den größeren Teil der im Netz vorhandenen Daten aus; tatsächlich durchsucht das Programm nur das so genannte "Surface Web". Diese Einschränkung ist weitgehend technisch bedingt; zum Verständnis ist ein Blick auf die Funktionsweise einer indexbasierten Suchmaschine erforderlich.

Das Material für Googles Datenbank liefert ein kleines Programm, ein "Crawler" oder "Robot", welches über Links Webseiten abruft und deren Quelltexte kopiert. Die Seiteninhalte werden indexiert und für eine schnelle Abwicklung der Suchanfragen bearbeitet; das Ergebnis wird in einer Datenbank abgespeichert. Bei einer Suchanfrage wird nur diese Datenbank durchsucht - und nicht das WWW. Google durchsucht also eine Daten-Konserve, das erklärt einerseits die verblüffende Schnelligkeit der Bearbeitung und andererseits die gelegentlich veralteten Suchergebnisse.

Die Suchergebnisse werden nach einem geheimnisvollen System sortiert, um Manipulationen der Reihenfolge durch kommerzielle Webseitenbetreiber auszuschließen. Die Folge ist jedoch, dass für den Suchmaschinennutzer die Rangfolge der Ergebnisse nicht mehr nachvollziehbar ist. Ein zentrales Element dieser Sortierung ist der sogenannte PageRank-Algorithmus, der aus der Verlinkungsstruktur einer Webseite errechnet wird. Anders als bei der wissenschaftlichen Recherche erforderlich, bestimmen damit statistische Merkmale - und nicht inhaltliche Kriterien - über die Relevanz von Dokumenten. Allerdings birgt das von Google praktizierte Ranking-Verfahren auch einen klaren Vorteil: Es ist kaum beeinflussbar, denn entsprechende Spam-Techniken würden einen enorm hohen Aufwand erfordern.

Fazit: Eine Suchmaschine kann zur schnellen Suche nach aktuelleren Informationen genutzt werden. Für die wissenschaftliche Recherche taugen die Crawler nicht. Das liegt vor allem an den Datenbeständen, die nicht von Google & Co. erschlossen werden: das Deep Web.
 

Literatur

David Gugerli: Suchmaschinen: die Welt als Datenbank, Frankfurt am Main 2009.

*