Was Google nicht findet – Deep Web
Das "Deep Web" bezeichnet alle Dokumente im WWW, die in den Indexen der großen Suchmaschinen nicht vorkommen und folglich bei einer Suchanfrage auch nicht berücksichtigt werden können. Belastbare Zahlen zur Gesamtgröße des WWW gibt es nicht, daher lässt sich auch nicht genau feststellen, welchen Anteil davon eine Suchmaschine erfasst. Die Google-Datenbank enthält nur diejenigen Webseiten, die der Crawler besucht hat.
Technische sowie (datenschutz-)rechtliche Barrieren verhindern die Indexierung zahlreicher Webangebote. Nach den Gründen der Nicht-Erfassung lassen sich die Webseiten des Deep Web in fünf Kategorien einteilen. [1]
- Opaque Web: Das "Opaque Web" beinhaltet Webseiten, die zwar erfasst werden können, aber aus Gründen der Effizienz nicht erfasst werden. Nicht verlinkte Seiten oder tiefe Verzeichnisstrukturen sowie Webseiten, die kaum besucht werden, falle in diese Kategorie.
- Private Web: Mit dieser Bezeichnung werden Webangebote beschrieben, die nur aufgrund von Zugangsbeschränkungen der Anbieter nicht indiziert werden, wie z.B. Intranet-Seiten, passwortgeschützte Daten sowie Webseiten, die durch den Robots Exclusion Standard oder entsprechende Metadaten im Quelltext vor einer Indizierung geschützt werden.
In diese Kategorie fallen zahlreiche fachrelevante Datenbankangebote, die unter Umständen in der eigenen Universitätsbibliothek kostenlos zur Verfügung stehen.
- Proprietary Web: In diese Kategorie fallen Webseiten, die erst nach Anerkennung von Nutzungsbedingungen etc. zugänglich sind.
Dazu gehören auch die meisten lizenzfreien Datenbanken und Volltextangebote.
- Invisible Web: Als "unsichtbar" werden Webseiten bezeichnet, die erst auf Benutzerabfrage dynamisch erzeugt werden, z.B. nach Ausfüllen eines Webformulars. Auch die Webseiten des Invisible Web könnten theoretisch indiziert werden, werden jedoch aus wirtschaftlichen und strategischen Gründen nicht erfasst.
In diese Kategorie fallen z.B. sämtliche Bibliothekskataloge im WWW, denn die Webseite mit den passenden Katalogeinträgen wird erst nach Abschicken einer entsprechenden Suchanfrage erzeugt.
- Truly Invisible Web: Die Webseiten dieser Kategorie können aus technischen Gründen bislang noch nicht indiziert werden. Dazu gehören Datenbankformate aus der Zeit vor dem WWW, komplexe und Nicht-Standard-Dateiformate sowie komprimierte Daten oder Websites, deren Navigation über Grafiken (Image Maps) der Skripte (Frames) funktioniert.
Anmerkungen
[1] Unterteilung nach Chris Sherman, Gary Price: The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See, Cyberage Books 2001, online unter URI: http://hdl.handle.net/2142/8528 (13.05.2014).