Tief im Deep Web versunken

Habt Ihr schon mal vom „Deep Web“ gehört?

Das Deep Web (auch Hidden Web oder Invisible Web) bzw. Verstecktes Web bezeichnet den Teil des Internets, der bei einer Recherche über normale Suchmaschinen nicht auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in „Inhalte, die nicht frei zugänglich sind“ und „Inhalte, die nicht von Suchmaschinen indiziert werden“. Die Größe des Deep Web kann nur geschätzt werden – es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen werden ständig weiterentwickelt, daher können Webseiten, die gestern noch zum Deep Web gehörten, heute schon Teil des Oberflächenwebs sein.

So stehts bei Wikipedia. Erstaunlich. Das Deep Web ist anscheinend 50-60 mal so groß wie das Web an der Oberfläche. Da bewegt sich eine immense Datenflut unter der Oberfläche, die sich in keiner Weise komplett erfassen lässt. Allerdings ist auch fraglich, ob es sinnvoll ist, diese Datenmengen zu erfassen, denn es werden sich auch viele „user generated“ Inhalte unter den vielen vielen Terabyte befinden. Private Homepages (teilweise aus altem HTML-Style bestehend, da jahrelang ungepflegt) endlos Urlaubsphotos – oder neuerdings auch -videos. Ebenfalls ungepflegt, diesmal aber eher aus dem einen Grund, dass das neue „web 2.0“ einen gewissen Hang zur Messiness fördert.

Wie viele Terabyte da wirklich herum liegen, hat die Universität Berkeley in Kalifornien aus irgendeinem nicht näher genannten Grund ermittelt:

Surface Web – 167 Terabyte, Deep Web – 91.850 Terabyte. Die gedruckten Bestände der Library of Congress in Washington, eine der größten Bibliotheken der Welt, umfassen 10 Terabyte. (nochmal Wikipedia)

Das Deep Web wird nämlich in mehreren Unterarten klassifiziert. Für alle SEOs oder ähnlich gepolten Marketingstrategen sind einige Eigenschaften des „Opaque Net“ sicherlich sehr interessant:

Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden.

Dazu kommen Dateiformate, die nur teilweise erfasst werden können (zum Beispiel PDF, Google indiziert immer nur die ersten 120 kB – etwa 100.000 Textzeichen – einer PDF-Datei).

Will heissen: versteck keine wichtigen Inhalte in der Tiefe Deines Webauftritts. Hätte ich eh nicht gemacht. Heisst aber auch: stell sicher, dass sich in den PDFs die wichtigsten Stichworte innerhalb der erst 100.000 Textzeichen befinden.

Das „truly invisible Web“ bezeichnet die Daten, die in keinem Fall von einer Suchmaschine erfasst werden können. Das ist unter anderem für Webdesigner und andere Flash Liebhaber relevant:

Mit Truly Invisible Web werden Webseiten bezeichnet, die nicht indiziert werden können. Das können Datenbankformate sein, die vor dem WWW entstanden sind (einige Hosts), Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate genauso wie Dateiformate, die nicht erfasst werden können (zum Beispiel Flash und Grafikformate). Dazu kommen komprimierte Daten, oder Webseiten, die nur über eine Benutzernavigation, die Grafiken (Image Maps) oder Scripte (Frames) benutzt, zu bedienen sind.

Man muss sich also wahrlich fragen, was im Deep Web alles an unbekannten Schätzen verborgen sein könnte. Und um wieviele Informationen die Welt reicher aber auch verzettelter wäre, wenn die Suchmaschinen erst mal in der Lage sind, das Deep Web komplett zu erfassen. Denn anscheinend wird ja momentan daran gearbeitet. Wenn allerdings das semantische Web bis dahin soweit ist, die Intention der User in Suchergebnisse zu übersetzen, dann spielt es auch keinerlei Rolle mehr, ob die Menge an Inhalten für Menschen handhabbar ist oder nicht.

So, ich muss hier aufhören – ich hab damals nur einen Küstenschifferschein gemacht und darf so stille Wasser gar nicht befahren.



Ähnliche Beiträge

Auch sehr interessant:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.