Monday, July 28, 2008

Google findet mehr als 1 Billion(!) Web-Adressen...

Ich hatte es ja schon immer gewusst, dass der Gogle Suchindex "ziemlich" gross ist. Die letzten "offiziellen" Zahlenangaben, die mehr oder minder indirekt gemacht wurden, besagten, dass Google im Jahr 2005 einen Datenbestand von 24 Milliarden Webseiten im Index verwaltet [1]. Aber die Zeit bleibt ja nicht stehen und das Web wächst beständig....und jetzt schreibt der "official Google Blog" am Wochenende, das der Google-Suchindex die magische Marke von 1 Billion (!) Webseiten überschritten hätte.....[2]

Natürlich muss man bei US-amerikanischen Zahlenangaben stets vorsichtig sein. "One billion" steht ja lediglich für unsere "Milliarde". "Eine Billion" dagegen sind tatsächlich 10^12 (1.000.000.000.000), im Englischen "one trillion", also eine ganze Menge. Jetzt stellen wir uns einmal vor, wir haben diese Billion Indexeinträge, die zudem noch untereinander verlinkt sind. Würde man diese Datenstruktur klassischerweise als Matrix speichern, bräuchte man 10^24 Einträge, von denen die allermeisten ja leer wären. Also speichert man eine derartige Datenstruktur doch besser auf effizientere Weise. Allerdings muss man dabei bedenken, dass der Zugriff auf Links immer noch sehr schnell erfolgen muss, da die iterative PageRank-Berechnung ja auch nicht ohne ist [3]. Ich wäre wirklich einmal daran interessiert, wie lange jetzt eigentlich eine komplette Berechnung des PageRanks für den Gesamt-Datenbestand heute dauert....

[NACHTRAG:]
Tja...man soll ja den Tag nicht vor dem Abend loben...
Der San Francisco Chronicle setzte heute einen Nachtrag zu o.a. Google Meldung, in der es hieß, dass der GoogleBot zwar mehr als 1 Billion Webseiten gefunden hätte, von diesen aber lediglich 30 - 50 Milliarden im Google-Suchindex verwaltet werden [4]. Naja, immerhin haben wir jetzt einen Anhaltspunkt, wie groß das WWW sein könnte.....und dass tatsächlich auch nicht alles bei Google gefunden werden kann.


References:
[1] TNL Blog: Google has 24 billion items index, considers MSN search nearest competitor, September 2005.
[2] The Official Google Blog: We knew the Web was Big....., Juli 25, 2008.
[3] Sergey Brin and Lawrence Page: The anatomy of a large-scale hypertextual Web search engine, Computer Networks and ISDN Systems30(1-7):107--117(1998).
[4] SFGate: New Search Enging challenges Google, July 28, 2008.