Google vindt biljoen URL’s, maar doorzoekt ze niet
Slechts klein percentage werkelijk geïndexeerd
28 juli 2008 | Janneke ScheepersGoogle heeft onlangs de mijlpaal van een biljoen (1.000.000.000.000) unieke geïndexeerde URL's bereikt, meldden twee medewerkers vrijdag op de officiële Google-blog. Het overgrote merendeel van de gevonden pagina's wordt niet doorzocht.
Veel webpagina's hebben meerdere URL's en die telt Google niet mee. "Zelfs na verwijdering van die exacte duplicaten zien we een biljoen unieke URL's, en het aantal individuele webpagina's groeit met meerdere miljarden pagina's per dag", schrijven softwaretechnici Jesse Alpert en Nissan Hajaj in het blogbericht.
Onmeetbaar
Het werkelijke aantal unieke pagina's is eigenlijk onmeetbaar, vervolgen ze. Webkalenders kunnen bijvoorbeeld een 'volgende dag'-link hebben. Google kan die link altijd volgen en iedere keer weer een nieuwe pagina vinden, maar dat doet de zoekmachine niet omdat het geen nuttige zoekresultaten oplevert.
Google doorzoekt ook bij lange na niet alle pagina's in zijn index. "Vele daarvan lijken op andere, of bevatten automatisch gegenereerde content vergelijkbaar met het voorbeeld van de kalender, die niet erg bruikbaar is voor zoekers", verklaren Alpert en Hajaj. Ze doelen waarschijnlijk tevens op spam.
Het aantal pagina's dat Google werkelijk indexeert, wordt meestal geschat op zo'n 40 miljard.
bron: ZDNet
Related Partner info »
Cloudbattle tussen Google en Microsoft
26/04/2012 | seminar | Partner info : Cloudbattle
Black hat SEO vermijden
05/05/2011 | whitepaper | Partner info : QueroMedia
Lees verder op ZDNet »
Nog meer op ZDNet »
vSphere licenties onder de loep
Blog : Zakelijke IT
Met de recente lancering van hun eerste update (in Windows termen het equivalent van een Service Pack) voor de vSphere 5 suite staat voor veel bedrijven het licht op groen om hun huidige vSphere 4 omgeving up te graden. Maar hoe eenvoudig is die taak?
» Boot Windows 8 te snel?
news
De opstarttijd van Windows 8 is zo kort dat er nauwelijks tijd is om in de Veilige Modus te geraken. Microsoft sleutelde daarom flink aan de bootcyclus.
» Antwerpse jeugd kan begeleid gamen
news
In Antwerpen opent vandaag Gamebox, een project waar jongeren onder begeleiding van specialisten kunnen gaan gamen.
» Super tip: het internet als e-book
help
De webapplicatie Readlists maakt gratis e-books van door jou geselecteerde nieuwsartikelen en verstuurt ze naar je smartphone, tablet of e-reader.
Review: Diablo III
Game
Twintig jaar geleden redde een groepje naamloze helden de wereld. Nu is het aan een nieuwe generatie om de demonen terug richting de hel te sturen.







