Cautarea in webul invizibil
Am mai tratat această temă cu vreo doi ani în urmă, dar revin asupra ei deoarece chiar sursa pe care am folosit-o atunci estimează azi o amploare de mii de ori mai mare a webului invizibil.
Din imensitatea webului, estimat la cca 90.000 de terabyţi, partea indexată de motoarele de căutare este doar 2 la mie. Restul este ceea ce numim webul invizibil sau profund (Deep web).
Cu alte cuvinte 99,98 la sută din adresele web nu sunt indexate de Google, Bing, Yahoo etc. pe care le folosim cu frenezie pentru că roboţii motoarelor cunoscuţi sub numele de crawlere sau spideri nu le pot citi conţinutul.
Probabil vi se va părea ciudat faptul că doar paginile web ale Bibliotecii Congresului USA sunt de 20 de ori mai numeroase decât numărul tuturor paginilor web pe care le găsesc motoarele de căutare uzuale.
Cea mai mare parte a webului invizibil o reprezintă bazele de date academice, guvernamentale, sau ale unor mari biblioteci, organizaţii internaţionale, companii etc. O bună parte din aceste date nu poate fi accesată decât de persoanele autorizate.
Un blog ne propune să pătrundem în webul invizibil prin intermediul a
10 motoare specializate în acest scop care selectează baze de date, directoare sau alte structuri cu pagini invizibile direct.
Cred că unele din ele (eu am recunoscut
Infoplease) trimit şi la colecţii cu adrese indexate de motoarele uzuale.
Etichete: Internet-IT