mercredi 3 juillet 2002
Le "web invisible" (deep web, hidden web) désigne la partie du web non accessible aux moteurs de recherche classiques.
Et ce parce que :
les documents sont trop volumineux pour être entièrement indexés,
des pages sont protégées par l’auteur (balise meta qui stoppe le robot),
des pages sont générées seulement dynamiquement, lors d’une requête par exemple,
le format des documents n’est pas reconnu par les moteurs (de moins en moins vrai avec un moteur comme Google...).
Chris Sherman et Gary Price, "search engines’ US experts", proposent dans leur ouvrage "The Invisible Web" de distinguer 4 types de web
Le web invisible est vaste puisque selon les estimations, très variables et difficiles, les meilleurs moteurs n’indexent que 3 à 10% du web. Voir à ce sujet la taille du web
Le web invisible comprend donc souvent des bases, banques de données et bibliothèques en ligne gratuites ou payantes...Voici une sélection de ressources permettant d’accéder à ce web invisible ou au "not pure invisible", le web "mal" indexé par les moteurs
Voir en ligne : The invisible web