Question d'origine :
bonjour,
qu'est ce que le web invisible ? quelle est la/les différence/s avec le web que l'on connaît ? que contient-il et comment peut on y avoir accès ? comment peut on mettre en ligne quelque chose sur le web invisible?
merci
Réponse du Guichet
gds_db
- Département : Equipe du Guichet du Savoir
Le 01/06/2006 à 07h32
Voici la définition proposée par Futura Sciences :
Le Web invisible ou Web caché est la partie du Web correspondant à l'ensemble des documents qui ne sont pas indexés par les outils de recherche traditionnels. Le Grand dictionnaire terminologique publié par l'Office québecois de la langue française en donne une définition précise : "Les ressources du Web invisible comprennent, entre autres, les sites Web construits autour d'une base de données (interrogeable uniquement par un moteur de recherche interne), les pages accessibles par un formulaire de recherche, les pages protégées par un mot de passe, les pages interdites aux robots d'indexation, les pages écrites dans des formats propriétaires, les intranets et les extranets."
En complément, une définition extraite de l'ouvrage intitulé Recherche et veille sur le Web visible et invisible :
Parallèlement au Web visible, composé de sites en accès libre offrant des pages reliées entre elles, il existe un Web invisible dont le volume est bien plus important et qui comprend :
• les sites Web construits autour d'une base de données, interrogeable uniquement par un moteur de recherche interne. À la différence des sites du Web visible, qui permettent une recherche par choix successifs, les bases de données sont interrogeables via un formulaire de recherche. Les documents de la base ne s'affichent que dynamiquement, en réponse à une question directe ; ils ne peuvent donc être indexés par le robot d'un moteur de recherche. Ces sites peuvent offrir, par exemple, les références de brevets, le texte intégral de publications avec leurs archives ou des références bibliographiques dans divers domaines ; ils peuvent être en accès libre ou être réservés aux abonnés ;
• les divers sites offrant une consultation par rubriques et sous-rubriques, mais pour lesquels il est nécessaire de s'identifier préalablement, la consultation pouvant ensuite être gratuite ou non. C'est la politique adoptée notamment par de nombreux sites scientifiques ;
• les sites offrant des fichiers dans certains formats, non reconnus par les robots : documents (tableur...), animations (flash...), fichiers pdf, etc. Les moteurs limitent en effet leur indexation aux pages html et à certains documents spécifiques (fichiers musicaux MP3, images...), recensés le plus souvent par des outils spécialisés ;
• les diverses banques de données hébergées sur les grands serveurs classiques (Dialog, Data-Star, STN International, Lexis-Nexis, Questel.Orbit, L'Européenne de Données...). Ces bases, accessibles avec abonnement, ont pendant longtemps été réservées aux professionnels de l'information (leur interrogation nécessitait l'apprentissage d'un langage spécifique), mais les serveurs ont développé aujourd'hui des interfaces conviviales accessibles sur le Web.
• les pages Web qui contiennent la balise [no robot] ; tout éditeur de site Web peut décider, lors de la création de ses pages, d'interdire leur indexation par un robot. Il lui suffit pour cela de le préciser dans les balises méta.
Pour en savoir plus, vous pouvez consulter ces sites qui proposent notamment des outils pour explorer ce web invisible :
- Signets BNF
- Intelligence-Center.com
- URFIST Lyon
- www.sciences.univ-nantes.fr : Outils et techniques pour explorer le web invisible
- www.indexel.net
DANS NOS COLLECTIONS :
Commentaires 0
Connectez-vous pour pouvoir commenter.
Se connecter