Jean-Pierre LARDY
UNIVERSITE CLAUDE BERNARD - URFIST
courriel : mailto:lardy@univ-lyon1.fr serveur :
et http://www.adbs.fr/adbs/sitespro/lardy/risi.htm
I- Internet et le web
Internet est une infrastructure de réseaux interconnectés. Petit à petit des services ont été développés pour l’exploiter. Telnet, Ftp, les messageries (individuelles, de groupe, instantanées, Gopher ...). Le web, créé en 1990 au CERN, avait comme but de faciliter la publication et la diffusion de documents multimédia. Mais il a été victime de sa richesse et de la facilité de création. Pour beaucoup le web est devenu synonyme d’Internet.
Jusqu’en 1995, la structure de l’information sur le web était statique et nécessitait une mise à jour régulière et souvent fastidieuse pour maintenir son niveau d’attraction. En effet les informations sont inscrites en "dur" dans la page HTML. A partir de 1995, avec l’ouverture d’Internet à toute la société, cette technique de publication a montré ses limites :
? Mises à jour fastidieuses
? Risque d’erreur
? Chartre graphique difficile à maintenir
? Pas d’interactivité
? Impossibilité de renvoyer une page personnalisée selon le visiteur : langue etc...
De plus beaucoup d’anciens services ont migré vers une interface basée sur les navigateurs : par exemple les webmails ou les Opacs.
Définition : Le web invisible est l’ensemble des documents (textes, vidéos, images...) du web qui n’est pas indexé par les outils de recherche traditionnels. Ce sont les moteurs de recherche qui posent le plus de problèmes. Les documents constituant le Web invisible peuvent être dynamiques (non localisables), non référencés (volontairement ou non), ou de nature non indexable (ex. : les animations Flash ...).
En anglais : Invisible web ou deep web.
Taille du web
Depuis plusieurs années, des auteurs ont publié des études sur l’étendue du web :
? Le 8 juillet 1999, Steve Lawrence et C. Lee Giles annoncent dans la revue Nature que le web public a 800 millions de pages ;
? Le 18 janvier 2000, Inktomi et NEC Research Institute publient une étude selon laquelle le web compterait 1 milliard de pages web ;
? Le 11 juillet 2000, la société Cyveillance évalue à plus de 2 milliards de pages web ;
? Le même mois, la société BrightPlanet révèle que le web contiendrait environ 500 milliards, pas de pages web mais de documents. Certains ont transformé les 500 milliards de documents en 500 milliards de pages web.
En octobre 2000, l’OCLC a évalué le nombre de sites web :
1997 : 1 570 000 1998 : 2 851 000 1999 : 4 882 000 2000 : 7 399 000
Elle divise le web en trois parties : le web public, le web privé et le web provisoire. Le web public est libre d’accès. Le web privé demande aux visiteurs un mot de passe. Enfin le web provisoire comprend des sites « en construction », au contenu non défini, vide de sens ou superficiel. Selon les statistiques, il y aurait 7,1 millions de sites uniques. En terme de pourcentage, le web public représente 41%, le web privé, 21%, le web provisoire 37% et le web « adulte » 1%. Or, selon l’étude de 1999, les principaux moteurs de recherche couvrent 60% du web public. Malgré les différences méthodologiques, les moteurs de recherche, tous confondus, indexent en grande partie le web public mais ignore le reste.
II- Les raisons du web invisible
Plusieurs raisons dues aux méthodes de référencement dans les outils de recherche expliquent le web invisible.
Référencement : Enregistrement d’un site Web dans les moteurs et répertoires de recherche, afin de le faire connaître aux internautes, d’en accroître la visibilité et d’en augmenter ainsi le nombre de visiteurs.
Le référencement des sites et pages
Plusieurs cas de figure existent :
? Les annuaires généralistes grand public : par soumission, payante depuis le fin 2001 ;
? Les annuaires spécialisés : libre choix des gestionnaires ;
? Les moteurs de recherche : automatique grâce aux robots.
Robot : Composante d’un moteur de recherche qui balaye le Web ou d’autres ressources Internet, afin d’alimenter en données les index du moteur de recherche.
Les limites d’indexation tiennent à des pages web ou à du contenu qui ne pourront pas être indexés : délai de rafraîchissement des index, niveau de profondeur d’indexation ou de profondeur de contenu indexé, pages vers lesquelles ne pointe aucun lien, pas ou peu d’indexation des fichiers textes autres que de format html, pas d’indexation des pages web dynamiques, mauvais référencement ou volonté des auteurs et acteurs etc....
Diverses obstacles s’opposent aux robots :
a- Sites protégés par mots de passe : ex http://gamdizy.modeles-reduits.ch/Acces_membres.htm
et Intranet.
b- Problème des cadres : Une structure de cadres (frames) se compose d’une page mère et de pages filles. Le contenu informatif se trouve toujours dans les pages filles. La difficulté est que lorsqu’une page mère est soumise aux moteurs, ceux-ci ne sont souvent pas capables de retrouver les pages filles et de les indexer. Seule la page mère se retrouve alors indexée. Mais comme il s’agit d’une page sans contenu, le référencement est inefficace.
c- Formats de fichiers : HTML est le format natif du web reconnu par tous les robots mais beaucoup se sont ajoutés. Seul Google indexe d’autres formats (pdf et PostScript (ps), Microsoft Excel (xls), PowerPoint (ppt), Word (doc), et Rich Text Format (rtf), Works (wks, wps, wdb), Microsoft Write (wri), Text (ans, txt) Adobe Photoshop (psd), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Lotus WordPro (lwp), MacWrite (mw), DBASE 3 (dbf), Paradox (db), WordPerfect...).
d- Pages interdites de référencement en utilisant un fichier Robots.txt
Cette interdiction est posée par l’auteur des pages ou le gestionnaire du site.
e- Pages HTML statiques/pages HTML dynamiques
Page HTML statique : Fichier ASCII qui a été structuré à l’aide de balises HTML, dans le but de le diffuser dans le Web. Le fichier reste tel quel tant qu’il n’est pas modifié ou détruit par son auteur.
Page HTML dynamique : Page HTML créée en réponse à la demande d’un utilisateur, dont la forme est fixe et le contenu variable est issu d’une base de données, ce qui permet ainsi de l’adapter aux critères de recherche de celui-ci.
La difficulté est que les robots ont besoin de suivre des liens à l’intérieur du site afin de pouvoir indexer les pages correspondantes. Si les pages dynamiques ne peuvent être accédées que par le biais de l’interrogation d’un formulaire, celles-ci ne pourront pas être indexées par les moteurs. Il faut donc intégrer, dès les premières pages, des liens vers les principales Url dynamiques que l’on souhaite voir indexées. Ceci peut se faire de façon invisible, de manière à ne pas remettre en cause le design et la structure du site.
f- Pages tronquées
Les robots n’indexent pas entièrement les pages. Ainsi Google se limite à 101 Koctets. Cette information est rarement publique.
g- Les robots stoppent quand ils rencontrent une URL contenant un point d’interrogation
h- Absence de liens hypertextes
Elle a été mise en évidence par l’étude d’IBM connue sous le nom de la théorie du nÅ“ud papillon d’IBM. Des chercheurs d’IBM, Compacq et Altavista ont dressé une cartographie de l’internet à partir de l’analyse des liens établis entre pages web. La structure du réseau que l’on croyait comparable à celle d’une toile d’araignée, présente en réalité 4 ensembles de pages organisés en nÅ“ud papillon. On distingue le cÅ“ur du réseau très interconnecté, puis un deuxième ensemble de pages ayant établi des liens vers ces dernières, enfin un troisième groupe facilement repérable depuis le noyau. Les autres pages, quant à elles, restent déconnectées et isolées du réseau.
i- L’information de presse
De plus en plus de sites de presse (quotidiens, radio, télévision...) diffusent en temps réel de l’information. Les robots classiques sont incapables de suivre.
III- Les solutions
Parallèlement aux grands moteurs et annuaires, il existe de nombreux outils qui franchissent les limites du Web visible et identifient ou interrogent les sites du Web invisible : guides et annuaires sélectifs, sites fédérateurs, annuaires thématiques et "vortails", agents pour la recherche et la veille.
* Bases de données gratuites
* Moteurs de presse
Moreover http://www.moreover.com
FindArticles http://www.findarticles.com Google News AllTheWeb News h
* Répertoires manuels
LII http://www.lii.org/ Bubl link http://www.bubl.ac.uk
Scout Report http://scout.cs.wisc.edu/
Signets BNF http://www.bnf.fr/pages/liens/index.htm RDN http://www.rdn.ac.uk
* Approche verticale
RIME http://193.149.99.13/rime2/ Strategic Road http://www.strategic-road.com/
EEVL http://www.eevl.ac.uk/
* Répertoires automatiques
Complete Planet http://www.completeplanet.com/
direct search http://gwis2.circ.gwu.edu/ gprice/direct.htm
Lycos http://dir.lycos.com/Reference/Searchable_Databases/
InvisibleWeb.com http://www.invisibleweb.com/
Invisible-Web http://www.invisible-web.net/
* Méta-moteurs spécialisés (clients)
Copernic m
Lexibot http://www.lexibot.com
* Méta-moteurs spécialisés (serveurs)
quigo http://www.quigo.com
* Service payant
Closer Look http://www.avocat.qc.ca/goa/
* Archivage du web
The Internet Archive http://www.archive.org/
* Les bibliothèques
LibDex Bibliographie
Those Dark Hiding Places : The Invisible Web Revealed
Robert J. Lackie
http://library.rider.edu/scholarly/rlackie/Invisible/Inv_Web.html
Graph structure in the web
Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins, Janet Wiener, mai 2000
http://www.almaden.ibm.com/cs/k53/www9.final/
Le Web invisible, cet inconnu...
The Invisible Web : Uncovering Information Sources Search Engines Can’t See
Gary Price & Chris Sherman
CyberAge Books, July 2001. ISBN 091096551X
Recherche et veille sur le web visible et invisible
Foenix-Riou Béatrice
Paris : Bases Publications, Editions Tec & Doc, 2001, 240 p.
http://www.promo-web.org/Optimisation/




















envoyer par mail
Version imprimable
