Web invisible ?
Un référencement inefficace ou inexistant condamne
bien souvent une page ou un document au Web invisible. Certains contestent le
fait même que le Web soit une vraie toile offrant une interconnectivité
confortable.
C'est le cas des chercheurs d'Ibm et de leur Théorie du noeud
papillon, Bow Tie Theory[2].
Pour eux, le Web serait constitué de 4 parties ayant des interactions
différentes et variables, ce qui expliquerait son essence dynamique et
son organisation complexe.

Core : c'est le centre névralgique
du réseau mondial ; il contient les pages les plus signalées,
les plus consultées et celles qui génèrent le plus de trafic.
Ces pages bénéficient pour les outils de recherche d'un indice
de popularité très fort.
Origination : c'est l'ensemble des pages qui signalent celles
situés dans le Core.
Termination : c'est l'ensemble des pages signalées par
celles situées dans le Core. Elles bénéficient de l'indice
de popularité de ces dernières.
Disconnected pages : c'est l'ensemble des pages complètement
isolées et invisibles sur le Web.
22% des pages du Web seraient donc invisibles, parce que non
signalées. Pour des raisons diverses, les outils de recherche traditionnels
ne peuvent pas les indexer :
- Les pages à accès restreint, ou protégées
par mot de passe : Intranet, Extranet, espaces réservés aux membres...
- Les pages dont le référencement est volontairement interdit
à l'aide d'un fichier robots.txt[3]
- Les pages utilisant une technologie trop complexe pour les outils : flash,
cadres...
À noter que les pages dynamiques sont de mieux en mieux prises en compte
par les outils de recherche habituels.
La théorie du Noeud papillon peut être comparée
à celle de Brightplanet[4]
qui date de 2001 et qui oppose le Surface Web au Deep
Web.
Le Web de surface est constitué par les pages facilement repérables
par les outils de recherche habituels. 85% des internautes utilisent ces outils
pour trouver une information, mais le taux d'internautes frustrés parce
qu'insatisfaits des résultats est pratiquement le même. Les outils
courant n'ont pas la capacité technique d'indexer toutes les pages ou
documents du Web.
Le Web profond quant à lui regroupe les pages inconnues
des outils de recherche habituels. Quelques caractéristiques :
- Il comporte (en 2001) 550 milliards de documents, contre 1 milliard pour le
Web de surface
- Le Web profond est 500 fois plus important que le Web de surface
- Il comporte plus de 200 000 sites
- Les 60 sites les plus importants du Web profond constituent un ensemble 40
fois supérieur à la totalité du Web de surface
- Les sites du Web profond proposent les informations les plus adéquates
et les précises
- 95% du Web profond est constitué d'informations publiques et gratuites
Ces 2 théories sont issues d'une approche cybergéographique[5]
qui s'attache entre autre à mesurer le graphe que constitue le Web.
Les outils
Pour naviguer ou rechercher dans le Web invisible, Il existe
plusieurs possibilités :
- Les bases de données gratuites
- Les répertoires spécialisés
- Les portails et vortails -outils de veille-
- Les métamoteurs spécialisés
- Les sites de bibliothèques
Voici une sélection non exhaustive de références
utiles :
- Les bases de données signalées par le portail
Educlic
http://www.educlic.education.fr/Plan.asp?Noeud=304
- Sibel : Sciences de l'Information et des Bibliothèques en Ligne
http://sibel.enssib.fr/
- Ressources en sciences de l'information. Université de Montréal
http://www.ebsi.umontreal.ca/voir/scinfo.htm
- Liste thématique de banques de données. Bibliothèque
de l'Université de Laval au Québec
http://www.bibl.ulaval.ca/bd/listebdt.html
- Portail documentaire de l'Université d'Angers
http://bu.univ-angers.fr/bdd.html
- Les Signets de la Bibliothèque nationale de France
http://signets.bnf.fr/
- Catalogue en ligne des bibliothèques nationales du monde
http://www.library.uq.edu.au/ssah/jeast/
- Les bases de données gratuites sur Internet. Jean-Pierre Lardy
http://dadi.enssib.fr/
- Banques de données gratuites. URFIST de Nice Sophia-Antipolis
http://www.unice.fr/urfist/URFIST-DEH/pages/database.html
Web invisible : les Bases de Données
http://c.asselin.free.fr/french/webinvisible.htm#bases
- Chercher dans l'actualité récente ou les archives d'actualités
françaises et internationales.
http://c.asselin.free.fr/french/actua.htm
- Initiation à l'interrogation des bases de données bibliographiques
sur CD-ROM et en ligne. URFIST de Strasbourg
http://www-scd-ulp.u-strasbg.fr/urfist/IST_bdd/initiation_bdd.html
- Le web invisible : intervention et outils. Jean-Pierre Lardy
http://addnb.org/fr/docs/webinvisible.htm
Selon Brightnet, le Deep Web contenait en 2001 7500 Teraoctets[6]
d'informations, alors que le Surface web n'en contient que 19 Teraoctets. Mais
les outils de recherche et leurs nouvelles fonctionnalités ont tendance
à modifier ce paysage. Certains indexent des images, des forums ou des
documents au format divers : txt, pdf, doc... Le Web invisible en deviendra-t-il
un peu plus ... visible ?
[2] IBM
Research News
[3] robots.txt
: Fichier indiquant aux moteurs de recherche ce qu'ils peuvent lire et intégrer
dans leurs index ou ce qui leur est interdit (une page ou toutes les pages d'un
répertoire). dicofr.com
En savoir plus sur le fichier robots.txt : Abondance
[4]
Brighplanet
[5]
Cybergéographie
: inter-discipline novatrice et dynamique
[6] Teraoctet
: 10 puissance 12. JDNet