Docs pour docs
Bienvenue sur Doc pour Docs, site mutualiste et indépendant, réalisé à domicile par des documentalistes de CDI, pour les documentalistes.

Abonnez-vous à E-Doc, la liste de diffusion
non modérée des enseignants documentalistes

Accueil ·  Plan du site  ·  Portillon ·  Téléchargement ·  Ailleurs sur le Web ·  Dazibao ·  Nous écrire
 

Menu principal

  • Informatique basique
    • Trucs et astuces
    • Logiciels utiles
  • Usages TICE
    • Logiciels pédagogiques
    • Internet
    • Audiovisuel et Tice
    • Veille
  • Information - documentation
    • Internet
    • Référentiels
    • Didactique
    • Éducation à l’information
  • Pratiques culturelles
    • Poésie
  • Gestion CDI
    • Bcdi
    • PMB
  • Profession : E-Doc
    • Métier : évolution et prospective
    • Textes officiels
    • Concours de recrutement
    • Pratiques
    • Sujets sensibles
  • Portillon
    • 000 Sciences de l’information
      • 001 Portails
      • 002 Livres
        • Bibliothéques numériques
        • Librairies virtuelles
        • Livres numériques
      • 004 Informatique, Internet, traitement des données
        • Moteurs de recherche et recherches spécifiques
        • Flux RSS
        • Web 2.0
          • Netvibes
          • Twitter
      • 005 Informatique, logiciels, sécurité
        • Virus, antivirus, sécurité
        • Systèmes libres de publication sur internet
        • Logiciels libres, logiciels gratuits
        • Linux
        • Généralités
        • Langages
      • 006 Applications de l’informatique, multimédia
      • 010 Bibliographies
      • 020 Bibliothéconomie et sciences de l’information
        • Logiciels documentaires
        • Pédagogie info-documentaire
        • Formation / culture en information-documentation
          • Formation
        • Généralités
        • Traitement documentaire
        • 026 Bibliothèques
        • 027 CDI
          • Pages de documentalistes
          • CAPES doc
      • 030 Encyclopédies générales - Dictionnaires
        • Encyclopédies collaboratives
      • 050 Magazines électroniques, périodiques en ligne
      • 060 Organisations générales et muséologie
      • 070 Presse, média, audiovisuel
      • 080 Recueils généraux. Catalogues, bases de données
      • 090 Manuscrits et livres rares
    • 100 Philosophie et psychologie
      • 107 Enseignement de la philosophie
      • 165 Epistémologie
      • 180 Philosophie ancienne et médiévale
        • Philosophie antique
      • 190 Philosophie occidentale moderne
    • 200 Religions
      • 260 Christianisme
      • 292 Mythologies
      • 294 Bouddhisme Hindouïsme
      • 296 Judaïsme
      • 297 Islam
      • 298 Sectes
      • Autres religions
    • 300 Sciences sociales
      • 304.6 Démographie et population
      • 305 Condition féminine
      • 310 Statistiques
        • Sondages
      • 316 Sociologie
      • 320 Sciences politiques
        • Terrorisme
        • Peine de mort
        • Institutions
        • Exclusion / Intégration
        • Droits des enfants
        • Droits de l’homme
        • Culture civique
        • 320.9 Conflits, conjoncture politique, actualités
        • 326 Esclavage
      • 330 Sciences économiques
        • Conjoncture économique
        • L’union européenne
        • Commerce équitable
      • 340 Droit
        • Droit de l’ internet
        • 344 Protection sociale et retraite
      • 350 Administration publique
      • 360 Problèmes et services sociaux
      • 370 Education
        • Voyages scolaires
        • Sites pour les professeurs
        • Sites pour les élèves
          • Soutien scolaire
        • Ressources pédagogiques générales
        • Orientation
        • Education à l’image
        • Activités interdisciplinaires
          • B2I, C2i, CAMI
          • EDD
          • IDD, TPE, PPCP
          • Autres dispositifs
        • Actions culturelles à l’école
        • TICE
          • Manuel numérique
          • ENE ENT
          • Cartes heuristiques
          • Jeux sérieux
        • Education aux médias
        • Systèmes éducatifs européens
          • L’Education Nationale
      • 380 Transports
      • 390 Coutumes, folklore, fêtes
    • 400 Langues
      • 407 Apprentissage des langues
      • 410 Linguistique
      • 420 Langue anglaise
      • 430 Langue allemande
      • 440 Langue française
      • 440 Français langue étrangère
      • 450 Langue italienne
      • 460 Langues espagnole et portugaise
      • 470 Latin
      • 480 Grec ancien
      • 490 Autres langues
    • 500 Sciences
      • 500 Sciences : généralités
      • 507 Vulgarisation scientifique
      • 510 Mathématiques
      • 520 Astronomie
        • Calendrier, mesure du temps
        • Planètes
      • 530 Physique
      • 540 Chimie
      • 550 Sciences de la Terre
        • Climatologie
        • Géologie
      • 560 Paléontologie
      • 570 Sciences de la vie
        • 577 Ecologie, environnement
          • Eau
          • Pollution
      • 580 Botanique
      • 590 Zoologie
    • 600 Sciences appliquées .Techniques
      • 610 Sciences médicales
        • 610 Santé - Médecine
        • 612 Corps humain
      • 620 Technologie
        • 621.3 Satellites et télédétection
        • 629.2 Sécurité routière
        • 629.4 Conquête de l’espace
      • 630 Agriculture et sciences connexes
      • 640 Arts ménagers
      • 650 Gestion
      • 660 Industries chimiques
      • 670 Fabrication industrielle, industries de transformation
      • 680 Fabrication de produits à usage particulier
        • Artisanat
        • Jouets
    • 700 Arts et divertissements
      • 700 Arts : généralités
        • Musées
      • 707 - Enseignement de l’histoire des arts
      • 710 Urbanisme et aménagement paysager
      • 720 Architecture
      • 730 Sculpture
      • 740 Dessin, arts décoratifs
        • Enluminures
        • Dessins de presse
      • 750 Peinture
      • 760 Arts graphiques
      • 770 Photographie
      • 780 Musique
      • 791 Cinéma
      • 792 Théâtre
      • 796 Sports
    • 800 Littérature
      • Science-fiction
      • Bande dessinée
      • Contes
      • Policier
      • Littérature jeunesse
      • Poésie
      • 800 Littérature : généralités
      • 807 Enseignement de la littérature
      • 820 Littérature de langue anglaise
      • 830 Littérature allemande
      • 840 Littérature française et francophone
      • 850 Littérature italienne
      • 860 Littérature d’Espagne
      • 882 Littérature russe
      • 895 Littératures de l’est et du Sud-est asiatique
      • 896 Littérature africaine
    • 900 Géographie et histoire
      • 907 Ressources pédagogiques - généralités
      • 909 Histoire du monde, des civilisations
      • 910 Géographie
        • 910 Voyages
        • 911 Atlas historiques
        • 912 Atlas géographiques
          • Cartes et plans
        • 914 L’Europe
        • 915 Asie
        • 916 L’Afrique
        • 918 Amérique du Sud
        • 919 Océanie et régions polaires
      • 920 Biographies
      • 930-990 Histoire
        • Histoire - généralités
        • 930 Histoire ancienne, archéologie
          • Archéologie
          • Egypte ancienne
          • Grèce ancienne
          • Rome ancienne
          • Histoire ancienne
        • 940 Histoire de l’Europe
          • Histoire de France
          • Moyen âge
        • 950 Histoire de l’Asie
        • 960 Histoire de l’Afrique
        • 970 Histoire de l’Amérique du Nord et centrale
        • 970.1 Les Précolombiens
        • 980 Histoire de l’Amérique du Sud
  • Téléchargement
    • Outils E-Doc
      • Questionnaires, enquêtes
      • Veille documentaire
      • Politique documentaire
      • Notices
      • Utilitaires
      • Intranet
      • Evaluation CDI
      • CAPES
      • Bibliographies
      • BCDI
        • BCDI 2006
        • BCDI 2
        • BCDI 3
      • Gestion du fonds
    • Formation des élèves
      • Thèmes de recherche
        • Littérature
        • Orientation
        • Anglais
        • Histoire
        • Zoologie
        • Mathématiques
        • Incivilités
      • Production finale
        • Exposition
        • Dossier documentaire
        • Chronologie
        • Biographie
        • Bibliographie
      • Presse
      • Niveau
        • Segpa
        • Lycée
        • 3ème
        • 4ème
        • 5ème
        • 6ème
      • Méthodologie recherche
        • Présentation générale
        • Exploration du sujet
      • Logiciels documentaires
        • Superdoc
        • BCDIEcole
        • BCDI3
        • BCDI2
      • Lecture - écriture
      • Langages documentaires
        • Thésaurus
        • Classification décimale
      • Internet
        • Outils de recherche
        • Evaluation de sites
      • Évaluation
      • Dispositifs
        • TPE
        • IDD
        • ECJS
        • B2I
      • CDI
        • Règles de vie
        • Liaison CM2 / 6ème
        • Objets documentaires
        • Initiation
    • Mémoires professionnels IUFM

  • À propos du site
  • Syndication xml
  • Retrouvez-nous sur
    Doc pour docs sur Twitter
 

Vos propositions

  • Espace rédaction
  • Devenir rédacteur

Recherche





compteur
visites de ces pages depuis le 9 janvier 2003

Vous voulez recevoir notre lettre d’information ? Inscrivez-vous en cliquant ici.

+ Information - documentation. Internet.
+

Le Web invisible

Par Ghislain Chasme - 26/09/2005
Mis à jour le : 24/10/2005

Pour trouver de l’information sur le Web, nous utilisons divers outils de recherche : annuaires, moteurs, métamoteurs et autres assistants de recherche. Ces outils sont de plus en plus performants, mais ont leurs limites qui, ajoutées à la complexité de la toile mondiale et à son évolutivité, font qu’un grand nombre de pages ou de documents disponibles sur Internet ne sont ni signalés, ni indexés. C’est le Web invisible.

Web invisible ?

Un référencement inefficace ou inexistant condamne bien souvent une page ou un document au Web invisible. Certains contestent le fait même que le Web soit une vraie toile offrant une interconnectivité confortable.
C'est le cas des chercheurs d'Ibm et de leur Théorie du noeud papillon, Bow Tie Theory[2].
Pour eux, le Web serait constitué de 4 parties ayant des interactions différentes et variables, ce qui expliquerait son essence dynamique et son organisation complexe.

Core : c'est le centre névralgique du réseau mondial ; il contient les pages les plus signalées, les plus consultées et celles qui génèrent le plus de trafic. Ces pages bénéficient pour les outils de recherche d'un indice de popularité très fort.
Origination : c'est l'ensemble des pages qui signalent celles situés dans le Core.
Termination : c'est l'ensemble des pages signalées par celles situées dans le Core. Elles bénéficient de l'indice de popularité de ces dernières.
Disconnected pages : c'est l'ensemble des pages complètement isolées et invisibles sur le Web.

22% des pages du Web seraient donc invisibles, parce que non signalées. Pour des raisons diverses, les outils de recherche traditionnels ne peuvent pas les indexer :

- Les pages à accès restreint, ou protégées par mot de passe : Intranet, Extranet, espaces réservés aux membres...
- Les pages dont le référencement est volontairement interdit à l'aide d'un fichier robots.txt[3]
- Les pages utilisant une technologie trop complexe pour les outils : flash, cadres...
À noter que les pages dynamiques sont de mieux en mieux prises en compte par les outils de recherche habituels.

La théorie du Noeud papillon peut être comparée à celle de Brightplanet[4] qui date de 2001 et qui oppose le Surface Web au Deep Web.
Le Web de surface est constitué par les pages facilement repérables par les outils de recherche habituels. 85% des internautes utilisent ces outils pour trouver une information, mais le taux d'internautes frustrés parce qu'insatisfaits des résultats est pratiquement le même. Les outils courant n'ont pas la capacité technique d'indexer toutes les pages ou documents du Web.

Le Web profond quant à lui regroupe les pages inconnues des outils de recherche habituels. Quelques caractéristiques :
- Il comporte (en 2001) 550 milliards de documents, contre 1 milliard pour le Web de surface
- Le Web profond est 500 fois plus important que le Web de surface
- Il comporte plus de 200 000 sites
- Les 60 sites les plus importants du Web profond constituent un ensemble 40 fois supérieur à la totalité du Web de surface
- Les sites du Web profond proposent les informations les plus adéquates et les précises
- 95% du Web profond est constitué d'informations publiques et gratuites

Ces 2 théories sont issues d'une approche cybergéographique[5] qui s'attache entre autre à mesurer le graphe que constitue le Web.

Les outils

Pour naviguer ou rechercher dans le Web invisible, Il existe plusieurs possibilités :

- Les bases de données gratuites
- Les répertoires spécialisés
- Les portails et vortails -outils de veille-
- Les métamoteurs spécialisés
- Les sites de bibliothèques

Voici une sélection non exhaustive de références utiles :

- Les bases de données signalées par le portail Educlic
http://www.educlic.education.fr/Plan.asp?Noeud=304
- Sibel : Sciences de l'Information et des Bibliothèques en Ligne
http://sibel.enssib.fr/
- Ressources en sciences de l'information. Université de Montréal
http://www.ebsi.umontreal.ca/voir/scinfo.htm
- Liste thématique de banques de données. Bibliothèque de l'Université de Laval au Québec
http://www.bibl.ulaval.ca/bd/listebdt.html
- Portail documentaire de l'Université d'Angers
http://bu.univ-angers.fr/bdd.html
- Les Signets de la Bibliothèque nationale de France
http://signets.bnf.fr/
- Catalogue en ligne des bibliothèques nationales du monde
http://www.library.uq.edu.au/ssah/jeast/
- Les bases de données gratuites sur Internet. Jean-Pierre Lardy
http://dadi.enssib.fr/
- Banques de données gratuites. URFIST de Nice Sophia-Antipolis
http://www.unice.fr/urfist/URFIST-DEH/pages/database.html
Web invisible : les Bases de Données
http://c.asselin.free.fr/french/webinvisible.htm#bases
- Chercher dans l'actualité récente ou les archives d'actualités françaises et internationales.
http://c.asselin.free.fr/french/actua.htm
- Initiation à l'interrogation des bases de données bibliographiques sur CD-ROM et en ligne. URFIST de Strasbourg
http://www-scd-ulp.u-strasbg.fr/urfist/IST_bdd/initiation_bdd.html
- Le web invisible : intervention et outils. Jean-Pierre Lardy
http://addnb.org/fr/docs/webinvisible.htm

Selon Brightnet, le Deep Web contenait en 2001 7500 Teraoctets[6] d'informations, alors que le Surface web n'en contient que 19 Teraoctets. Mais les outils de recherche et leurs nouvelles fonctionnalités ont tendance à modifier ce paysage. Certains indexent des images, des forums ou des documents au format divers : txt, pdf, doc... Le Web invisible en deviendra-t-il un peu plus ... visible ?

 

 

 

 

 

 

 

 

 

[2] IBM Research News

[3] robots.txt : Fichier indiquant aux moteurs de recherche ce qu'ils peuvent lire et intégrer dans leurs index ou ce qui leur est interdit (une page ou toutes les pages d'un répertoire). dicofr.com
En savoir plus sur le fichier robots.txt : Abondance

[4] Brighplanet

[5] Cybergéographie : inter-discipline novatrice et dynamique

[6] Teraoctet : 10 puissance 12. JDNet




Répondre à cet article




Ce site a été élaboré avec Spip 2.0.9 [14357].
Doc pour Docs est la reprise du site du même nom, réalisé pendant des années par Alain Gurly, documentaliste de CDI, qui continue à apporter sa contribution, et nous a confié son site. Qu'il soit remercié de la confiance qu'il nous accorde !

derniere mise a jour : mardi 9 février 2010

creative commons