Aller au contenu

Web profond

Un article de Wikipédia, l'encyclopédie libre.

Leweb profond[1](en anglaisdeep web), appelé aussitoile profonde[2]ouweb invisible[1](terme imprécis)[3]décrit dans l'architecture du webla partie dela toilenon indexée par les principauxmoteurs de recherche généralistes[4]. Ce terme est parfois aussi utilisé de manière abusive pour désigner les contenus choquants et peu visibles que l'on trouve sur le web.

Définition dudeep web(toile profonde)

[modifier|modifier le code]

En2001,Michael K. Bergman compose l'expressiondeep webpour le vocabulaire desmoteurs de recherche[5].Ce terme est construit par opposition auweb surfaciqueouweb référencé.Il représente la partie de la toile qui n'est pas référencée par lesmoteurs de recherche généralistes(certains moteurs, tels queBASE,prennent en compte cette partie du réseau). Ledeep webdécrit un fait technique indépendamment du contenu.

Tous les sites web peuvent contenir des pages dans latoile profonde.On y trouve notamment lesmessagerie web,les banques en ligne, ou des sites à accès restreint, voire partiellement ou intégralement payant (voirRaisons de la non-indexation). Il y a aussi les pages qui changent en fonction de l'utilisateur, comme les réseaux sociaux.

Ne pas confondre

[modifier|modifier le code]

« Il convient de distinguer la toile profonde (deep web) de l'internet clandestin. »[6](en anglais darknet), unréseau superposéavec des fonctions d'anonymisation. La toile profonde est un contenu indexable mais non indexé de la toile, comme la page d'un compte bancaire. Elle n'est pas non plus unréseau d'anonymisation(lesservices webauxquels on peut accéder via des outils telsTor,Freenet,I2P…).

Illustration avec un iceberg des différentes parties d'internet
Internet, web, deepweb et darknets

Confusion dans l'utilisation du mot deep web

[modifier|modifier le code]

L'expression «deep web» est régulièrement utilisée dans les médias pour parler de sites web dont le contenu ou les services seraient choquants ou illégaux[7],[8],[9].Les médias ne parlent alors plus seulement de sites cachés ou invisibles au sens technique du référencement par les moteurs de recherche mais dans un sens plus social pour évoquer leur faible visibilité.

La confusion est régulière y compris dans la presse généraliste comme enlorsque certains journaux[10],[11]reprennent une information de l'Agence France-Presseet définissent de manière erronée ledeep webcomme étant « seulement accessible au moyen de réseaux spécifiques».

La confusion avec ledark webest parfois complète comme dans un article publié ensur rtl.be où l'on peut lire que « ledeep webse trouve [...] sur un autre réseau, parallèle à internet. Les adresses URL des sites se terminent par.onion [...] »[12]ce qui ne correspond qu'audark webet plus précisément àTor.

Ressources profondes

[modifier|modifier le code]

Lesrobots d'indexationsont des programmes utilisés par les moteurs de recherche pour parcourir le web. Afin de découvrir de nouvelles pages, ces robots suivent leshyperliens.Les ressources profondes sont celles qui ne peuvent pas être atteintes facilement par les moteurs de recherche.

Les ressources du web profond peuvent être classées dans une ou plusieurs des catégories suivantes:

  • contenu dynamique;
  • contenu non lié;
  • contenu à accès limité;
  • contenu de script;
  • format non indexable.

(voir la sectionRaisons de la non-indexationpour plus de précision).

Une étude de juillet 2001 réalisée par l'entrepriseBrightPlanet[3]estimait que le web profond pouvait contenir 500 fois plus de ressources que le web indexé par les moteurs de recherche. Ces ressources, en plus d'être volumineuses, notamment parce que la compression des fichiers y est moins importante, sont souvent de très bonne qualité.

Il s'agit d'un ensemble de ressources connectées à Internet qui ne peuvent pas être trouvées par les moteurs de recherche, car elles ne sont pas indexées, par conséquent, le système DNS ne les trouvera pas. En d'autres termes, ce sont des machines qui n'ont pas de DNS associé, qui sont connectées à Internet mais qui ne peuvent pas être localisées et pour cela elles doivent utiliser des procédures spécifiques. Pour cette raison, les criminels se rendent sur le Web profond pour accéder à des forums pédophiles, par exemple.

Les sites Web et les ressources ont uneadresse IPspécifique et une chaîne de chiffres inintelligible que nous ne pourrons pas localiser parce qu'il s'agit de pages privées (ressources configurées pour ne pas apparaître publiquement) et parce qu'ils ont des caractéristiques techniques qui bloquent l'indexation (spiders ou crawlers qui sont des robots d'indexation).

D'après le site spécialisé GinjFo, ledeep webreprésenterait 96 % de l'intégralité du web alors que leweb surfaciquene représenterait que 4 % du contenu[13].

En2008,le web invisible représenterait 70 à 75 % de l'ensemble dutrafic internet,soit environ untrilliarddepages webnon indexées[14].

Une partie très importante du web est théoriquement indexable, mais non indexée de fait par les moteurs. Certains auteurs[15]parlent dans ce cas, pour le web non profond et non indexé, de« web opaque »(opaque web) ou de« web presque visible »(nearly visible web).

Pour résumer, le web profond et le web opaque sont tous deux accessibles en ligne aux internautes et non indexés par les moteurs, mais le web opaque, lui, pourrait être indexé.

Lesalgorithmesdes moteurs étant semblables (par exemple,PageRank), les zones indexées se recoupent en partie d'un moteur de recherche à l'autre. Les ressources matérielles des robots d'indexation ne sont pas, malgré des moyens matériels importants, à même de suivre tous les liens théoriquement visibles par eux, que le web (gigantesque) contient.

Une équipe de chercheurs allemands a étudié le comportement des robots d'indexation face à des sites contenant énormément de pages. Ils ont créé un site web composé de 2 147 483 647 pages (231- 1). Ce site web étant unarbre binaire,il est très profond: il faut au minimum 31 clics pour arriver à certaines pages. Ils ont laissé ce site en ligne, sans le modifier, pendant une année. Les résultats montrent que le nombre de pages indexées pour ce site, dans le meilleur des cas, ne dépasse pas 0,0049 %.

Afin de résoudre ce problème de volumétrie de pages à indexer pour un site donné, le moteurGooglea introduit en 2005 leprotocolesitemap.Il permet, grâce à la mise à disposition du robot d'un fichiersitemap,de gagner en efficacité pour l'indexation. Ce fichier est mis à la racine du site par l'administrateur dusite web.

Raisons de la non-indexation

[modifier|modifier le code]
  • Les sites contiennent de plus en plus depages dynamiques:les hyperliens de navigation sont générés à la demande et diffèrent d'une visite à l'autre.
  • Certains sites (ou partie de sites) ne sont pas liées par d'autres pages et ne peuvent donc pas être découvertes par les robots d'indexation (le seul moyen de les faire indexer est dès lors de demander explicitement cette indexation au moteur de recherche, ce qui est rarement fait, par ignorance de ce procédé). Ce contenu est connu comme des pages sansbacklinks(ouinlinks).
  • Il faut parfois remplir convenablement un formulaire de critères de recherche pour pouvoir accéder à une page précise. C'est le cas de sites exploitant des banques de données.
  • Certains sites nécessitent une authentification (requérant un identifiant et un mot de passe) avant d'accéder au contenu réel: c'est le cas de certains sites payants et des sites avec des archives payantes (journaux en ligne, bases de données de météorologie,etc.).
  • Les pages Web peuvent dans leur conception rendre difficile leur indexation. Elles peuvent en particulier contenir deséléments HTMLframesetau lieu des éléments classiquesbody.Les balises consistant en un fichier robot.txt inséré dans le code d'une page permettent de protéger soncopyright,de limiter les visites ou préserver le site d’accès trop fréquents. Or un robot n'est guère capable d'émettre des requêtes pertinentes; sa visite d'indexation se réduit donc aux seules pages accessibles en suivant desURLstatiques.
  • L'utilisation du langageJavaScript(commeAjax), mal compris, voire incompris par les robots[16],pour lier les pages entre elles constitue souvent un frein à leur indexation.
  • Le web invisible est également constitué des ressources utilisant desformats de donnéesincompréhensibles par les moteurs de recherche. Cela a été longtemps le cas du formatPDFou ceux deMicrosoft Office(Excel, Word, Power Point…), le seul format reconnu initialement étant le langage natif du Web, l’HTML.Les grands moteurs de recherche (Google,Yahoo!,Bing…) sont capables d'indexer avec plus ou moins d'efficacité les documents utilisant ces formats[17],[18].Google reconnaît les pages au formatflash[19]depuis le début de 2008.
  • Les moteurs de recherche classiques n’indexent qu’entre 5 et 60 % du contenu des sites accueillant de grandes bases de données:Internet Movie Database,PubMed,leNational Climatic Data Centerqui met en ligne unebase de donnéescontenant 370 000Gio,alors que celle de laNASAest de 220 000Gio[20].
  • Les moteurs indexent partiellement les pages volumineuses:GoogleetYahoo!se contentent de 500 kilooctets[21].

Certaines pages sont inaccessibles aux robots du fait de la volonté de l'administrateur du site web. L'utilisation du fichierrobots.txtnotamment, mis à la racine d'un site web, permet de bloquer tout ou partie du site aux robots qui coopèrent, le site restant accessible aux internautes. Il est également possible d'utiliser l'élément meta robotdans le même but ainsi que pour empêcher de suivre des liens et interdire la mise en cache de pages (indépendamment de l'autorisation d'indexation). Ces pages sont alors parfois rangées dans une catégorie connexe à celle du web profond: le web privé (private web).

Web propriétaire

[modifier|modifier le code]

Le web propriétaire désigne les pages où il est nécessaire de s’identifier pour accéder au contenu. Le web propriétaire est compris dans le web profond.[réf. nécessaire]

Notes et références

[modifier|modifier le code]
  1. aetbTerme recommandé depuis 2019 auQuébec,cf.«Web invisible»,Grand Dictionnaire terminologique,Office québécois de la langue française(consulté le).
  2. Terme recommandé depuis 2017 enFrancepar la Commission d’enrichissement de la langue française, cf.«Vocabulaire de l'informatique et de l'internet (liste de termes, expressions et définitions adoptés) NOR: CTNR1725303K», surLégifrance(consulté le).
  3. aetb(en)Michael K. Bergman, «The Deep Web: Surfacing Hidden Value»,The Journal of Electronic Publishing2001,vol.7,no1.
  4. (en)Jean-PhilippeRennardet Pierre DalZottoDarknet, darkweb, deepweb: ce qui se cache vraiment dans la face obscure d’Internet», surThe Conversation(consulté le).
  5. (en)AlexWrightExploring a 'Deep Web' That Google Can’t Grasp»,The New York Times,‎(lire en ligne,consulté le).
  6. «Vocabulaire de l'informatique et de l'internet (liste de termes, expressions et définitions adoptés)», surlegifrance.gouv.fr(consulté le).
  7. Fraudes en ligne: ne pas ignorer dark web et deep web,surJournalDuNet.
  8. Plusieurs sites de vente de drogue du « Deep Web » français piratés,surLeMonde.fr.
  9. Les « Red Rooms » du deep web: du mythe à la réalité,7 juin 2018, par Valentine Leroy
  10. Deux plaques tournantes du "Dark web" fermées après une opération policière,surLePoint.fr.
  11. Deux plaques tournantes du "Dark web" fermées après une opération policière,surBourseDirecte.fr.
  12. On a (presque) acheté des armes, de la drogue et un passeport sur internet: plongée inédite au cœur du DARK WEB,surRTL.be.
  13. «Web, 4% seulement du contenu est visible, où se cache le Deep Web? - GinjFo», surGinjFo(consulté le).
  14. Francis Pisani et Dominique Piotet,Comment le web change le monde: l'alchimie des multitudes,éd.Pearson, 2008(ISBN978-2-7440-6261-2),p.188.
  15. (en)Chris Sherman et Gary Price,The Invisible Web,septembre 2001
  16. (en-US)«Understanding web pages better», surOfficial Google Webmaster Central Blog(consulté le).
  17. (en)«Can A Search Engine Like Google Index My PDF Files?».
  18. (en)«Make your PDFs work well with Google (and other search engines)».
  19. (en)«Webmaster Tools Help: Flash and other rich media files».
  20. Jean-Paul Pinte, «Le Web invisible: l'antre du cybercrime»,Pour la science,no70,‎,p.102.
  21. Jean-Paul Pinte, «Le Web invisible: l'antre du cybercrime»,Pour la science,no70,‎,p.103.

Articles connexes

[modifier|modifier le code]

Liens externes

[modifier|modifier le code]