Aller au contenu

Utilisateur:CodexBot

Une page de Wikipédia, l'encyclopédie libre.
CodexBot

Description de cette image, également commentée ci-après
Portrait de CodexBot
Informations
Créateur Wikimédia Antarctique
Développé par Irønie
Première version
Dernière version Wikibot 1.0 ()
Dépôt GIT
Assurance qualité frwiki, Ypirétis & Evynrhud
État du projet actif
Écrit en PHP,SQL
Environnement OVHcloud
Formatslus MARC,XML,JSON,Open Graph,JSON-LD,Dublin Core,TwitterCardetHTML
Type robot d'indexation
Complétionbibliographique
Licence MIT
Site web cette page

CodexBotest unbot informatiquede complétionbibliographique,conçu à partir de 2011 parIrønieet utilisé pour l'amélioration des références dans les articles deWikipédia en français.

CodexBot collecte des données sur des bases bibliographiques (Bibliothèque nationale de France,Google Livres,Open Library,Wikidata,Crossref…) ou directement sur lespages webmentionnés dans les références. Ensuite il complète ou insère les modèles de présentation{{ouvrage}},{{article}}ou{{lien web}}.

Chaque jour, CodexBot convertit plus de 1500 URL http:// en jolies références{{article}}ou{{lien web}},et il retrouve une archive web pour 200 liens morts. Chaque jour, CodexBot analyse environ 2500 références de livres; il améliore/complète environ 1500{{ouvrage}}et ajoute environ 60 liens vers des livres numérisés.

Présentation

[modifier|modifier le code]

Import bibliographique

[modifier|modifier le code]

En récupérant des données bibliographiques, CodexBot est capable d'ajouter des données comme les noms des auteurs, l'éditeur, le sous-titre, la date d'édition d'un ouvrage ou d'un article scientifique ou de presse, les identifiants spécialisés (ISBN,DOI,ISSN), etc. Il peut aussi ajouter un lien web vers l'ouvrage numérisé par Google Booksou Internet Archive.Le bot interroge différents serveurs (API) et convertit différents formats de données bibliographiques (MARC,XML,JSON) en données exploitables dans les modèles de présentation bibliographique de Wikipédia.

[avant]Le bruit et la fureur(ISBN9782070361625)
[après]William Faulkner(trad.de l'anglais),Le Bruit et la FureurThe sound and the fury»], Paris,Gallimard,coll.« Folio »,,371p.(ISBN978-2-070-36162-5,lire en ligne).

Extraction de données web

[modifier|modifier le code]

CodexBot peut également extraire lesmétadonnéesd'une page web (formatsDublin Core,JSON-LDetOpen Graph). Ces données permettent de créer de jolies références pour remplacer des liens bruts (http://) ou bien de compléter/corriger les références sous forme de{{article}}ou{{lien web}}. Le bot peut également déterminer l'accessibilitéd'une page (accès libreAccès libre,payantAccès payant,etc).

Exemple d'article scientifique:

[avant]https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1077160/
[après]Kurt Gödel, «The Consistency of the Axiom of Choice and of the Generalized Continuum-Hypothesis»,Proceedings of the National Academy of Sciences of the United States of America,vol.24,no12,‎,p.556(PMID16577857,DOI10.1073/pnas.24.12.556,lire en ligneAccès libre,consulté le).

Exemple de site de presse:

[avant]https://www.lemonde.fr/planete/article/2020/07/22/le-contact-tracing-a-l-epreuve-de-la-realite_6046893_3244.html
[après]Chloé Hecketsweiler, «Coronavirus: des lenteurs dans le traçage des contacts de malades»,Le Monde,‎(lire en ligneAccès payant,consulté le).

Exemple de page d'un site municipal:

[avant]https://www.ville-moulins.fr/actualite/sabatier-sur-les-cours-711.html
[après]«Sabatier sur les Cours», surville-moulins.fr(consulté le).

Le bot gère la majorité des sites externes trouvés, autant la presse que les revues scientifiques ou n'importe quel site web amateur. Il essaye aussi de nettoyer les titres (typographie fantaisiste, mentionsSEO). Pour wikifier joliment le champ "site=" (nom du journal), le bot utilise par défaut le "label" extrait deWikidata. Les sites peuvent également êtreconfigurés individuellement.

Gestion de liens morts

[modifier|modifier le code]

CodexBot détecte et traite certains liens morts (404 not found, 500, absent DNS…) en les signalant comme{{lien brisé}}ou le plus souvent, en les remplaçant par un lien d'archive versWikiwixouInternet Archive[1].

Exemple de lien mort sans archive (un rédacteur supprimera probablement la ref)

[avant]https://www.nytimes.com/aponline/2015/08/20/world/americas/ap-lt-brazil-corruption.html
[après]«nytimes.com/aponline/2015/08/2…»(Archive.orgWikiwixArchive.isGoogleQue faire?).

Exemple de lien mort remplacé par une archive:

[avant]http://fr.topic-topos.com/chateau-de-la-mauviere-la-meziere
[après]«Château de La Mauvière», surtopic-topos.com viaWikiwix(consulté le)

Tâches en cours

[modifier|modifier le code]
dessin robot
03-10-2024
  • Un résumé d'édition commençant par «bot» signale une édition masquée dans les listes de suivi.
  • Le bot n'intervient pas si un humain a édité l'article dans les dernières 10 minutes. Ni sur les articles avec un bandeau{{R3R}},{{en travaux}},{{en cours}}
  • Le bot ne touche pas aux références qui contiennent uncommentaire invisible.Par exemple:sous-titre=<!-- erreur BNF -->oulire en ligne=<!-- GoogleBooks pas pertinent -->
  • De manière exceptionnelle, pour empêcher le bot d'intervenir sur une page entière, ajouter{{bots|deny=CodexBot}}dans l'article. Par exemple, un articleBibliographie...avec plusieurs centaines d'ISBN.
  • 🔔 Vous pouvez appeler le bot sur un article avec une notification: en ajoutant par exemple[[User:CodexBot|CodexBot]]​dans votre commentaire d'édition. Mais la surveillance des RC rendra cette fonctionnalité bientôt inutile.
  • Le bot s'arrête en écrivant{{stop}}ou STOP sursa page de discussion.Puis il redémarre quand le mot est retiré. No stress:)
  • 🌐 http:// >> {lien web},{article}:█████████10 %??
  • x [http:// Bla] >> {lien web},{article}:██████████0 %150k?
  • ⚠️️️🏛️🥝 liens externes morts:██████████1 %2M-3M?
  • 📘 Google Books >>{{ouvrage}}:██████████80 %
  • 📗 Correction{{ouvrage}}avec ISBN:██████████70 %300k
  • 📗 Correction{{ouvrage}}sans ISBN:█████████10 %1.2M

Philosophie des modifications par le bot

[modifier|modifier le code]
vaste champ de blé avec au loin une moissonneuse-batteuse
À l'identique d'unemoissonneuse-batteusedans un champ de blé, le travail automatisé. Le champ est immense, la perte de quelques épis sans importance.

Les modifications de CodexBot sont fréquemment imparfaites aux yeux des humains, mais elles respectent le principe crucial: «La référence est mieux qu'avant.».

Ce principe est lié à la masse de corrections en attente, qui ne pourront JAMAIS être toutes améliorées par des humains en raison de la quantité. Le « mieux » est suffisant.

De même, les erreurs du bot sont considérées par rapport à leur impact global. En raison de la complexité technique du traitement réalisé (prédiction, import de données non fiables) et des moyens restreints alloués, des erreurs sont inévitables. Le souci est de rester dans uneproportion acceptable d'erreurs:si l'erreur est très rare et sans gravité pour l'article: «Tant pis!». On ne bloque pas en écriture un rédacteur humain qui commet parfois une faute de grammaire;-)

Les suggestions d'améliorations sont prises en compte si elles semblent pertinentes par rapport à la masse de corrections potentielles, et au temps de développement bénévole nécessaire. Ce n'est pas une question de bonne ou mauvaise volonté, mais de rentabilité. Typiquement en dessous de 10 000 références impactées, c'est rarement rentable. La solution d'une requête ponctuelle (WP:RBOT) sera préférée.

photo d'un écran noir affichant du texte coloré
Suivi sur console de la complétion bibliographique, 2019

La première version a été lancée avecZiziBoten août 2011[2],convertissait les modèles anglophones{{cite book}}et complétait les modèles avec les donnéesWorldcat.Cette version a été stoppée en juin 2012, la maintenance du code et la communication avec les contributeurs humains devenant toutes deux un peu trop compliquées.

En septembre 2019, une nouvelle version a été expérimentée, avec l'aide d'une équipe de contributeurs bénévoles ayant consacré du temps au contrôle de la qualité des éditions du bot et aux suggestions d'améliorations: Ypirétis, Evynrhud et d'autres. Après de nombreuses semaines d'expérimentation, le bot est devenu pleinement opérationnel en novembre 2019. La première tâche de complétion a été prévue pour durer une pleine année, en raison de limitations techniques (quotas Google). En 2020-2021, l'ensemble des ouvrages comportant un ISBN est vérifié.

Depuis avril 2020[3],CodexBot expérimente laconversion des liens externesbruts (http://) en jolies références (modèle ouvrage, article ou lien web). Ce traitement concerne plus de 20 millions de liens et s'étalera sur plusieurs années.

Schéma à la noix

[modifier|modifier le code]
schéma en étoile de modules reliés au centre
Le bot est composé de processus indépendants (workers)

Dernières éditions des bots

[modifier|modifier le code]

CodexBot:

4 octobre 2024

3 octobre 2024

CodexBot2:

4 octobre 2024

3 octobre 2024

2 octobre 2024

Fonctionnalités en projet

[modifier|modifier le code]

Ton cerveau humain serait utile pour corriger les erreurs que j'ai détecté.

1 pages à traiter

Les expérimentations sont souvent réalisées avec le botZiziBot.

Liens web et articles:

  • augmentation de la cadence, augmentation du taux de complètement. Actuellement 1500 liens modifiés par jour (50k/mois), c'est trop peu. Une estimation de 500 liens/{{lien web}}ajoutés chaque jour par les rédacteurs.
  • Maintenance rapide et permanenteSurveillance des RC
  • Service minimum non garanti{{lien web}}:vérification, complètement, récupération d'archive…
  • Maintenance morteConversion refs"[http:// bla] {{p.|33}} patati"=>{{lien web}}/{{article}}
  • Maintenance rapide et permanenteComplètement archive avecArchive.today
  • Maintenance rapide et permanenteExtraction des dates d'édition/ajout d'un lien brisé
  • Maintenance morteConversion des{{lien brisé}}=>{{lien web}}avec archive
  • Service minimum non garantiGestion/nettoyage des URL signalées comme spam ou usurpé
  • Maintenance morteConcaténation des refs identiques (+page) sur même article
  • Maintenance en créationCréation de nouveaux modèles pour lien d'archive

Ouvrages:

  • Maintenance rapide et permanenteSurveillance des RC
  • Service minimum non garantiConversion des refs d'ouvrage manuscrites en modèle (exemple)
  • Maintenance en créationComplètement des{{ouvrage}}sans ISBN
  • Maintenance en créationExport des citations biblio versWikidata+ conversion{{Bibliographie}}

Contributeurs

[modifier|modifier le code]

De nombreux contributeurs ont aidé à la conception du bot, notammentEvynrhudetYpirétis.Avec les idées, signalements de bugs, avis desondagede:Pierre cb,Frédéric-FR,Hégésippe,Okhjon,Herr Satz,Arroser,Dfeldmann,RSVartanian,Éduarel,TwoWings,HB,Sijysuis,Cheep,NicoV,Kokonino,Ça va sans l'dire,Le Silure,TED,Vega,Pic-Sou,Daehan,Cortomaltais,Verbex,Ideawipik,(:Julien:),Vers75,Kokonino,Msbbb,Epok,103.251.44.162,Eru,Thibaut120094,Kikuyu3,Paul.schrepfer,SyntaxTerror,Orlodrim,Litlok,Croquemort Nestor.

Pensée pour les wikignomes qui corrigent suite aux signalements du bot, notammentPaul S..

Le saviez-vous?

[modifier|modifier le code]

En 2021, plus de 12 000 références{{ouvrage}}étaient ajoutées chaque mois (soit 400/jour). Peut-être 9 000{{article}}chaque mois. Pour un total de plus de 1 million de références{{ouvrage}}début 2021.

Si le nombre d'articles de laWikipédia en françaisa doublé entre 2010 et 2019, le nombre de citations bibliographiques a peut-être été multiplié par 20! Par exemple, le nombre de modèle{{ouvrage}}est passé de 45 000 vers 2011 à 930 000 fin 2019.

Le mathématicien russeVladimir Levenshtein(1939-2017) a conçu en 1965un calcul de distanceentre des chaînes de caractères, qui est utilisé par le bot pour corriger les fautes de typo dans le nom des paramètres.

Les articles avec le plus grand nombre de modèles{{ouvrage}}sontAventures et Passions(973) etBibliographie sur l'Union européenne(789).

Dernières notifications du bot:

Humain tu donner ! 1 merci => 1000 edits sinon pas travail
Humain tu donner! 1 merci => 1000 edits sinon pas travail

Références et notes

[modifier|modifier le code]