Passer au contenu principal

Vérification des liens

La présence de liens morts dans un site web entraîne une expérience utilisateur dégradée, et impacte négativement le classement des sites de l'UNIL dans les moteurs de recherche.

Trouver ces liens morts est cependant un travail laborieux et répétitif. C'est pourquoi nous proposons un outil permettant de vérifier automatiquement leur présence au sein des sites UNIL.

Cet outil est limité aux sites hébergés sur www.unil.ch, wp.unil.ch, www.asso-unil.ch, people.unil.ch. Il est également possible de vérifier des pages individuelles sur wiki.unil.ch.

Vous pouvez accéder à l'outil à l'adresse linkchecker.unil.ch depuis le réseau UNIL. Si vous êtes en dehors du réseau UNIL, vous devez d'abord vous connecter via le VPN Crypto UNIL.

Interface

interface.png

  1. Entrez l'URL du site (unil.ch/exemple) ou de la page que vous souhaitez vérifier. Si votre site est utilise Wordpress, il est nécessaire d'indiquer le sous-domaine dans l'URL (wp.unil.ch/exemple, people.unil.ch/exemple, ou asso-unil.ch/exemple).
  2. Entrez votre adresse email UNIL. Ce champ est obligatoire. Les résultats vous seront envoyés à cette adresse sous la forme d'une feuille Excel.
  3. Définissez le "périmètre" de recherche: c'est-à-dire si l'outil va vérifier une page, une section, ou l'entièreté du site. La vérification par section cherchera dans toutes les pages du site dont l'URL commence par l'URL donné. (p.ex. si on donne l'URL "unil.ch/exemple/devoirs", la page "unil.ch/exemple/devoirs/exercice1" sera vérifiée, ainsi que toutes les autres pages d'exercices dans la section devoirs)
  4. Options avancées:
    1. Type de liens à vérifier: cette option permet sélectionner quel types de liens seront vérifiés par l'outil. Par défaut, seuls les liens externes sont vérifiés. Il est également possible de vérifier les liens qui mènent à des pages internes au site vérifié (liens internes). Cette option est utile pour vérifier les éléments de menus, les références internes à d'autres pages, et les médias hébergés directement sur ce site. Pour la plupart des cas, vérifier les liens internes est superflu, et ralentit significativement la vérification. Le cas le plus courant est la vérification des liens externes uniquement.
    2. Vérifier les médias: permet de vérifier les images et vidéos qui pourraient se trouver sur le site. Si vous souhaitez vérifier des médias qui seraient hébergés directement sur le site à vérifier, il faut également sélectionner la vérification des liens internes, sinon seulement les images externes seront vérifiées. Pour la plupart des cas, cette option est superflue, et ralentit significativement la vérification.
    3. Traiter les redirections comme des liens morts: cette option fait remonter les redirections (statuts HTTP 3XX) dans la liste des résultats. Les redirections ont un impact négatif sur le référencement des sites web. Il convient de les éviter le plus possible et de toujours utiliser l'URL final si c'est faisable.

Attention: l'utilisation des options avancées ralentit la recherche ! Ne les utilisez que si vous voulez spécifiquement vérifier ces éléments.

Lancez la vérification en cliquant sur le bouton "Vérifier".

La vérification se fait en trois phases:

  1. Tous les pages à vérifier sont collectées. L'application affiche une roue animée.
  2. Les liens présents dans chaque page sont collectés. Cette opération peut prendre de quelques instants à plusieurs minutes, en fonction du nombre de pages. L'application affiche une roue animée.
  3. Les liens sont vérifiés un à un. Une barre de progression apparaît et l'avancement du processus est affiché. La durée dépend du nombre de liens à vérifier. Une estimation du temps restant est calculée et affichée, ainsi qu'une vue d'ensemble de la progression de la vérification.

Si le nombre de pages à vérifier excède 50 pages, votre requête est gardée en mémoire et sera traitée dans la nuit. Vous recevrez les résultats par email. Sinon, la vérification se poursuit en temps réel.

Résultats

resultats.png

Les résultats de la vérification se présente sous forme de table, où chaque ligne représente un lien mort.

  • Page: lien cliquable vers la page dans laquelle le lien mort se trouve.
  • Lien: lien mort tel qu'il apparaît dans la page. Vous pouvez afficher la page morte en cliquant sur ce lien.
  • URL: URL vers laquelle le lien mort renvoie.
  • Statut: le statut d'erreur associé avec le lien mort. Ces codes peuvent vous aider à déterminer la raison pour laquelle il ne fonctionne plus.

Statuts d'erreurs

Les codes d'erreur HTTP nous informent sur la raison pour laquelle un lien ne fonctionne plus. Le plus commun est le code 404, indiquant que la page demandée n'a pas été trouvée. Une liste exhaustive des codes d'erreurs HTTP peut être trouvée sur Wikipedia.

Les statuts d'erreur 401 et 403 peuvent indiquer qu'une page requiert d'être connecté et autorisé pour la consulter, ou que le vérificateur a été bloqué par le site. Ces statuts demandent d'être vérifiés à la main.

Certaines autres erreurs peuvent se produire, et demandent souvent d'être vérifiées à la main:

URL invalide L'URL donnée contient une erreur (p.ex. espaces, caractères illégaux)
Certificat SSL invalide Le certificat SSL du serveur à l'URL donnée est invalide. Cela peut arriver quand on essaie de joindre une page qui ne supporte que HTTP avec un URL qui spécifie "https://". Il faut alors le remplacer par "http://". Dans d'autres cas, ce sont des problèmes de configuration du serveur qui peuvent avoir plus ou moins d'impact sur la navigation de l'utilisateur (la page peut toujours être accessible). Dans ce cas, contactez l'administrateur du serveur concerné.
Erreur de connexion Le serveur ne répond pas. Cela peut arriver si le serveur est hors-ligne, ou répond trop lentement. Ce problème peut être temporaire.
Trop de redirections Ceci peut se produire s'il y a plus de 30 redirections avant d'arriver à la page finale. Utilisez si possible directement l'URL final.
Délai d'expiration dépassé Le serveur prend trop de temps à répondre. La page peut cependant toujours être accessible.
Erreur inconnue Erreur plus complexe.

Domaines ignorés

Pour des raisons de performance, certains liens sont ignorés par défaut. C'est notamment le cas des liens internes, qui ne sont vérifiés qu'en activant l'option avancée, des services dont on sait qu'ils sont toujours joignables, et de ceux qui bloquent systématiquement le vérificateur.

Domaines internes à l'UNIL:

  • agenda.unil.ch
  • applications.unil.ch
  • applicationsinter.unil.ch
  • applicationspub.unil.ch
  • av.unil.ch/hva
  • editjahia.unil.ch
  • fmpsrv01prd.unil.ch
  • fmpsrv02prd.unil.ch
  • fmpsrv03prd.unil.ch
  • github.unil.ch
  • ip.unil.ch
  • jabba.unil.ch
  • my.unil.ch
  • news.unil.ch/display
  • repopub.unil.ch
  • sapcent.unil.ch
  • serval.unil.ch
  • unilogo.unil.ch

Domaines externes à l'UNIL:

  • www.babla.fr
  • doi.org
  • nbn-resolving.org/urn:nbn:ch:serval
  • researchgate.net
  • linkedin.com
  • nytimes.com
  • www.cairn.info
  • www.pexels.com
  • pixabay.com
  • instagram.com
  • www.jstor.org
  • onlinelibrary.wiley.com
  • sagepub.com
  • tandfonline.com
  • sciencedirect.com
  • oup.com
  • dreamstime.com
  • www.science.org/doi
  • sciencemag.org
  • www.embopress.org/doi
  • journals.biologists.com
  • web.archive.org
  • maps.google.com

Les publications scientifiques en ligne disposent souvent de protections additionnelles contre les robots. En conséquence, il arrive fréquemment que les vérificateur soit bloqué par ces sites, signalant le lien comme brisé. De tels faux-positifs sont malheureusement inévitables, et il convient de toujours vérifier les résultats. Pour cette raison, certaines publications scientifiques ne sont jamais vérifiées.