Tout ce que vous devez savoir sur l'en-tête HTTP X-Robots-Tag

Tout ce que vous devez savoir sur l'en-tête HTTP X-Robots-Tag

28 décembre 2022

L'optimisation des moteurs de recherche, dans son sens le plus élémentaire, repose sur une chose par-dessus tout : les robots des moteurs de recherche qui explorent et indexent votre site.

Mais presque tous les sites Web auront des pages qui vous ne voulez pas inclure dans cette exploration.

Par exemple, faites vous voulez vraiment que votre politique de confidentialité ou vos pages de recherche internes apparaissent dans les résultats Google ?

Dans le meilleur des cas, elles ne font rien pour générer activement du trafic vers votre site, et dans le pire des cas, elles pourrait détourner le trafic de pages plus importantes.

Heureusement, Google permet aux webmasters d'indiquer aux robots des moteurs de recherche les pages et le contenu à explorer et ceux à ignorer. Il existe plusieurs façons de procéder, la plus courante étant d'utiliser un fichier robots.txt ou la balise meta robots.

Nous avons une excellente explication détaillée des tenants et aboutissants de robots.txt, que vous devriez absolument lire.

Mais en termes généraux, c'est un texte brut qui se trouve à la racine de votre site Web et respecte le Robots Exclusion Protocol (REP)< /a>.

Robots Exclusion Protocol (REP)< /a>.

Robots.txt fournit aux robots des instructions sur le site dans son ensemble, tandis que les balises meta robots incluent des instructions pour des pages spécifiques.

Robots.txt fournit aux robots des instructions sur le site dans son ensemble, tandis que les balises meta robots incluent des instructions pour des pages spécifiques.

Certaines balises meta robots que vous pouvez utiliser incluent index, qui indique aux moteurs de recherche d'ajouter la page à leur index ; noindex, qui lui indique de ne pas ajouter de page à l'index ni de l'inclure dans les résultats de recherche ; suivre, qui demande à un moteur de recherche de suivre les liens sur une page ; nofollow, qui lui dit de ne pas suivre les liens, et une foule d'autres.

Certaines balises meta robots que vous pouvez utiliser incluent index, qui indique aux moteurs de recherche d'ajouter la page à leur index ; noindex, qui lui indique de ne pas ajouter de page à l'index ni de l'inclure dans les résultats de recherche ; suivre, qui demande à un moteur de recherche de suivre les liens sur une page ; nofollow, qui lui dit de ne pas suivre les liens, et une foule d'autres.indexnoindexsuivrenofollow

Les balises robots.txt et meta robots sont des outils utiles pour gardez dans votre boîte à outils, mais il existe également un autre moyen d'indiquer aux robots des moteurs de recherche de ne pas indexer ou de ne pas suivre : le X-Robots-Tag.

Les balises robots.txt et meta robots sont des outils utiles pour gardez dans votre boîte à outils, mais il existe également un autre moyen d'indiquer aux robots des moteurs de recherche de ne pas indexer ou de ne pas suivre : le X-Robots-Tag.X-Robots-Tag

Qu'est-ce que le X-Robots-Tag ?

Qu'est-ce que le X-Robots-Tag ?

Le X-Robots-Tag est un autre moyen pour vous de contrôler la façon dont vos pages Web sont explorées et indexées par les araignées. Dans le cadre de la réponse d'en-tête HTTP à une URL, il contrôle l'indexation d'une page entière, ainsi que les éléments spécifiques de cette page.

Le X-Robots-Tag est un autre moyen pour vous de contrôler la façon dont vos pages Web sont explorées et indexées par les araignées. Dans le cadre de la réponse d'en-tête HTTP à une URL, il contrôle l'indexation d'une page entière, ainsi que les éléments spécifiques de cette page.
< /div>

Et alors que l'utilisation des balises meta robots est assez simple, le X-Robots-Tag est un peu plus compliqué.

Mais cela, bien sûr, soulève la question :

Quand devez-vous utiliser le X-Robots-Tag ?

Et alors que l'utilisation des balises meta robots est assez simple, le X-Robots-Tag est un peu plus compliqué.

Mais cela, bien sûr, soulève la question :

Quand devez-vous utiliser le X-Robots-Tag ?

Selon Google, "Toute directive pouvant être utilisée dans une balise méta de robots peut également être spécifiée en tant que X-Robots-Tag."

Selon Google

Bien que vous puissiez définir des robots .txt dans les en-têtes d'une réponse HTTP avec à la fois la balise meta robots et la balise X-Robots, il existe certaines situations où vous voudriez utiliser la balise X-Robots - les deux plus courantes étant lorsque :

  • Vous souhaitez contrôler la façon dont vos fichiers non-HTML sont explorés et indexé.
  • Vous souhaitez diffuser des directives à l'échelle du site plutôt qu'au niveau de la page.
  • Vous souhaitez contrôler la façon dont vos fichiers non-HTML sont explorés et indexé.
  • Vous souhaitez diffuser des directives à l'échelle du site plutôt qu'au niveau de la page.
  • Par exemple, si vous souhaitez empêcher l'exploration d'une image ou d'une vidéo spécifique, la méthode de réponse HTTP facilite cette tâche.

    L'en-tête X-Robots-Tag est également utile car il vous permet de combiner plusieurs balises dans une réponse HTTP ou d'utiliser une liste de directives séparées par des virgules pour spécifier des directives.

    Peut-être que vous ne voulez pas qu'une certaine page soit mise en cache et qu'elle soit indisponible après une certaine date. Vous pouvez utiliser une combinaison de balises "noarchive" et "unavailable_after" pour demander aux robots des moteurs de recherche de suivre ces instructions.

    Essentiellement, la puissance du X-Robots-Tag est qu'il est beaucoup plus flexible que la balise meta robots.

    L'avantage d'utiliser un X-Robots-Tag avec des réponses HTTP est qu'il vous permet d'utiliser des expressions régulières pour exécuter des directives de crawl sur du non-HTML, ainsi que d'appliquer des paramètres à un niveau global plus large.

    X-Robots-Tag

    Pour vous aider comprendre la différence entre ces directives, il est utile de les classer par type. Autrement dit, s'agit-il de directives de robot ou de directives d'indexeur ?

    Voici une feuille de triche pratique pour expliquer :

    Directives de robotDirectives d'indexation
    Robots.txt – utilise l'agent utilisateur, autoriser, interdire , et des directives de plan de site pour spécifier où les robots des moteurs de recherche sur site sont autorisés à explorer et non autorisés.Balise Meta Robots - vous permet de spécifier et d'empêcher les moteurs de recherche de afficher des pages particulières sur un site dans les résultats de recherche.

    Nofollow - vous permet de spécifier des liens qui ne doivent pas transmettre l'autorité ou le PageRank.

    X-Robots- tag - vous permet de contrôler la façon dont les types de fichiers spécifiés sont indexés.

    Directives de robotDirectives d'indexationRobots.txt – utilise l'agent utilisateur, autoriser, interdire , et des directives de plan de site pour spécifier où les robots des moteurs de recherche sur site sont autorisés à explorer et non autorisés.Balise Meta Robots - vous permet de spécifier et d'empêcher les moteurs de recherche de afficher des pages particulières sur un site dans les résultats de recherche.

    Nofollow - vous permet de spécifier des liens qui ne doivent pas transmettre l'autorité ou le PageRank.

    X-Robots- tag - vous permet de contrôler la façon dont les types de fichiers spécifiés sont indexés.

    Directives de robotDirectives d'indexationDirectives de robotDirectives de robotDirectives d'indexationDirectives d'indexationRobots.txt – utilise l'agent utilisateur, autoriser, interdire , et des directives de plan de site pour spécifier où les robots des moteurs de recherche sur site sont autorisés à explorer et non autorisés.Balise Meta Robots - vous permet de spécifier et d'empêcher les moteurs de recherche de afficher des pages particulières sur un site dans les résultats de recherche.

    Nofollow - vous permet de spécifier des liens qui ne doivent pas transmettre l'autorité ou le PageRank.

    X-Robots- tag - vous permet de contrôler la façon dont les types de fichiers spécifiés sont indexés.

    Robots.txt – utilise l'agent utilisateur, autoriser, interdire , et des directives de plan de site pour spécifier où les robots des moteurs de recherche sur site sont autorisés à explorer et non autorisés.Robots.txtBalise Meta Robots - vous permet de spécifier et d'empêcher les moteurs de recherche de afficher des pages particulières sur un site dans les résultats de recherche.

    Nofollow - vous permet de spécifier des liens qui ne doivent pas transmettre l'autorité ou le PageRank.

    X-Robots- tag - vous permet de contrôler la façon dont les types de fichiers spécifiés sont indexés.

    Balise Meta Robots

    Nofollow - vous permet de spécifier des liens qui ne doivent pas transmettre l'autorité ou le PageRank.

    Nofollow

    X-Robots- tag - vous permet de contrôler la façon dont les types de fichiers spécifiés sont indexés.

    X-Robots- tag

    Où placez-vous le X-Robots-Tag ?

    Supposons que vous souhaitiez bloquer des types de fichiers spécifiques. Une approche idéale serait d'ajouter le X-Robots-Tag à une configuration Apache ou à un fichier .htaccess.

    Le X-Robots-Tag peut être ajouté aux réponses HTTP d'un site dans une configuration de serveur Apache via un fichier .htaccess.

    Exemples concrets et utilisations des X-Robots -Tag

    Ça sonne bien en théorie, mais à quoi cela ressemble-t-il dans le monde réel ? Jetons un coup d'œil.

    Disons que nous voulions que les moteurs de recherche n'indexent pas les types de fichiers .pdf. Cette configuration sur les serveurs Apache ressemblerait à ceci :

     Header set X-Robots-Tag 'noindex, nofollow'

    Dans Nginx, cela ressemblerait à ceci :

    location ~* .pdf$ { add_header X -Robots-Tag 'noindex, nofollow';}

    Maintenant, regardons un scénario différent. Disons que nous voulons utiliser le X-Robots-Tag pour empêcher l'indexation des fichiers image, tels que .jpg, .gif, .png, etc. Vous pouvez le faire avec un X-Robots-Tag qui ressemblerait à ceci :

    En-tête défini X-Robots-Tag 'noindex'

    Veuillez noter que comprendre comment ces fonctionnent et l'impact qu'elles ont les unes sur les autres est crucial.

    Par exemple, que se passe-t-il si le X-Robots-Tag et une balise meta robots sont localisés lorsque les robots d'exploration découvrent une URL ?

    Si cette URL est bloquée à partir de robots.txt, certaines directives d'indexation et de diffusion ne peuvent pas être découvertes et ne seront pas suivies.

    Si des directives doivent être suivies, les URL contenant celles-ci ne peuvent pas être interdit d'exploration.

    Rechercher un X-Robots-Tag

    Il existe différentes méthodes qui peuvent être utilisées pour rechercher un X-Robots-Tag sur le site.< /p>

    Le moyen le plus simple de vérifier est d'installer un extension de navigateur qui vous indiquera les informations X-Robots-Tag sur l'URL.

    extension de navigateurVérificateur dCapture d'écran du vérificateur d'exclusion de robots, décembre 2022

    Un autre plugin que vous pouvez utiliser pour déterminer si un X-Robots-Tag est bei ng utilisé, par exemple, est le plug-in Web Developer.

    plug-in Web Developer.

    En cliquant sur le plugin dans votre navigateur et en naviguant vers " Afficher les en-têtes de réponse », vous pouvez voir les différents en-têtes HTTP utilisés.

    En cliquant sur le plugin dans votre navigateur et en naviguant vers " Afficher les en-têtes de réponse », vous pouvez voir les différents en-têtes HTTP utilisés.

    plugin développeur web

    plugin développeur webplugin développeur web

    Une autre méthode qui peut être utilisée pour la mise à l'échelle afin de identifier les problèmes sur les sites Web avec un million de pages est Screaming Frog.

    Une autre méthode qui peut être utilisée pour la mise à l'échelle afin de identifier les problèmes sur les sites Web avec un million de pages est Screaming Frog.

    Après avoir exécuté un via Screaming Frog, vous pouvez accéder à la colonne "X-Robots-Tag".

    Après avoir exécuté un via Screaming Frog, vous pouvez accéder à la colonne "X-Robots-Tag".

    Cela vous montrera quelles sections du site utilisent la balise, ainsi que les directives spécifiques.

    Cela vous montrera quelles sections du site utilisent la balise, ainsi que les directives spécifiques.
     Rapport sur la grenouille hurlante. X-Robot-TagCapture d'écran du rapport Screaming Frog. X-Robot-Tag, décembre 2022

    Utilisation des X-Robots-Tags sur votre site

    Comprendre et contrôler la façon dont les moteurs de recherche interagissent avec votre site Web est la pierre angulaire de la recherche optimisation du moteur. Et le X-Robots-Tag est un outil puissant que vous pouvez utiliser pour faire exactement cela.

    Soyez simplement conscient : ce n'est pas sans danger. Il est très facile de se tromper et de désindexer tout votre site.

    Cela dit, si vous lisez cet article, vous n'êtes probablement pas un débutant en SEO. Tant que vous l'utilisez à bon escient, prenez votre temps et vérifiez votre travail, vous constaterez que le X-Robots-Tag est un complément utile à votre arsenal.

    Plus de ressources :

    • Google offre aux sites un meilleur contrôle de l'indexation avec la nouvelle balise Robots
    • 6 problèmes courants liés au fichier Robots.txt et amp ; Et comment les corriger
    • SEO technique avancé : un guide complet

    Image sélectionnée : Song_about_summer/Shutterstock

     Rapport sur la grenouille hurlante. X-Robot-TagCapture d'écran du rapport Screaming Frog. X-Robot-Tag, décembre 2022

    Utilisation des X-Robots-Tags sur votre site

    Comprendre et contrôler la façon dont les moteurs de recherche interagissent avec votre site Web est la pierre angulaire de la recherche optimisation du moteur. Et le X-Robots-Tag est un outil puissant que vous pouvez utiliser pour faire exactement cela.

    Soyez simplement conscient : ce n'est pas sans danger. Il est très facile de se tromper et de désindexer tout votre site.

    Cela dit, si vous lisez cet article, vous n'êtes probablement pas un débutant en SEO. Tant que vous l'utilisez à bon escient, prenez votre temps et vérifiez votre travail, vous constaterez que le X-Robots-Tag est un complément utile à votre arsenal.

    Plus de ressources :

    Plus de ressources :
    • Google offre aux sites un meilleur contrôle de l'indexation avec la nouvelle balise Robots
    • 6 problèmes courants liés au fichier Robots.txt et amp ; Et comment les corriger
    • SEO technique avancé : un guide complet
  • Google offre aux sites un meilleur contrôle de l'indexation avec la nouvelle balise Robots
  • 6 problèmes courants liés au fichier Robots.txt et amp ; Et comment les corriger
  • SEO technique avancé : un guide complet

  • Image sélectionnée : Song_about_summer/Shutterstock

    Image sélectionnée : Song_about_summer/Shutterstock