Lors de la création d’un Blog, ont doit garder à l’esprit , la manière dont l’on souhaite être indexé. Le meilleur moyen est encore de contrôler nos chèrs robots par le fichier robot.txt.
Pourquoi contrôler les moteurs de recherche ?
Il est très important de savoir pourquoi et comment vous voulez que les moteurs de recherche indexent votre Blog, si vous ne prenez pas le temps de vous occuper d’eux alors il n’y aura peu de chance d’arriver en tête des recherches. Dans une installation par défaut de Wordpress vous obtenez plusieurs fois le même texte sur des pages différentes (Duplicate content). Si l’on prend l’exemple d’un simple billet, il apparait dans la page d’accueil, dans sa page propre, dans les catégories, l’auteur de la page, et dans les résultats d’une recherche. Je ne sais pas pour vous, mais c’est déjà pas mal. Personnellement je ne pense pas qu’un robot soit capable de donner la version la plus pertinente. C’est pourquoi il faut contrôler le robot d’indexation.
Comment contrôler l’indexation ?
Utilisez un fichier robot.txt placé à la racine de votre Blog. Je pense que la plupart d’entre vous savent ce qu’est le robot.txt. Pour ceux qui débute dans le SEO, le robot.txt est un fichier qui va donner des instructions sur le genre de fichier/dossier que vous souhaitez autoriser ou interdire à l’indexation.
User-agent: * Disallow: /cgi-bin/ Disallow: /wp- Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /tag Disallow: /author User-agent: Googlebot Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Sitemap: http://www.webduweb.com/sitemap.xml
- ‘User-agent’ précise à quel type de robot nous souhaitons donner un ordre. Pour donner un ordre à tous les robots, on utilise *.
- La commande ‘Allow’ permet de donner l’ordre d’indexer la totalité
- La commande ‘Disallow’ permet d’interdire l’indexation du fichier ou dossier concerné.
- Ensuite le sitemap. Pensez bien que je l’ai déjà soumis à google, et donc pourquoi le mettre dans le robot.txt? Tout simplement car il n’y a pas que google dans la vie
et donc il faut prévenir - J’ai spécifié
Disallow: /trackback/ Disallow: /feed/ Disallow: /comments/feed/ Disallow: /tag Disallow: /author
pour éviter au maximum le duplicate
- Concernant
Disallow: /wp-
Certains pensent qu’il vaut mieux spécifier tous les répertoires wp-content……. mais en utilisant juste ‘/wp-‘ je n’ai pas encore retrouver mes dossiers wp- sur google.
Vous pouvez aussi utiliser <meta content= »NOINDEX, NOFOLLOW » name= »robots » /> directement dans vos fichiers, mais j’en reparlerais dans un autre billet
Ne négliger surtout pas votre robot.txt, consacrez-y du temps, affinez le au mieux avec votre thème. Si vous avez des suggestions pour le robot n’hésitez pas à les ajouter dans votre commentaire. J’éditerai mon billet.





Voilà un article complet et surtout bien expliquer.
Pour le robot moi même qui m’intérresse au référencement, je ne l’utilise pas.
Je fais une erreur ?
Je pense pas car jusqu’a maintenant aucun problème.
Par contre cela ne m’empêche pas de rester dans les premières positions. Pour Google c’est les liens qui prime alors bonne chance à ton blog.
Non, ce n’est pas une erreur en soit, juste que ça donne la possibilité de lui dire où aller, et donc ne pas perdre de temps avec des dossiers inutiles.
Personnellement j’ai enlever « Disallow: /feed/ ».
J’ai remarquer après plusieurs mois que l’un de mes articles ayant pour titre « Feed…. etc. » (pour par faire de la pub xD) n’étais pas du tout indexé sur Google…
Maintenant il l’est… je suis pas sur a 100% que sa venait de cette ligne, sait-on jamais..
Ce n’est pas normal, car en fait /feed/ correspond à http://www.webduweb.com/feed/ par exemple