À l’heure où de plus en plus de données personnelles circulent sur le web sans le consentement de leurs auteurs, il est bon de rappeler à chacun que des gestes simples permettent de limiter l’absorption de nos données par les moteurs de recherche.

Lorsque votre site web est en phase de développement ou lorsque vous souhaitez que votre site reste privé, n’apparaisse pas dans les résultats des moteurs de recherche, une solution très simple et rapide à mettre en place existe.

Il suffit de placer à la racine de votre site, un fichier « robots.txt » contenant quelques directives à l’attention des robots que ceux-ci explorent votre site en quête de pages à référencer ou dans le cas de robots malicieux, en quête de fichiers spécifiques.

Ce petit fichier permet donc de contrôler l’indexation du contenu de nos site web par les moteurs de recherches.

Voici un tableaux avec quelques directives et leur utilité:

CommandeValeurUtilité
User-agent:* (pour tous) ou nom de l’agentNom du robot concerné
Allow:Chemin du répertoire ou fichierAutoriser l’exploration
Disallow:Chemin du répertoire ou fichierInterdire l’exploration

Le chemin des répertoires ou fichiers concernés peuvent ne pas être totalement définis afin de masquer le nom de ceux-ci.

Les noms des robots sont disponibles sur robotstxt.org

Pour aller plus loin, n’oubliez pas de limiter l’accès à vos données sensibles en verrouillant leur accès via un fichier .htaccess et une protection par mot de passe sur ces répertoires.

infoCes directives n’ont pas nécessairement besoin d’apparaître dans un fichier robots.txt pour être appliquées. Il faut donc être très prudent dans leur utilisation.