Robots.txt


Los dueños de páginas web utilizan el archivo /robots.txt para dar instrucciones acerca de su sitio a los robots o bots de motores de búsquedas como Google, Yahoo, Bing, etc.

El sistema trabaja simple, si un robot quiere visitar la URL por ejemplo: http://www.ejemplode.com/ antes de hacerlo, revisa a http://www.ejemplode.com/robots.txt y se fija su contenido. Mediante el contenido robots.txt, se le dan instrucciones a los bots para no indexar, o acceder a ciertos archivos. Se puede ser especifico, como por ejemplo, que ciertos bots no entren, pero otros si.

Hay dos consideraciones importantes al utilizar /robots.txt:

  • Los robots pueden ignorar tu robots.txt. Especialmente robots de malware que escanean la web por vulnerabilidades, y escavadores de direcciónes de correos usado para enviar Spam.
  • El archivo robots.txt está públicamente disponible. Cualquier persona puede ver el contenido de tu robots.txt

Asi que no uses, robots.txt para esconder información. Más bien utilizalo para que no se indexen ciertos contenidos de tu sitio.

 Aca hay varios ejemplo de robots.txt con su explicación

[codigo]User-agent: *
Disallow: /[/codigo]

Este codigo, hace que todos los robots no puedan acceder a ningún contenido del sitio. El párametro User-agent es para especificar los robots, en este caso con el asterisco, señalamos a todos. Y Disallow es para que no puedan acceder. En este caso, haciendo un Disallow en /, los robots no pueden acceder a ningun lado.

[codigo]User-agent: *
Disallow: [/codigo]

En cambio, si dejamos el Disallow vacio, no pasa nada. Los robots pueden acceder a cualquier contenido.

Ahora otro ejemplo

[codigo]User-agent: *
Disallow: /contacto.html
Disallow: /archivo.html
[/codigo]

Este siguiente codigo, hace que todos los robots no pasen por contacto.html ni archivo.html

Luego tenemos este otro ejemplo que permite que ningún robot pase por el sitio, exceptuando el bot de Google

[codigo]User-agent: Google
Disallow:

User-agent: *
[/codigo]Disallow: /

Leave a Reply

Your email address will not be published. Required fields are marked *