El archivo robots.txt se encuentra en el directorio de un sitio web y estipula las páginas o los archivos a los que pueden acceder los bots. Los propietarios usan estos conjuntos de reglas para controlar cómo los buscadores y otros bots interactúan con su sitio web.
El archivo robots.txt afecta directamente a la optimización en buscadores y la clasificación de una página en los resultados de búsqueda. Los extractores legítimos consultan el archivo robots.txt cada vez que extraen e indexan contenido. Asimismo, buscadores populares como Googlebot también tienen lo que se conoce como un «presupuesto de rastreo» sobre el que el archivo robots.txt influye directamente. El presupuesto de rastreo se refiere al número de páginas que un rastreador web puede indexar en un periodo de tiempo determinado. Es posible que un sitio web contenga más páginas de las que pueda contabilizar su presupuesto de rastreo, por lo que los archivos robots.txt permiten centrar el rastreo en las páginas más relevantes y excluir otras duplicadas u ocultas.
Los bots de extracción maliciosos, por su parte, incumplen las directrices de robots.txt y a menudo intentan acceder a partes de un sitio que están prohibidas expresamente. Imagínate a los archivos robots.txt como líneas rojas que permiten mantener a los bots legítimos bajo control. Puedes respetar esas líneas, pero cruzarlas se convierte en una decisión puramente ética en la que las reglas de robots.txt no son ningún factor limitante. No obstante, las aplicaciones suelen contar con otras herramientas de seguridad que añaden protección para la aplicación y sus archivos y directorios más sensibles. Así, hay muchas herramientas de seguridad que están pendientes de los archivos robots.txt, puesto que estos se pueden usar como señuelo para detectar bots maliciosos que se hayan adentrado en sus aplicaciones.
Hay varios aspectos que se deben tener en cuenta a la hora de crear archivos robots.txt.
El archivo debe situarse en la raíz del dominio, y cada subdominio precisa de su propio archivo.
El protocolo de robots.txt distingue entre mayúsculas y minúsculas.
Resulta fácil bloquear totalmente el rastreo sin querer, así que asegúrate de que entiendes la sintaxis de un comando antes de implementarlo:
Disallow: / lo prohíbe todo.
Disallow: no prohíbe nada; es decir, lo permite todo.
Allow: / lo permite todo.
Allow: no permite nada; es decir, lo prohíbe todo.
A continuación tenemos un ejemplo de un archivo robots.txt básico:
En este ejemplo, el asterisco (*) del campo «User-agent» indica que las reglas afectan a todos los robots de la web. El código «Disallow» especifica los directorios o archivos que no deberían rastrear los robots, mientras que «/private/», «/admin/» y «/cgi-bin/» son los directorios prohibidos. Siguiendo esta lógica, los administradores pueden estipular exactamente lo que los bots no deberían rastrear y lo pueden extender a todas las ubicaciones que deseen.
El archivo robots.txt permite a las organizaciones decidir a qué páginas puede acceder un rastreador, pero también puede limitar la rapidez con la que funciona. El retraso de rastreo es una directriz extraoficial que las organizaciones pueden utilizar para limitar el número de peticiones que haga un rastreador durante un periodo concreto. Así, se evita que sobrepase la capacidad de un servidor. Además, las organizaciones pueden implementar un retraso de rastreo para un rastreador concreto o para todos aquellos que sean compatibles con la directriz. Es importante resaltar que hay buscadores (como Yahoo y Bing) que siguen esta directriz extraoficial de serie y otros (como Googlebot) que requieren ajustes en sus consolas para conseguir el mismo resultado.
Los propietarios de sitios web crean el archivo robots.txt para guiar a los bots por las aplicaciones. Mientras que los bots legítimos tienen en cuenta esta información a la hora de rastrear unas páginas y no otras, los bots maliciosos de extracción le hacen caso omiso y rastrean lo que les place. Aquí encontrarás más información acerca de los tipos de bots a los que afectan los archivos robots.txt.