¿Qué es Robots.txt y cómo usarlo para decirle a los robots qué deben (o no deben) solicitar de su sitio web?

Este archivo puede ser un gran aliado para el SEO de tu sitio web, ayudando a los robots a indexar tu contenido

¿Alguna vez has visto la película “ Yo, Robot ”?

En la película protagonizada por Will Smith , estamos en el año 2035, los robots existen para servir a los humanos y deben seguir 3 reglas:

Los robots no pueden dañar a los humanos;
Los robots deben obedecer a los humanos (si no va en contra de la primera regla);
Los robots deben protegerse a sí mismos (si no contra la primera y la segunda regla).

Todavía no es 2035, pero Internet ya está lleno de robots que completan formularios, arruinan los informes de Google Analytics , piratean computadoras e indexan contenido en los motores de búsqueda de Internet.

El robot de Google, llamado cariñosamente “Googlebot“, pero también conocido como “Crawler”, “Spider” o simplemente “Bot”, fue creado para explorar toda la web en busca de nuevas páginas (o actualizaciones) para indexar en los resultados del motor de búsqueda.

Comienzan su búsqueda a través de una lista de URL previamente indexada y se desplazan a otras páginas a través de enlaces existentes, identificando actualizaciones y nuevos contenidos y manteniendo la página de resultados de Google siempre actualizada y relevante para los usuarios.

Para comprender mejor todo el proceso de indexación de páginas en Google (incluido qué es la indexación), visite la publicación Cómo funciona Google.

Los otros motores de búsqueda, como Bing y Yahoo, también tienen sus propios robots, que funcionan de manera similar.

Y así los robots van de página en página, a través de enlaces, enviando una cantidad astronómica de contenido para indexar (para tener una idea, hoy tenemos más de 1 billón y medio de sitios en internet).

Pero, ¿qué pasa si no quiero que los robots rastreen mis carpetas, imágenes o ciertos recursos? Aquí es donde entra el archivo robots.txt.

También te puede interesar: Ventajas del SEO

Contenidos

1 ¿Qué es robots.txt?
2 3 razones para usar un archivo robots.txt en su sitio web
3 1. Evite rastrear áreas internas, archivos y recursos
4 2. El tiempo de los robots en tu sitio es limitado
5 3. Puede usarlo para indicar dónde están sus mapas de sitio
6 ¿Y cuándo no usar el archivo robots.txt?
7 Robots.txt x Metaetiqueta Robots
8 Sintaxis
9 Agente de usuario (requerido)
10 Disallow y Allow (cada regla debe tener al menos una)
11 Sitemap (opcional)

¿Qué es robots.txt?

En resumen, robots.txt es un archivo de texto publicado en la raíz del sitio que contiene pautas para los robots de los motores de búsqueda, principalmente para evitar sobrecargar el sitio con solicitudes.

Básicamente, decimos que la regla se aplica a todos los robots (User-agent) y enumeramos qué robots deben ignorar (Disallow) y las excepciones a las reglas (Allow). Por ejemplo, podría desobedecer a un humano para protegerlo, o podría no protegerse para obedecer a un humano.

Incluso un error muy común son los sitios que se inician y el archivo robots.txt no se revisa. Pasan días, semanas e incluso meses y no aparece nada del sitio, ni siquiera cuando buscas el nombre de la empresa.

El problema es que los programadores suelen configurar robots.txt de la siguiente manera mientras se desarrolla el sitio:

3 razones para usar un archivo robots.txt en su sitio web

Tal vez ahora te estés preguntando, “¿pero por qué diablos le voy a decir al robot de Google que ignore las características de mi sitio web, si cuanto más aparezca mi sitio web, más tráfico orgánico obtendré?”

Bueno, no te equivocas. Si bien su uso se considera una buena práctica de SEO , la mayoría de los sitios web no necesitan un archivo robots.txt. El propio Google lo afirma en sus directrices. Si el sitio no tiene un archivo con pautas para robots, se rastreará e indexará normalmente.

Además de evitar sobrecargar el sitio con solicitudes, tenemos 3 razones por las que debes incluir las reglas en tu sitio:

1. Evite rastrear áreas internas, archivos y recursos

Por lo general, un sitio tiene un área de inicio de sesión, páginas para uso interno o un área aún en desarrollo, por ejemplo.

Este tipo de páginas pueden, y deben, tener reglas para que los robots no las rastreen. También puede evitar que se rastreen tipos de archivos (como PDF o DOC), imágenes e incluso recursos como Ajax.

Si hace Inbound Marketing, es una gran característica si aloja sus materiales dentro de su dominio. Después de todo, desea que sus clientes potenciales encuentren su página de destino y se conviertan, y no que encuentren y accedan directamente al material final, ¿verdad¡

Usando reglas de un archivo robots.txt, puede evitar que se rastree un área completa de su sitio e incluso nuevas reglas para decir qué páginas son excepciones y cuáles deben indexarse.

2. El tiempo de los robots en tu sitio es limitado

No sé si lo sabes, pero Google ya ha declarado oficialmente que tiene un límite de rastreo , el famoso “Crawl Budget”.

Esto significa que si no determina qué páginas no debe rastrear Google, podría perder más tiempo en su sitio rastreando páginas inútiles y no rastrear las páginas que realmente le gustaría indexar o actualizar.

Si tiene problemas para que los bots rastreen e indexen todo su sitio, es posible que el problema sea el presupuesto de rastreo. Bloquear páginas irrelevantes para que no se rastreen podría ser la solución.

Teniendo en cuenta que, por lo general, esto solo se convierte realmente en un problema para sitios y portales de contenido grandes, con muchas páginas.

3. Puede usarlo para indicar dónde están sus mapas de sitio

Es una función simple, pero ayuda a Google y a otros motores de búsqueda a encontrar sus mapas de sitio y, en consecuencia, a comprender la organización de su sitio.

¿Y cuándo no usar el archivo robots.txt?

¿Alguna vez ha probado si su sitio ya tiene un archivo robots.txt? Entonces viste lo fácil que es acceder a él… Así que otros usuarios, incluidos los piratas informáticos, también pueden encontrarlo fácilmente.

Por tanto, no interesa utilizar el archivo para bloquear el acceso a documentos personales o archivos confidenciales, ya que lo estás bloqueando en los buscadores, sino que estás facilitando el acceso directamente a través de robots.txt.

En este caso, la solución más recomendable es incluir una contraseña de acceso o utilizar Meta Tag Robots.

Importante: el hecho de que las páginas incluidas en el archivo no se rastreen no garantiza que no aparecerán en Google. Esto funciona para bloquear el acceso a archivos y recursos, pero para garantizar que las páginas no aparezcan en los resultados, la mejor manera es usar Robots Meta Tag Noindex.

Robots.txt x Metaetiqueta Robots

A diferencia del archivo robots.txt, que es para todo el sitio, Meta Tag Robots le permite configurar páginas individualmente y decirle a los motores de búsqueda que no indexen la página y/o no sigan los enlaces presentes en la página.

La etiqueta se inserta dentro de la sección <head> del HTML de la página y tiene la siguiente estructura:

Para indicar que los robots no deben indexar la página:

Para indicar que los robots no deben seguir ningún enlace presente en la página:

Para decirle a los robots que no indexen la página ni sigan sus enlaces:

Esta es la mejor alternativa para asegurar que ciertas páginas no sean indexadas en los buscadores. Si la página ya ha sido indexada y la metaetiqueta se insertó después de eso, cuando los robots vuelvan a rastrear la página, se leerá la etiqueta y se enviará a los servidores el comando de no indexar.

Si usa WordPress y tiene instalado el complemento Yoast SEO, en la configuración del complemento en cada página o publicación puede incluir estas configuraciones:

Un ejemplo común del uso de Meta Tag Robots es en las páginas de agradecimiento. Como son las páginas que proporcionamos los materiales, lo ideal es que no indexen en buscadores, solo las Landing Pages.

Tampoco es una buena práctica incluir sus URL en el archivo robots.txt, ya que no solo no garantiza que no se indexarán, sino que también revelará las direcciones de las páginas de agradecimiento a cualquier usuario.

El uso de la metaetiqueta Robots Noindex Nofollow en cada una de mis páginas de agradecimiento garantiza que no serán indexadas por los motores de búsqueda y también indica que no se siguen los enlaces presentes en ella, lo que también evita que los materiales se indexen y se muestren en los resultados de búsqueda.

De esta forma, te aseguras de que solo las Landing Pages se indexen en los motores de búsqueda.

Para obtener más información sobre el tema, consulte la documentación de Google sobre Meta Tag Robots.

Sintaxis

Para que los robots interpreten el contenido del archivo, robots.txt debe seguir algunos estándares.

El primero es que debe ser un archivo de texto ASCII o UTF-8. Las reglas ingresadas en el archivo se interpretan de arriba hacia abajo, siendo la secuencia: usuario-agente (a quien se aplica la regla) y a qué archivos y directorios puede o no acceder este robot.

Otro punto importante es que las reglas distinguen entre mayúsculas y minúsculas. Entonces, si incluye un directorio “/example” y también tiene “/example”, la regla solo se aplicará a lo que se incluyó en el archivo.

Consulte las directivas utilizadas en los archivos a continuación:

Agente de usuario (requerido)

Aquí es donde indicamos a qué robot se aplicará la siguiente regla y por defecto es la primera línea de cualquier regla. En esta lista puede encontrar la mayoría de los robots en Internet y si la regla se aplica a todos los robots, simplemente incluya un * en el lugar.

Disallow y Allow (cada regla debe tener al menos una)

Disallow es la directiva de que un determinado directorio o página no debe rastrearse en el sitio, mientras que Permitir es lo contrario, e indica qué directorios y páginas deben rastrearse.

De forma predeterminada, los robots ya rastrean todas las páginas del sitio, no es necesario incluir Permitir en el archivo. Es necesario usar solo en los casos en que una determinada sección o grupo esté bloqueado (Disallow), sin embargo dentro de este grupo hay excepciones que se pueden rastrear.

Sitemap (opcional)

Es la indicación de dónde se encuentra el mapa del sitio y es una buena práctica para ayudar a Google a rastrear e indexar el sitio.