Guia para generar tu propio archivo robots.txt para indexar tu sitio en buscadores

Los Buscadores siempre quieren indexar toda la información posible, así que cuando llegan a tu sitio lo rastrean todo.

El problema surge cuando quieres evitar que ciertas páginas se incluyan en sus índices, ¿qué haces entonces?

Tienes 2 opciones:

  1. Introducir una etiqueta especial en cada página
  2. Usar un archivo centralizado para controlar la entrada

Esta última opción es la de robots.txt

Qué es el archivo robots.txt y para qué sirve

Los robots o arañas son unos programas que utilizan los buscadores para rastrear la web. Cuando llegan a tu sitio, lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que diga en él, continúan en tu sitio o se van a otro.

Puedes entender el archivo robots.txt como una lista de robots no admitidos, la cual te permite restringir el acceso a tu sitio selectivamente. Si hay páginas que prefieres mantener fuera del alcance de los buscadores, puedes configurarlo aquí, y si hay un buscador al que quieres denegar el acceso, también.

Más concretamente, puedes utilizar el archivo robots.txt para lo siguiente:

  • Evitar que ciertas páginas y directorios de tu sitio sean accesibles a los buscadores
  • Bloquear el acceso a archivos de código o utilidades
  • Impedir la indexación de contenido duplicado en tu sitio, como copias de prueba o versiones para imprimir
  • Indicar la localización de los mapas del sitio en XML

Ahora bien, hay un par de cosas que debes tener en cuenta sobre robots.txt:

  • Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos o malware
  • El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear www.example.com/robots.txt

Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.

Cómo generar el archivo robots.txt

Lo primero que necesitas saber sobre el archivo robots.txt es que no es obligatorio. Sólo necesitas crearlo cuando quieres impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda.

Generar el archivo es muy sencillo, basta con crear un documento de texto con el nombre “robots.txt” y subirlo a la raíz de tu dominio (http://www.example.com/robots.txt), que es el lugar donde los los buscadores esperan encontrarlo.

Lo más fácil es crearlo a mano, mediante el bloc de notas o un editor de código como Notepad++, aunque si eres de los que prefieren herramientas de generación, la de SeoBook cumple con su cometido bastante bien. Otras alternativas son RobotsGenerator.com y McAnnering Robots.txt Generator.

Para subir el archivo usa un cliente FTP como FileZilla o Cyberduck.

Respecto al contenido, un archivo robots.txt básico puede ser:

User-agent: *
Disallow: /privado/

Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots  (User-agent: *) y por último se especifica el directorio desautorizado (Disallow: /privado/).

Comandos principales

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

  • Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
  • Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
  • Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)

Los comandos más importantes son:

  • User-agent – Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
  • Disallow – Deniega el acceso a un directorio o página concreta.
  • Allow – Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap – Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay – Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:

  • Asterisco (*) – Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($) – Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

Restricciones más comunes

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.

En este sentido, es mejor ceñirse a las restricciones más comunes, como son:

  • Incluir todos los robotsUser-agent: *
  • Especificar el robot de GoogleUser-agent: Googlebot
  • Especificar el robot de BingUser-agent: Bingbot
  • Denegar todo el sitioDisallow: /
  • Denegar un directorioDisallow: /directorio/
  • Denegar directorios que comienzan por “algo”Disallow: /algo*/
  • Denegar una páginaDisallow: /pagina-web.htm
  • Denegar directorios y páginas que comienzan por “algo”Disallow: /algo
  • Denegar la extensión .gifDisallow: /*.gif$
  • Permitir un subdirectorioAllow: /directorio/subdirectorio/
  • Señalar el mapa del sitioSitemap: http://www.example.com/sitemap.xml

Desbloquear recursos CSS y JS

Desde que Google actualizara sus directrices para Webmasters especificando que denegar el acceso a los archivos CSS y JavaScript con robots.txt puede dañar los rankings, es buena idea desbloquear cualquier directorio que pueda contenerlos. Así el buscador tiene libertad para procesar las páginas al completo y saber cómo las verá el usuario.

Para averiguar cómo ve Google tus páginas usa la herramienta Rastreo > Explorar como Google  junto con el botón obtener y procesar en Search Console. Si no se parece a lo que ves en tu navegador o bien surgen errores o advertencias, elimina las líneas del archivo robots.txt que bloquean el acceso a las URL.

Otra alternativa más segura es abrir el paso a los recursos CSS y JavaScript explicitamente. De este modo no importa si el directorio donde se encuentran está bloqueado, Google podrá acceder a los recursos que necesite:

User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$

Validar el archivo

Cuando crees o modifiques tu archivo robots.txt, siempre comprueba que hace lo que esperas de él. Ten en cuenta que un simple error puede bloquear el acceso a los buscadores y dañar tu visibilidad.

La comprobación es fácil de hacer con la herramienta Rastreo > Probador de robots.txt en la Consola de búsqueda de Google. Asimismo, es buena idea usar la función obtener y procesar de Rastreo > Explorar como Google para asegurarse de que no hay recursos bloqueados.

¿Funciona la desindexación con robots.txt?

Una de las funciones más recurridas del archivo robots es la desindexación. En teoría, si quieres sacar archivos y directorios de Google no tienes más que añadir las correspondientes directivas Disallow, ¿no es cierto?

Pues bien, debes saber que aunque el bloqueo con Disallow impide el rastreo a los buscadores, no garantiza la desindexación. Así es cómo lo explica el analista de Google, John Mueller, en este vídeo:

Cuando se bloquea una página indexada con robots.txt, lo que suele ocurrir es que borramos la información de rastreos anteriores […] e indexamos la URL con ese resumen genérico que dice que no sabemos de qué trata la página [al estar bloqueada por robots.txt].

Sin embargo, a veces también ocurre que eliminamos la página completamente. Si pensamos que la URL no tiene información, enlaces entrantes, ni motivos para usarla en las clasificaciones, quizá la quitemos del índice.

Así que teóricamente puede desindexarse, pero no hay garantías.

Es decir, cuando bloqueas una página que ya está indexada, Google la mantiene en su índice y sólo hay una remota posibilidad de que la elimine. Si quieres asegurarte de borrar la página del buscador debes hacer otra cosa, tal y como Mueller sigue explicando:

Si añades una etiqueta [Meta Robots] NoIndex a la página y permites el rastreo […] la borraremos la próxima vez que procesemos la URL.

Esto tiene mucho sentido. Si el buscador puede ver una señal explicita de que no quieres tener la página indexada, entonces la desindexará.

Por tanto, la próxima vez que quiera borrar una página de Google, usa la etiqueta Meta Robots. Sólo cuando la página aún no ha llegado al conocimiento del buscador es cuando está indicado el Disallow de robots.txt.

Un ejemplo de robots.txt para WordPress

Advertencia: No hay un archivo robots.txt universal, según la configuración de tu sitio puede que necesites añadir, modificar o quitar restricciones.

Para ayudarte a comprender mejor el funcionamiento del archivo robots.txt me gustaría enseñarte un ejemplo real. Se trata del mismo archivo que utilizo en este blog, de ahí que sea un ejemplo orientado a WordPress.

Recientemente he actualizado mi archivo robots.txt como sigue (sin los números de línea):

  1. User-Agent: *
  2. Disallow: /ir/
  3. Sitemap: http://deteresa.com/sitemap.xml

Ahora me gustaría explicarte cada línea:

  • Línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
  • Línea 2 – Bloqueo el directorio que utilizo para redirecciones (no tienes por qué tenerlo).
  • Línea 3 –  Indico la ruta donde se encuentra el mapa XML de mi sitio.

Sobre el bloqueo de /wp-admin/

Debes saber que no es necesario bloquear /wp-admin/ en el archivo robots.txt. WordPress ya bloquea las páginas del directorio mediante la cabecera HTTP X-Robots-Tag.

Recursos

Si necesitas más información sobre el archivo robots.txt puedes encontrarla en las siguientes páginas:

¿Ya sabes cómo vas a crear tu archivo robots.txt?





German Reyna

CEO DE REGGNETWORK.COM

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *