#adventSEO día 6: Robots.txt, héroe y villano
No está de más echar un vistazo a este fichero de vez en cuando
¡Hola, aprendices!
Introducción Práctica al robots.txt
Ayer Macarena nos dio información muy útil sobre Google Analytics. Si no has leído su tip, ya estás tardando.
Hoy, sin embargo, vamos a hablar de otro concepto diametralmente distinto, pero fundamental si quieres tener un buen SEO en tu proyecto web. Hoy te hablaré un poco sobre el fichero robots.txt.
¿Qué es el fichero robots.txt?
Este fichero es una potente herramienta SEO que nos va a permitir excluir secciones web de cara a los bots de rastreo. Existen muchísimos bots de rastreo, no solo los de Google, aunque, de momento, me voy a centrar en estos. Puedes ampliar mucho más la información con una pequeña búsqueda en internet.
Así pues, lo que podemos conseguir con una configuración correcta del robots.txt es:
Proteger secciones privadas: Como páginas de administración o contenido duplicado.
Optimizar el rastreo: Dirigir a los bots hacia contenido importante y evitar que pierdan tiempo en páginas irrelevantes.
Ejemplo básico:
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://tusitio.com/sitemap.xmlEn este caso, le estamos diciendo a todos los bots (User-agent: *) que no accedan al directorio /admin/, pero permitimos el resto del contenido y les damos el enlace a nuestro sitemap.
Esto nos va a favorecer la optimización del presupuesto de rastreo, es decir, que el tiempo que pasen los bots en nuestro sitio sea leyendo contenido que nos interesa, en vez de dando vueltas por partes de nuestra web que no nos interesa que visite (por el motivo que sea). Uno de estos motivos puede ser la seguridad de ciertos datos que no queremos que se indexen. Otro motivo, por ejemplo, puede ser evitar que nuestro sitio web reciba miles de visitas de bots y se sature. Conozco algunos casos en los que las visitas de los bots causaban problemas de rendimiento en el servidor.
La cara oscura del robots.txt
Obviamente, una herramienta tan potente tiene un riesgo si no se configura adecuadamente.
«Un gran poder conlleva una gran responsabilidad»
Como te he comentado, esta herramienta hace que los bots dejen de visitar partes de nuestra web, así que debemos estar seguros de esas secciones no son importantes para nosotros. ¿Te imaginas un robots.txt configurado para bloquear páginas de productos en un E-commerce? Pues los hay ;).
Yo lo que te puedo recomendar para asegurarte de que tienes el fichero bien configurado es utilizar la herramienta Screaming Frog cuando lo tengas listo. La rana respeta el contenido del robots.txt (a no ser que le digas que no lo haga) y podrás ver rápidamente si hay partes de tu web que no está encontrando.
Partes de un robots.txt
a. User-agent: Especifica qué bots reciben las instrucciones. En este caso, como te comenté, vamos a hablar solo del Googlebot
User-agent: Googlebot
b. Disallow: Bloquea el acceso a ciertas páginas o directorios. En este caso, bloquearemos el acceso a la parte de administración.
Disallow: /admin/
c. Allow: Permite el acceso a subdirectorios específicos dentro de zonas bloqueadas.
Allow: /admin/publico/
d. Sitemap: Indica la ubicación del mapa del sitio.
Sitemap: https://tusitio.com/sitemap.xml
Con esto ya tienes lo básico para empezar a trastear. Recuerda guardar una copia de tu robots.txt actual antes de hacer algún cambio.
Validador de Robots.txt online
Si quieres probar sin tener que comprometer la configuración de tu sitio actual, puedes hacer algunos tests online sin riesgo. Existen varias páginas, como por ejemplo esta:
Está genial para jugar y hacer probaturas, mira:
OJO CON LAS BARRAS FINALES, mira:
Recuerda que las restricciones o permisos son ESTRICTAMENTE con las direcciones que pones, por eso, al probar sin la barra nos dejaría acceder.
La mejor manera de probar esto es, como te he comentado, usar Screaming Frog.
Errores comunes a evitar
Bloquear todo accidentalmente: Nefasto para tu SEO.
Disallow: /Olvidar enlazar tu sitemap: Es recomendable ponerlo si te interesa posicionar en otros buscadores o que la IA pueda citarte.
Usar mal las reglas Allow/Disallow: Por ejemplo, bloquear todo un directorio pero luego no permitir accesos puntuales, en caso de que te interese.
Con este conocimiento básico, puedes configurar y mantener un archivo robots.txt funcional y seguro para tu sitio. ¡Ya tienes tarea, nos vemos en el siguiente TIP!
Promociones y consejos
Vamos con las cositas interesantes que he ido recopilando y que creo que pueden interesar:
Macarena ha sacado una newsletter VIP y es una maldita joya.
Sandra también ha hablado hoy sobre el robots.txt en su blog, que te recomiendo por supuesto.
En Nominalia tienen dominios .com y .es gratis por el Black Friday y Ciber Monday. Aquí ya te expliqué cómo usarlos.
Además del canal de Telegram de aprendiz de SEO he creado una comunidad Wordpress de habla hispana para ayudarnos, pasar ofertas de trabajo y buscar colaboraciones. Te dejo aquí el link.
Si te interesan las conjuntas, echa un vistazo a conjuntasseo. Todas las herramientas necesarias para escalar por 17€ al mes (más descuento si contratas más tiempo).
Si quieres patrocinar una newsletter ponte en contacto conmigo a través de Twitter, Telegram, o mi grupo de Aprendiz de SEO.
Si dices que vienes de esta NewsLetter tienes un 10% de descuento en mis servicios de Consultor SEO.
Si quieres que Macarena y yo te ayudemos con el SEO de tu negocio ya sabes que nos puedes contactar en MacAndVicks.com
¿Eres Substacker? Pues he creado un grupo para colaborar: guestposting, truquis, colaboraciones y citaciones. ¡Pulsa el botón y únete!




