Publicado originalmente en el blog central para webmasters de Google

Durante 25 años, el protocolo de exclusión de robots (REP, por su sigla en inglés) fue solo un estándar de facto. En ocasiones, eso podía tener consecuencias frustrantes. Por un lado, para los webmasters, era una fuente de incertidumbre en casos muy específicos, por ejemplo, si el editor de texto incluía caracteres BOM en los archivos robots.txt. Por otro lado, también generaba incertidumbre entre los desarrolladores de rastreadores y herramientas: por ejemplo, ¿cómo se trabaja con archivos robots.txt de cientos de megabytes?

Hoy anunciamos que vamos a ponernos al frente de la iniciativa para que el REP sea el estándar de internet. Si bien se trata de un paso importante, implica un trabajo adicional para los desarrolladores que analizan los archivos robots.txt.

Estamos para ayudar: hemos abierto el código de la biblioteca C++ que usan nuestros sistemas de producción para las reglas de análisis y coincidencias en los archivos robots.txt. La biblioteca se usa hace 20 años e incluye fragmentos de código escritos en la década de los noventa. Desde entonces, la biblioteca evolucionó: aprendimos mucho sobre la forma en que los webmasters escriben los archivos robots.txt y sobre casos específicos que tuvimos que cubrir, y, en los casos en los que tenía sentido, agregamos lo que aprendimos a lo largo de los años al borrador de internet.

También incluimos una herramienta de prueba en el paquete de código abierto que facilitará probar algunas reglas. Una vez compilado, es muy fácil de usar:

robots_main <contenido de robots.txt> <user_agent> <url>

Si quieres ver la biblioteca, ve al repositorio de GitHub del analizador de robots.txt. ¡Queremos ver qué puedes desarrollar usándola! Si desarrollaste algo con la biblioteca, avísanos en Twitter. Si tienes comentarios o dudas sobre la biblioteca, ponte en contacto con nosotros en GitHub.

Publicado por Edu Pereda, Lode Vadevenne y Gary, equipo de Search Open Sourcing