Hoy
anunciamos que vamos a ponernos al frente de la iniciativa para que el REP sea el estándar de internet. Si bien se trata de un paso importante, implica un trabajo adicional para los desarrolladores que analizan los archivos robots.txt.
Estamos para ayudar: hemos
abierto el código de la biblioteca C++ que usan nuestros sistemas de producción para las reglas de análisis y coincidencias en los archivos robots.txt. La biblioteca se usa hace 20 años e incluye fragmentos de código escritos en la década de los noventa. Desde entonces, la biblioteca evolucionó: aprendimos mucho sobre la forma en que los webmasters escriben los archivos robots.txt y sobre casos específicos que tuvimos que cubrir, y, en los casos en los que tenía sentido, agregamos lo que aprendimos a lo largo de los años al borrador de internet.
También incluimos una herramienta de prueba en el paquete de código abierto que facilitará probar algunas reglas. Una vez compilado, es muy fácil de usar:
robots_main <contenido de robots.txt> <user_agent> <url>
Si quieres ver la biblioteca, ve al repositorio de GitHub del
analizador de robots.txt. ¡Queremos ver qué puedes desarrollar usándola! Si desarrollaste algo con la biblioteca, avísanos en
Twitter. Si tienes comentarios o dudas sobre la biblioteca, ponte en contacto con nosotros en
GitHub.
Publicado por Edu Pereda, Lode Vadevenne y Gary, equipo de Search Open Sourcing