Hay decenas de millones de conjuntos de datos en la Web, con contenidos que van desde datos de sensores y registros gubernamentales hasta resultados de experimentos científicos e informes comerciales. De hecho, hay conjuntos de datos para casi cualquier cosa que uno pueda imaginar, ya sea la dieta de un pingüino emperador o dónde viven los trabajadores remotos. Hace más de dos años, emprendimos un esfuerzo para diseñar un motor de búsqueda que proporcionara un único punto de entrada a esos millones de conjuntos de datos y miles de repositorios. El resultado es Dataset Search, que lanzamos en versión Beta en 2018 y de forma completa en enero de 2020. Además de facilitar el acceso a datos, Dataset Search recopila e indexa conjuntos de datos utilizando descripciones de metadatos que provienen directamente de las páginas web de los conjuntos de datos mediante la estructura schema.org.

Hasta el día de hoy, el corpus completo de Dataset Search contiene más de 31 millones de conjuntos de datos de más de 4600 dominios de Internet. Aproximadamente la mitad de esos conjuntos de datos provienen de dominios .com, pero los dominios .org y gubernamentales también están bien representados. El siguiente gráfico muestra el crecimiento del corpus en los últimos dos años y, aunque todavía no sabemos qué fracción de los conjuntos de datos de la Web están actualmente en Dataset Search, el número sigue creciendo de forma constante.

Crecimiento del número de conjuntos de datos indexados por Dataset Search

Para comprender mejor la amplitud y la utilidad de los conjuntos de datos disponibles a través de Dataset Search, publicamos Google Dataset Search by the Numbers, una investigación aceptada en la 2020 International Semantic Web Conference. En ese documento, proporcionamos una descripción general de los conjuntos de datos disponibles, las métricas presentes y las estadísticas derivadas de su análisis, y sugerimos las prácticas recomendadas para la publicación de futuros conjuntos de datos científicos. A fin de que otros investigadores puedan elaborar análisis y herramientas utilizando los metadatos, también estamos poniendo a disposición del público un subconjunto de datos.

Una gama de temas de conjuntos de datos
Para determinar la distribución de los temas cubiertos por los conjuntos de datos, inferimos la categoría de investigación a partir de los títulos y las descripciones de los conjuntos de datos, así como de otros textos en las páginas web de los conjuntos de datos. Los dos temas más comunes son las geociencias y las ciencias sociales, que representan aproximadamente el 45% de los conjuntos de datos. La biología se acerca como tercera opción, con aproximadamente el 15%, seguida por una distribución más o menos pareja de otros temas, como la informática, la agricultura y la química, entre otros.

Distribución de los temas de los conjuntos de datos

En nuestros esfuerzos iniciales por lanzar Dataset Search, llegamos a comunidades específicas, lo que fue clave para impulsar el uso generalizado del corpus. Inicialmente, nos centramos en las geociencias y las ciencias sociales, pero desde entonces hemos permitido que el corpus crezca orgánicamente. Nos sorprendió ver que los campos asociados a las comunidades a las que llegamos desde el principio siguen dominando el corpus. Si bien no hay duda de que su participación temprana contribuye a su prevalencia, puede haber otros factores en juego, como las diferencias culturales entre las comunidades. Por ejemplo, las geociencias han contribuido considerablemente a que sus datos sean fáciles de localizar, accesibles, interoperables y reutilizables (FAIR), un componente esencial para reducir las barreras de acceso.

Cómo hacer que los datos sean fácilmente citables y reutilizables
Entre los investigadores de todas las disciplinas científicas, cada vez es más frecuente el consenso de que es importante poner a disposición los conjuntos de datos, publicar los detalles pertinentes para su utilización y citarlos cuando se utilicen. Muchos organismos de financiación y publicaciones académicas exigen que los datos se publiquen y se citen de forma correcta.

Revistas revisadas por expertos, como Nature Scientific Data, se dedican a publicar valiosos conjuntos de datos y esfuerzos como DataCite proporcionan identificadores de objetos digitales (DOI) para ellos. Los servicios de resolución (p. ej., identifiers.org) también proporcionan identificadores persistentes y sin referencias para citarlos de forma sencilla, lo que es fundamental para que los conjuntos de datos estén ampliamente disponibles en el discurso científico. Por desgracia, descubrimos que solo alrededor del 11% de los conjuntos de datos del corpus (aproximadamente 3M) tienen DOI. Elegimos este subconjunto del corpus de datos para incluirlo en nuestra versión de código abierto. De esta colección, unos 2,3M de conjuntos de datos provienen de dos sitios: datacite.org y figshare.com:

Dominio Conjuntos de datos con DOI
figshare.com 1301K
datacite.org 1070K
narcis.nl 118K
openaire.eu 100K
datadiscoverystudio.org 72K
osti.gov 63K
zenodo.org 50K
researchgate.net 41K
da-ra.de 40K

Los publicadores pueden especificar los requisitos de acceso para un conjunto de datos mediante las propiedades de los metadatos de schema.org, incluidos los detalles de licencia e información que indique si el conjunto de datos es accesible de forma gratuita. Solo el 34% de los conjuntos de datos especifican la información de la licencia; pero, cuando no se especifica ninguna licencia, los usuarios no pueden hacer ninguna suposición sobre si se les permite o no reutilizar los datos. Por lo tanto, agregar información sobre licencias, e, idealmente, agregar una licencia lo más abierta posible, mejorará en gran medida la reutilización de los datos.

Entre los conjuntos de datos que sí especificaron una licencia, pudimos reconocer una licencia conocida en el 72% de los casos. Entre esas licencias, se incluyen licencias Open Government para el Reino Unido y Canadá, licencias de Creative Commons y varias licencias de dominio público (p. ej., Public Domain Mark 1.0). Descubrimos que el 89,5% de esos conjuntos de datos son accesibles gratuitamente o utilizan una licencia que permite su redistribución, o bien ambas cosas. Y, de esos conjuntos de datos abiertos, 5,6M (el 91%) permiten la reutilización comercial.

Otro componente crítico de la reutilización de los datos es proporcionar datos descargables, pero solo el 44% de los conjuntos de datos especifican información de descarga en sus metadatos. Una posible explicación de este valor sorprendentemente bajo es que los webmasters (o las plataformas de hosting de datos) temen que, al exponer el vínculo de descarga de datos a través de los metadatos de schema.org, los motores de búsqueda u otras aplicaciones den a sus usuarios acceso directo para que descarguen los datos y, así, "roben" el tráfico de su sitio web. Otra preocupación puede ser que los datos necesiten el contexto adecuado para ser utilizados apropiadamente (p. ej., la metodología, las notas a pie de página y la información sobre licencias), y que los proveedores consideren que solo sus páginas web pueden brindar el panorama completo. En la búsqueda de conjuntos de datos, no mostramos los vínculos de descarga como parte de los metadatos, de modo que los usuarios deben ir al sitio web del publicador para descargar los datos, donde verán el contexto completo del conjunto de datos.

¿A qué acceden los usuarios?
Por último, examinamos cómo se utiliza Dataset Search. En términos generales, 2,1M de conjuntos de datos únicos de dominios de 2,6K aparecieron en los 100 principales resultados de Dataset Search durante 14 días en mayo de 2020. Descubrimos que la distribución de los temas que se cuestionan es diferente a la del conjunto del corpus. Por ejemplo, las geociencias ocupan una fracción mucho menor y, a la inversa, la biología y la medicina representan una fracción mayor en relación con su participación en el corpus. Es posible que este resultado se deba al momento en que se llevó a cabo nuestro análisis, ya que se realizó durante las primeras semanas de la pandemia de COVID-19.

Distribución de los temas cubiertos por los conjuntos de datos que aparecen en los resultados de la búsqueda

Prácticas recomendadas para la publicación de conjuntos de datos científicos
Basándonos en nuestro análisis, hemos identificado un conjunto de prácticas recomendadas que pueden mejorar la forma en que se descubren, reutilizan y citan los conjuntos de datos.

  • Visibilidad
    Los metadatos de los conjuntos de datos deben estar en páginas que sean accesibles para los rastreadores web y que proporcionen metadatos en formatos legibles por máquina a fin de mejorar la capacidad de visibilidad.

  • Persistencia
    La publicación de metadatos en sitios que probablemente sean más persistentes que las páginas web personales facilitará la reutilización y la citación de datos. De hecho, durante nuestro análisis de Dataset Search, observamos una tasa de rotación muy alta: muchas URL que albergaban un conjunto de datos un día no lo tenían unas semanas o meses después. Los repositorios de datos, como Figshare, Zenodo, DataDryad, Kaggle Datasets y muchos otros, son una buena manera de garantizar la persistencia del conjunto de datos. Muchos de esos repositorios tienen acuerdos con bibliotecas para preservar los datos a perpetuidad.

  • Procedencia
    Dado que los conjuntos de datos suelen publicarse en varios repositorios, sería útil que estos describieran la información sobre la procedencia de manera más explícita en los metadatos. La información sobre la procedencia ayuda a los usuarios a comprender quién recopiló los datos, dónde se encuentra la fuente principal del conjunto de datos o cómo puede haber cambiado.

  • Licencias
    Los conjuntos de datos deben incluir información sobre la licencia, idealmente en un formato legible por máquina. Nuestro análisis indica que, cuando los proveedores de conjuntos de datos seleccionan una licencia, tienden a elegir una bastante abierta. Por lo tanto, alentar y permitir a los científicos elegir las licencias para sus datos dará lugar a que muchos más conjuntos de datos estén disponibles abiertamente.

  • Cómo asignar identificadores persistentes (como los DOI)
    Los DOI son fundamentales para el seguimiento y la utilización a largo plazo. Esos identificadores no solo permiten una citación mucho más fácil de los conjuntos de datos y el seguimiento de las versiones, sino que también son indeferenciables: si se mueve un conjunto de datos, el identificador puede dirigir a una ubicación diferente.

Cómo lanzar metadatos para conjuntos de datos con identificadores persistentes
Como parte del anuncio de hoy, también lanzamos un subconjunto de nuestro corpus para que otros lo usen. Contiene los metadatos de más de tres millones de conjuntos de datos que tienen DOI y otros tipos de identificadores persistentes, que son los conjuntos de datos más fácilmente citables. Los investigadores pueden utilizar esos metadatos para realizar análisis más profundos o diseñar sus propias aplicaciones utilizando esos datos. Por ejemplo, gran parte del crecimiento del uso de DOI parece haber ocurrido en la última década. ¿Cómo se relaciona este marco temporal con los conjuntos de datos cubiertos en el corpus? ¿La distribución del uso de DOI es uniforme en todos los conjuntos de datos? ¿O hay diferencias significativas entre las comunidades de investigación?

Actualizaremos el conjunto de datos de forma regular. Por último, esperamos que el hecho de centrar este lanzamiento en conjuntos de datos con identificadores citables y persistentes anime a más proveedores a describir sus conjuntos de datos con más detalle y a hacerlos más fácilmente citables.

En conclusión, esperamos que el hecho de tener datos más visibles a través de herramientas como Dataset Search de Google anime a los científicos a compartir sus datos más ampliamente y hacerlo de manera que los datos cumplan con las cualidades de FAIR.

Agradecimientos.
Esta publicación refleja el trabajo de todo el equipo de Dataset Search. Agradecemos a Shiyu Chen, Dimitris Paparas, Katrina Sostek, Yale Cong, Marc Najork, y Chris Gorgolewski por sus contribuciones. También queremos agradecer a Hal Varian por sugerir este análisis y por brindar muchas ideas útiles.