Local blog for Spanish speaking developers in LATAM
Desarrollo de Google Dataset Search y promoción de un ecosistema de datos abiertos
jueves, 18 de octubre de 2018
Publicado por Matthew Burgess y Natasha Noy (Google IA)
A comienzos de este mes, lanzamos
Google Dataset Search
, una herramienta diseñada para que los investigadores descubran con mayor facilidad conjuntos de datos que puedan ayudarlos en sus trabajos. Google Dataset Search, al que coloquialmente llamamos "Google Académico para datos", es un motor de búsqueda que reúne metadatos de millones de conjuntos de datos disponibles en repositorios de toda la Web. En esta publicación, detallaremos la creación de Dataset Search, describiremos lo que creemos que ayudará a desarrollar un ecosistema de datos abiertos y abordaremos una pregunta que nos hacen con frecuencia desde el
lanzamiento
de Dataset Search: "
¿Por qué mi conjunto de datos no aparece en Google Dataset Search?
".
Descripción general
A grandes rasgos, Google Dataset Search depende de que los proveedores de conjuntos de datos, tanto grandes como pequeños,
agreguen metadatos estructurados a sus sitios
utilizando el estándar abierto
schema.org/Dataset
. Los metadatos especifican las propiedades destacadas de cada conjunto de datos: el nombre y la descripción, la cobertura espacial y temporal, la información de origen, etc. Dataset Search usa estos metadatos, los vincula con otros recursos disponibles en Google (abarcaremos este punto más adelante) y crea un índice de este corpus enriquecido de metadatos. Una vez que creamos el índice, podemos comenzar a responder las consultas de los usuarios y establecer qué resultados son más adecuados para ellas.
Descripción general de la tecnología detrás de Google Dataset Search
Uso de metadatos estructurados de los proveedores de datos
Cuando el motor de búsqueda de Google procesa una página web con el lenguaje de marcado schema.org/Dataset, entiende que hay metadatos de conjuntos y procesa esos metadatos estructurados para crear "registros" que describan cada conjunto incluido en una página. El uso de schema.org permite que los desarrolladores incorporen esta información estructurada en HTML sin que esto afecte la apariencia de la página al mismo tiempo que se visibiliza la semántica de la información para todos los motores de búsqueda.
No obstante, sin importar qué tan precisas sean las definiciones o los
lineamientos
de schema.org, algunos de los metadatos inevitablemente estarán incompletos, serán erróneos o no estarán incluidos. Además, las distinciones entre algunos campos pueden ser imprecisas: ¿el repositorio del conjunto de datos es un editor o un proveedor? ¿Cómo podemos distinguir entre las citas a una publicación científica que describe la creación del conjunto de datos y las publicaciones que detallan su uso? De hecho, muchas de estas preguntas suelen generar
debates académicos
activos.
A pesar de estas variaciones, Dataset Search debe proporcionar una experiencia del usuario uniforme y predecible en la interfaz frontend. Por lo tanto, en algunos casos sustituimos un nombre de campo más general (p. ej., "
proporcionado por
") para mostrar los valores provenientes de otros campos (p. ej., "
editor
", "
creador
", etc.). En otros casos, directamente no podemos usar algunos de los campos. Por lo general, esto ocurre cuando proveedores de conjuntos de datos interpretan un campo específico de diferentes formas. A modo de solución, evitamos ese campo y trabajamos con la comunidad para que aclarar los lineamientos con mayor precisión. En cada decisión, hubo una pregunta específica que nos ayudó a afrontar los casos difíciles: "¿Qué será más útil para el descubrimiento de datos?". Este enfoque sobre la tarea que estábamos abordando hizo que algunos de los problemas fueran más fáciles de resolver de lo que parecía al principio.
Conexión de réplicas de conjuntos de datos
Es muy común que un conjunto de datos, en especial uno popular, esté presente en más de un repositorio. Usamos varios indicadores para determinar los casos en que un conjunto de datos es una réplica de otro. Por ejemplo, en schema.org se puede especificar la conexión de forma explícita mediante
schema.org/sameAs
, que es la mejor manera de vincular diferentes réplicas y de dirigir al origen canónico de un conjunto de datos. Otros indicadores incluyen dos descripciones de conjuntos de datos que dirigen a la misma página canónica, que poseen el mismo
identificador de objeto digital
(DOI), que comparten vínculos para descargar el conjunto de datos o que tienen una gran superposición en otros campos de metadatos. Dado que ninguno de estos indicadores son perfectos por sí solos, cuando hay dos conjuntos de datos iguales, los combinamos a fin de obtener la indicación más fuerte posible.
Conciliación con el Gráfico de conocimiento de Google
El
Gráfico de conocimiento
de Google es una plataforma potente que describe y vincula información sobre muchas entidades, incluidas las que aparecen en los metadatos de los conjuntos de datos: organizaciones que proporcionan conjuntos de datos, ubicaciones para cobertura espacial de los datos, agencias de financiamiento, etc. Por lo tanto, tratamos de conciliar la información mencionada en los campos de metadatos con los elementos del Gráfico de conocimiento. Llevamos a cabo esta conciliación con una precisión alta por dos motivos. En primer lugar, conocemos los tipos de elementos que se incluyen en el Gráfico de conocimiento y las clases de entidades que esperamos encontrar en los campos de metadatos. Por tal motivo, podemos limitar los tipos de entidades del Gráfico de conocimiento que hacemos coincidir con valores de un campo de metadatos específico. Por ejemplo, un proveedor de un conjunto de datos debería coincidir con la entidad de una organización en el Gráfico de conocimiento y no con una ubicación. En segundo lugar, el contexto de la página web en sí permite reducir la cantidad de opciones, lo que es especialmente útil para distinguir entre organizaciones que comparten la misma sigla. Por ejemplo, "CAMRA" puede hacer referencia a "Chilbolton Advanced Meteorological Radar" (el radar meteorológico avanzado de Chilbolton) o a "Campaign for Real Ale" (una campaña de promoción de la verdadera cerveza). Si usamos los términos de la página web, podemos determinar con mayor facilidad que "CAMRA" es, de hecho, el radar de Chilbolton, ya que en la página aparecen términos como "
nubes
", "
vapor
" y "
agua
".
Este tipo de conciliación abre la puerta a muchísimas posibilidades para mejorar la experiencia de búsqueda de los usuarios. Por ejemplo, Dataset Search puede localizar resultados y mostrar valores conciliados de metadatos en el mismo idioma que el resto de la página. Además, puede usar sinónimos, errores ortográficos típicos, siglas expandidas o bien otras relaciones en el Gráfico de conocimiento para ampliar las consultas.
Vínculo con otros recursos de Google
Google posee varios recursos, como
Google Académico
, que permiten aumentar los metadatos de los conjuntos de datos. Conocer a qué conjuntos se hace referencia y se cita en las publicaciones es útil por dos motivos:
Permite saber qué tan importante y relevante es un conjunto de datos.
Permite a los autores de los conjuntos acceder a citas de sus datos y recibir el crédito correspondiente con facilidad.
De hecho, esperamos que destacar las publicaciones que usan datos genere un ecosistema de citas más beneficioso. Por el momento, nuestros vínculos a Google Académico son muy aproximados, ya que no contamos con un buen modelo sobre cómo los usuarios citan los datos. Tratamos de ir más allá de los identificadores de objetos digitales para brindar una mejor cobertura, pero la cantidad de artículos que citan un conjunto de datos termina siendo un número aproximado. Esperamos progresar más en esta área para poder obtener un nivel de precisión más alto.
Búsqueda y clasificación de resultados
Cuando un usuario realiza una consulta, buscamos en el corpus de conjuntos de datos de forma similar a como trabaja la Búsqueda de Google con las páginas web. Al igual que con cualquier búsqueda, necesitamos determinar si un documento es relevante para la consulta y, luego, clasificar el grado de relevancia. Debido a que no hay estudios a gran escala sobre la manera en que los usuarios buscan conjuntos de datos, como primera aproximación, nos basamos en la clasificación web de Google. Sin embargo, dado que existe una diferencia entre clasificar conjuntos de datos y páginas web, agregamos algunos indicadores adicionales que tienen en cuenta la calidad de los metadatos, las citas, etc. A medida que más usuarios usen Dataset Search y entendamos mejor cómo buscan conjuntos de datos, esperamos que la clasificación mejore significativamente.
Un mejor ecosistema de datos abiertos
Desarrollamos Dataset Search con la intención de crear una herramienta que impacte de forma positiva en la visibilidad de los datos. La decisión de basarnos en estándares abiertos (
schema.org
,
W3C DCAT
,
JSON-LD
, etc.) para el lenguaje de marcado es intencional, ya que Dataset Search solo puede ser tan efectivo como el ecosistema de datos abiertos que admita. Por lo tanto, el objetivo de Google Dataset Search es admitir un ecosistema de datos abiertos mediante la promoción de lo siguiente:
La adopción generalizada de formatos de metadatos para describir los datos publicados
El desarrollo continuo de formatos de metadatos abiertos para describir más tipos de datos en mayor profundidad
La cultura de citar datos de la misma forma en que se citan las publicaciones de investigación para darles a quienes crean y publican datos el crédito que se merecen
El desarrollo de herramientas que aprovechan estos metadatos para permitir más visualizaciones y mejorar el uso de datos
La mayor adopción de estándares de metadatos abiertos en conjunto con el desarrollo continuo de Dataset Search (y, esperamos, de otras herramientas) debería fomentar un ecosistema de datos abiertos más saludable en el que los datos se conviertan en objetos fundamentales de las investigaciones.
Entonces, ¿dónde está
tu
conjunto de datos?
Es probable que a esta altura ya esté claro que Dataset Search es tan efectivo como los metadatos de las páginas web para conjuntos de datos. La respuesta más común a la pregunta de por qué un conjunto de datos específico no aparece en nuestros resultados es que la página web de ese conjunto de datos no incluye lenguaje de marcado. Con solo ingresar la página en la
Herramienta de pruebas de datos estructurados
, podrás ver si incluye este lenguaje. Si el sitio no incluye lenguaje de marcado y eres su propietario, puedes
agregarlo
. Si la página no te pertenece, puedes pedirles a sus propietarios que lo agreguen para que aumente su visibilidad.
Esperamos que
Dataset Search
sea útil para la comunidad, que los usuarios realicen descubrimientos fascinantes más rápido, y que los científicos y periodistas puedan aprovechar de forma productiva el tiempo que se ahorran buscando datos.
Agradecimientos
Queremos agradecer a Xiaomeng Ban, Dan Brickley, Lee Butler, Thomas Chen, Corinna Cortes, Kevin Espinoza, Archana Jain, Mike Jones, Kishore Papineni, Chris Sater, Gokhan Turhan, Shubin Zhao y Andi Vajda por su trabajo en este proyecto. También queremos destacar a todos nuestros compañeros, colaboradores y usuarios pioneros por su ayuda.
Labels
.app
.dev
.txt
#AMP
#CPU
#DeveloperStudentClubs
#DevFest
#DragonBall
#DSC
#Forsety
#ForsetySecurity
#freeandopen
#GCP
#Google
#GoogleCloud
#GoogleCloudPlatform
#GoogleLaunchpad
#iio2009
#Kubernetes
#MaterialDesign
#OneCommunity
#Security
#TensorFlow
#UPGlobal
#UpLatam
#WithGoogle
+page
10 YEARS
2013
2019
64 bits
A/B Testing
AA
Accelerator
Action on Goolge
actionbar
Actions
Actions Console
AdMob
Ads
adwords
adwords api
AI
AIY
ajax
alarmmanager
ALFA
almacenamiento
alojamiento de proyectos en google code
AMP
AMP Conf
AMP Project
amp-date-picker
amphtml
Analytics
Andorid
android
Android (operating System)
Android 3.1
android 3.3
android 4.2
android 9
Android 9 Pie
Android App Bundle
android design
Android Dev Summit
Android Developers
android Jetpack
Android P
Android SDK
Android Studio
Android Things
Android Wear
AndroidDevStory
androititlan
angelina jolie
Annotation
Announcements
anuncios
API
API Analytics YouTube
Apigee
APIs
Aplicaciones
aplicaciones chrome
app
app engine
App Indexing
app invites
App Server
applications
AppQuality
apps
Apps Script
AR
ARCore
arte
ATLAS
AWP
backend
Base64
batch
Bava
Betatesting
Better Ads Standars
bigdata
BigQuery
Biometrics
blink
bootcamp
BOT
BQ
Business
búsqueda ajax
by Google
byCases
byCommunity
byDevelopers
byGoogle
C++
CALENDAR
Cardboard
case
caso de éxito
Casos de éxito
casos destacados
CCOSS
Century Fox
chat
chrome
chrome web store
chromebook
chromecast
chromium
Cinéfilos
cloud
Cloud Anchors
CLOUD endpoints
Cloud Firestore
Cloud Functions
Cloud IoT Core
Cloud Next
Cloud Scheduler
Cloud services
cloud test lab
Cloud Text-to-Speech
Cloud Translation
CMD en vivo
coconut
code
code-in
code.org
CodeLabs
código
código abierto
Colab
colombia
Communities
Comunidades
concurso google
conference
contenedores
convocatoria
Coordinate
crashlytics
CRE
crear aplicaciones ajax
creatividad
Crowdsource
CSS
cws
daniela robles
dart
dart sdk
dartium
dartlang
Dataset
DCL
denis labelle
desarrolladores
Desarrolladores Google
desarrolladores LatAm
Desarrollar
Design
Design Sprint
Destacados
dev
Dev.f
DevArt
DevBus
DevBusLatAm
Developer Bus
Developer Summit
DeveloperConsole
developers
DevFest
devoxx
dialogflow
diseño UX
Distribuir
DNS
DOM
domain
DonkeyCar
doubleclick
Drive SDK
Drivers
ecommerce
ecosistema
elections
elizalde
Emoticons
emprendedores
empresas
engagement
english
Enhanced Campaigns
enterprise
eventos
Events
evolución de aplicaciones
Excel
ExpertosDicen
Faas
Family
FanBridge
FCM
FCP
Featured
fido
find people
Fintech
firebase
Firebase Cloud Messaging
firebase summit
flu trends
Flutter
Flutter 1.0
flutter 1.7
flutter developers
Flutter Live
FlutterLive
FoundersLab
Freebase
Fuction
Fuctions
Full-Stack
functional programming
G Suite Dev Show
G+
g+ goto gal
G+GotoGal
GAE
game
games
GCloud
gcm
GCP
GCS
GDA
GDE
GDG
GDH
GDL
GDLevent
GDS
Get Inspired
get.app
GitHub
GLP
gmail
golang
GOMO
Google
Google Accelerator
Google AdMob SDK
Google AdWords
Google Analytics
Google APIS
Google App Engine
Google Apps
Google Apps Script
Google Art Project
Google Assistant
google calendar
google cast
Google Charts
Google Chrome
Google Cloud
Google Cloud Console
Google Cloud Messaging
Google Cloud Next
Google Cloud Platform
Google Cloud Platform Newsletter
google cloud platforn
Google Cloud Storage
google code-in
Google Compute Engine
Google Dataset
Google Developer Groups
google developers
Google Developers Academy
google developers expert
Google Developers Hackademy
google dns
Google Drawings
Google Drive
Google Earth
Google for games
Google Forms
google geo
Google Home
google i/o
google i/o extended
google io
Google Keep
Google Kubernetes Engine
Google Launchapad
Google Launchpad
Google Maps
google maps coordinate
Google Maps Platform
Google Mexico
Google Nose
google now
Google Person Finder
google places api
Google Play
Google Play Books
Google Play Developer API
google play games
Google Play Movies
Google Play Protect
Google Play Services
Google Plus
Google Science Fair
google search
Google Sheets
google sign in
Google Top Geek
Google+
Google+ Communities
Google+ Hangouts
google+ sign-in
GoogleAPI
googlecloud storage
GoogleCloudPlatform
googledevs
GooglePlay
Googleplex
Goolge Lunchpad
GTG
Hackademy
hackers
Haiko
Haití
hangouts
Hangouts Remote Desktop
hardcode
Heello
honeycomb
HTML
HTML5
HTTPS
I/O
IA
IAM
IETF
IFAI
in app purchases
in-app
ingles
Ingress
instagram
integración de soluciones
interactive post
Interesante
International
International Women’s Day
IO
io15
io18
io19
iOS
IoT
istio
IU
IVR
J2EE
java
JavaScript
jelly bean
JS
JSON
Juegos
juegos html5
Kit ML
Knative
kotlin
kUBERNATES
Kubernetes
LATAM
latamRegionSur
Launchpad
Launchpad Studio
Lenovo Mirage Solo
lightbox
linux
lucero galindo
machine learning
Made with Code
Mapdata
Mapeo
maps
Maps Ad Unit
Maps API
Maps Engine
Market
Marketing
Marshmallow
MATERIAL DESIG
Material Design
mejores apps 2013
México
michelle marie
MIT
MIT Global Start-up Labs
MIT-AITI
ML
ML Kit
mobile
monetizar
mongoDB
MOOC
Motorola
Mountain View
móvil
MQTT
mr.white
mTLS
natalie villalobos
Navigation
NBA JAM
NES
Next Big Sound
Next Level
nfc
Niantic
Nik
NINTENDO
node.js
NoSQL
nube
OAuth2
Objective-C
OClock
open source
OPenApi
OS
OSS
Paas
PageSpeed
PagesSpeed
parallel18
patrones
patters
performance
permisos
Pipeline API
Pixability
pixel
Píxel
play
Play Console
Playtime
Podcast
pollito pio
Polymer
por lote
Posse
Prediction API
primer
Producto
programación
Propositos
Protocol Buffers
proyecto 20%
Push API
PYMES
python
Q
Q4
quickoffice
Rasberry Pi Zero WH
Raspberry Pi
Realtime
Reflectly
register
Release
Resources
robots.txt
Safe
SDK
Search
Security
seedbank
seguridad
SEO
servidores
Showyou
sign-in
SNES
SO
social media
Spain
SpLATAM
SQL
SQLite
Start
startup grind
Startup Launch
startup weekend
startup weekend for the planet
startupbus
startups
StayAtHome
story
Street View
subtitles
success
sw
SyScan
tablet
Tablet Optimization Tips
tabletas
takeaction
Tango
tendencias 2013
TensorFlow Developer Summit
testing
TextView
TF JAM
The Garage
The Venture City
tips G+
tips gmail
TLD
TLS
Top Experts
Top Geek
top level domain
TopExpert
topics
traducciones
Transparency Report
triggers
Tubular Labs
twilio
Tyka
TypeScript
UAC
udacity
ui
Umbrales
UNAM
unity
Unity3D
universal search
UX
Vector
VectorDrawable
video juegos
vidIQ
ViewPager
Visual Progress
Voicekit
VPC
VR
VSCode
web
Web hosting
Web móvil
WebAssembly
with google
Wizdeo
WizTracker
Women at Google
Women Techmakers
workmanager
WTM
XKCD
XML
Yifat Cohen
youtube
YouTube Analytics API
YouTube API
YouTube Data API
YouTube One Channel
YouTube Player API
Archive
2024
sept
2023
nov
oct
sept
ago
jun
may
abr
mar
ene
2022
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2021
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
2020
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2019
dic
nov
oct
sept
ago
jun
may
abr
mar
feb
ene
2018
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
2017
nov
sept
ago
jul
jun
may
abr
ene
2016
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2015
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2014
dic
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2013
dic
nov
oct
ago
jul
jun
may
abr
mar
feb
ene
2012
dic
nov
oct
sept
ago
jul
2011
nov
oct
may
mar
2010
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2009
dic
nov
sept
ago
jul
jun
may
abr
mar
feb
ene
2008
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2007
dic
Feed
Desarrolladores
Eventos y Comunidad
Casos Destacados
Dicen los Expertos
Google Accelerator