Google lanza un servicio llamado “Dataset search”, el cual tiene que ver con Google Scholar, el buscador de documentos y artículos científicos. En este caso el nuevo buscador se enfocará en las instituciones que publican sus datos en línea, como universidades y gobiernos. Se busca se incluya la información de cuándo fue creado el conjunto de datos, de qué tratan estos, cuándo fue publicado, etcétera, es decir, todos los posibles metadatos. Toda esta información será entonces puesta en un índice por Google en el Dataset Search y se combinará con el Google’s Knowledge Graph. Así, si los datos se publican por ejemplo, por el CERN, se incluirán algunos datos de la institución en el resultado de la búsqueda.
Natasha Noy, una investigadora en Google AI quien ayudó a crear el buscador, dijo que la meta es la de unificar las decenas de miles de diferentes depósitos de conjuntos de datos en línea. “Queremos hacer que los datos sean usados para nuevos descubrimientos, pero mantener la información del origen de los mismos”, comenta Noy.
Por el momento, la publicación de conjuntos de datos es extremadamente fragmentada. Los diferentes dominios científicos prefieren sus propios depósitos. “Los científicos dicen: ‘Yo sé dónde puedo encontrar mis conjuntos de datos, pero esto no es siempre lo que quiero'”, dice Noy. “Una vez que salen de su comunidad única, es cuando las cosas se ponen difíciles”.
Noy da un ejemplo de un científico del clima con quien habló recientemente y que estaba buscando un conjunto específico de datos sobre las temperaturas de los océanos, de un reciente estudio, pero no podía encontrarlo en ninguna parte. Eventualmente los datos se encontraron porque un colega les dijo donde estaban y entonces el investigador pudo continuar su trabajo. Y de hecho, “el conjunto de datos (dataset), estaba en un sitio web que tenía cierta importancia, pro que aún así estaba difícil hallar la información buscada”.
La liberación de Dataset Search cubrirá las ciencias medio ambientales y las sociales, los datos gubernamentales y el conjunto de datos de nuevas organizaciones como ProPublica. Sin embargo, si el servicio se vuelve popular, la cantidad de información indexada podría convertirse en una bola de nieve.
Noy piensa que en los últimos años el número de depósito de datos ha crecido significativamente. Y además, es claro que la importancia de los datos empieza a ser evidente, en donde incluso muchas publicaciones le piden a sus autores a publicar sus conjuntos de datos. Por otra parte, está el movimiento de “open data”, que busca que los gobiernos regulen, el EEUU y Europa, la posibilidad de poner públicamente mucha información y además, sin costo, de acuerdo con ciertos criterios.
Es probable que la iniciativa de Google con su Dataset Search sea una de las más interesantes por su enfoque y además, porque Google sí que sabe de búsquedas. Ojalá este servicio crezca rápidamente. La academia, la ciencia, serán los primeros agradecidos.