Analysis of 2018 International Linked Data Survey for Implementers

De TallerDocumental on Wiki
Saltar a: navegación, buscar

Referencia

Smith-Yoshimura, K. (2018). Analysis of 2018 International Linked Data Survey for Implementers. Code4lLib, (42). Recuperado a partir de https://journal.code4lib.org/articles/13867 

Resumen original

OCLC Research realizó una Encuesta Internacional de Datos Vinculados para Implementadores en 2014 y 2015. Curioso por lo que podría haber cambiado desde la última encuesta, y ansioso por conocer nuevos proyectos o servicios que formen metadatos como datos vinculados o hagan usos posteriores, OCLC Research Repitió la encuesta entre el 17 de abril y el 25 de mayo de 2018. Un total de 143 instituciones en 23 países respondieron a una o más de las encuestas. Este análisis abarca los 104 proyectos o servicios de datos vinculados descritos por las 81 instituciones que respondieron a la encuesta de 2018: aquellos que publican datos vinculados, consumen datos vinculados o ambos. Este artículo proporciona una descripción general de los proyectos de datos vinculados o las instituciones de servicios que han implementado o están implementando; qué datos publican y consumen; las razones dadas para implementar datos vinculados y las barreras encontradas; y algunos consejos proporcionados por los encuestados a quienes consideran implementar un proyecto o servicio de datos vinculados. Se notan las diferencias con las respuestas de la encuesta anterior, pero como la mayoría de los proyectos y servicios vinculados descritos aún no están en producción o implementados en los últimos dos años.

Resumen detallado

Introducción

La encuesta surgió de la discusión de administradores de metadatos que buscaban conocimiento más allá de su saber sobre los servicios de metadatos, por ello, OCLC, otras instituciones RLP, y algunos implementadores de datos vinculados, diseñaron una encuesta en 2014 sobre la publicación de datos vinculados y su consumo pensada para aquellos que estaban involucrados en servicios de datos vinculados. La encuesta se volvió a realizar en 2015 para abordar temas no tratados anteriormente, y en 2018 se repitió para establecer una visión del cambió que podría haber surgido en las respuestas, en esta última hubo mayor respuesta de instituciones pero se abordaron menor número de proyectos o servicios respecto a la de 2015.

Visión general

De las 81 instituciones que respondieron en 2018, el 57% respondieron a una o a las dos anteriores pero e los 104 proyectos o servicios de datos vinculados que se describieron en la encuesta, 42 fueron descritos en encuestas anteriores con diferencias. Una de la diferencia es el número de instituciones que respondieron a la idea de implementar un proyecto o servicio de datos vinculados, en 2015 el 60% tenía planeado implementar en los próximos años, y en el de 2018 solo el 50% se lo planteaban. En la encuesta del 2018, 34 instituciones representaban Estados Unidos, 12 España, 8 Reino Unido, 4 los Países Bajos, 3 para Canadá, Alemania y Noruega, 2 Italia, y 1 para Austria, Australia, China, República Checa, Finlandia, Francia, Hungría, Japón, Luxemburgo, Portugal, Sudáfrica y Suiza. En cuanto a la categoría de las instituciones, 23 fueron bibliotecas de investigación, 13 bibliotecas nacionales, 11 instituciones de investigación, 8 redes de bibliotecas, 8 gobiernos, 6 proveedores de servicios, 5 bibliotecas públicas, 4 museos, 2 salas de conciertos y otras 2 editoriales (es en la primera encuesta que responden proveedores de servicios). De los proyectos descritos en la encuesta del 2018, ¾ de ellos están en producción con un mínimo de 2 años. La mayoría se realizan en la misma institución, pero el 22% requiere colaboración de una institución o varias externas, y el 19% se realiza mediante proyecto externo. Los colaboradores externos con estas instituciones más frecuentes en orden fueron: bibliotecas o archivos, universidades o instituciones de investigación, consultores o desarrolladores, vendedores de sistemas entre otros. Estos colaboradores son similares a los de 2015 con variación en la frecuencia de colaboración. La mayoría de estas instituciones han agregado datos vinculados a las responsabilidades del personal, aumentando el 50% respecto a la encuesta del 2015. La mayoría de los proyectos o servicios de datos vinculados recibieron fondos de financiación, solo 8 no lo hicieron pero lo plantean. Hubo un mayor numero de éxito de los proyectos o servicios en la encuesta de 2018 que en la de 2015, de los que, los encuestados cuyos proyectos son de 2 a 4 años resaltan como indicadores de éxito:

  • Uso: hubo un mayor uso a lo largo de los años
  • Reutilización de los datos: mayor número de aplicaciones que usan su

implementación de datos vinculados y mayor número de descargas.

  • Interoperabilidad: opción de acceso a otros recursos desde su servicio.
  • Satisfacción del usuario: mayor satisfacción mediante etiquetas multilingües.
  • Influencia: sus servicios son conocidos y se es más consciente de su valor en el

sector.

  • Desarrollo profesional: ellos mismos ofrecen desarrollo profesional.

La clasificación del proyecto o servicio como parcial o principalmente exitoso se centró en la falta de fondos para actualizar y ampliar el servicio, falta de herramientas medidoras de satisfacción de usuarios, dificultad en la evaluación de difusión y reutilización de datos, impresión en el interés de la comunidad, y no dar lugar a proyectos similares. En la encuesta de 2018 se aprecia una disminución de consumo de datos vinculados y de publicación de estos por separados, pero un pequeño aumento en conjunto.

Qué y por qué se publican los datos vinculados

Como se nombra, las bibliotecas representan gran parte de encuestados, lo que conlleva la publicación de metadatos descriptivos y datos bibliográficos como los más comunes, datos de autoridad otro tipos de datos como por ejemplo de persinas, vocabularios colecciones digitales… La mayoría de conjuntos de datos son pequeños, pero se produce un aumento respecto a la encuesta de 2015 de 3 a 11 1.000 millones de triples. Las motivaciones para publicar en datos vinculados no han cambiado en las encuestas realizadas, los principales motivos son: exponer datos a un público más amplio, demostrar lo que se podría hacer con los conjuntos de datos como datos vinculados, difusión de los datos probado y la curiosidad ante ellos, necesidad de publicación de datos enlazados para su consumo, mejora en el motor de búsqueda de recursos locales, y la solicitud por parte de la administración para publicar como datos vinculados. Otras razones son la experimentación con los datos vinculados en un área eterna al catálogo de la biblioteca, aumentar la interoperabilidad, requerimiento de un proyecto financiado, vinculación entre diferentes instituciones, proporcionar una extensión a BIBFRAME, y desarrollar herramientas de apoyo. Más de la mitad no conocía el porcentaje de solicitudes promedio diario que recibían sus proyectos o servicio de datos, los ocho conjuntos de datos vinculados más utilizados (promedio de solicitudes por día) con más de 100.000 solicitudes/día son: “El nomisma” de la American Numismatic Society (en 2015, entre 10.000 y 50.000 solicitudes/dia, en 2018 se duplicado), “Data.bnf.fr” de la Bibliotheque nationale de France (en 2015 entre 10.000 y 50.000 Solicitudes/día), “Europeana” (en 2015 entre 10.000 y 50.000 Solicitudes/día), “Servicio de Datos Vinculados” de la Biblioteca del Congreso (entre 500.000 y un millón de solicitudes/dia), “La búsqueda NDL” de National Diet Library (en 2015 entre 10.000 y 50.000 Solicitudes/día), “El servicio de Datos Abiertos Vinculados” del Centro de Servicios de Bibliotecas de Renania del Norte- Westfalia ( en 2015 entre 10.000 y 50.000 Solicitudes/día), “El Archivo de Autoridad Internacional Virtual (VIAF)” de OCLC ( en 2015 entre 10.000 y 50.000 Solicitudes/día), “WorldCat Linked Data” de OCLC ( en 2015 entre 10.000 y 50.000 Solicitudes/día), “Bibliografía Nacional Británica” de la Biblioteca Británica ( en 2015 entre 10.000 y 50.000 Solicitudes/día, en 2018 se ha duplicado las solicitudes/día), “Servicio de Tesauro y Ontología” de Finlandia de la Biblioteca Nacional de Finlandia, “OCLC FAST” (en 2015 entre 10.000 y 50.000 Solicitudes/día, en 2018 se ha duplicado su uso). Los conjuntos de datos vinculados emplean vocabularios y ontologías RDF, de lso que emplearon SKOS se observa una disminución del 16% entre 2015 y 2018 aumentando Schema.org en 16%, lo mismo ocurrió con DublinCore, DCMI y foaf aumentando el empleo del vocabulario BIBFRAME en un 12%. Los ocho vocabularios más empleados por los encuestados en 2018 en orden de mayor uso son: Schema.org, SKOS, Términos básicos del Dublin, FOAF, Términos de metadatos de DCMI, Esquema RDF, BibFrame, y Vocabulario local. 32 proyectos o servicios no anuncian ninguna licencia, y 19 aplican CC0 1.0 Universal, otras licencias empleadas con ODC-BY, PPDL, ODC-ODbl, BY-NC-ND entre otras. De los 70 proyectos o servicios de datos vinculados, 19 no tienen accesibilidad fuera de su institución pero el resto ofrecen varias formas de acceso como páginas web, vocabularios de archivos, mediante SPARQL y otros. ENyttre las tecnologías empleadas, la mayor parte emplea tecnologías múltiples como SPARQL, Java, XSLT, RDF Store… en las encuestas de 2018 y 2015 no se observan cambios significativos en las clasificaciones de barreras, la principal en ambas encuestas fue la curva de aprendizaje para el personal o la falta de recursos.

Qué y por qué se consumen los datos vinculados

En la encuesta del 2018, 69 proyectos describían datos vinculados consumidos, el mayor cambio en comparación es el aumento del uso de la Wikidata que ocupa en 2018 en 5º puesto entre las fuentes de datos vinculados más frecuentes, casi la mitad de los proyectos y servicios que consumen Wikidata han estado en producción durante más de cuatro años. También surgió el ISNI y otros recursos disminuyeron. En la encuesta de 2018 las más empleadas fueron id.loc.gov, VIAF, Dbpedia, GeoNames, Wikidata, WorldCat.org, Getty Vocabularios, RÁPIDO, ISNI. Otras fuentes consumidas por al menos cuatro proyectos son Europeana, Deutsche National Bibliotek Linked Data Services, Lexvo, WorldCat.org Works, data.bnf.fr, ORCID, DPLA, e Hispana. Las razones de las instituciones para consumir datos vinculados son, principalmente, proporcionar a los usuarios locales una experiencia más rica, mejorar los datos locales al consumir datos vinculados de otras fuentes, popularidad de los datos vinculados e interés por su uso, gestión interna más efectiva, experimentar cambiando tiempos de datos, mayor precisión y alcance en los resultados de búsqueda locales. La barrera principal en ambas encuestas era igualar, desambiguar y alinear los datos de origen y los de origen de datos vinculados, además de serializaciones RDF mal formadas, procesos de automatización para vincular los datos no están desarrollados, cantidad de limpieza de datos que se requiere.

Consejo

Finalmente en la encuesta de 2018 se pregunta a los encuestados que cambiarian si volvieran a iniciar de nuevo su proyecto o servicio a lo que respondieron que actualmente, los datos vinculados son más maduros y por tanto el marco de referencia sería más amplio, buscarían incorporar el proyecto a la infraestructura actual, mejorarían los datos en la conversión, realizarían una limpieza de conjunto de datos apoyada en una organización, buscarían personal mas dedicado para la verificación y corrección de los datos, el conjunto de datos sería más consistente y visible ante los resultados, buscarían más allá de OpenRefine, buscarían expectativas más reales para que las personas pudieran ser capaces de comprender el uso de los datos mas allá de Google.

Comentario personal

Las encuestas de 2018 y 2015 son muy similares en cuanto a resultados, ya que difieren muy poco entre las respuesta en ambas por los encuestados, las variaciones que se producen derivan del proceso evolutivo en los tres años que separan ambas encuestas en los que han aparecido proveedores de servicios, nuevas iniciativas de datos vinculados, y la diversidad en implementación de datos vinculados. Este ámbito evoluciona muy rápido como se observa que ha ocurrido en los últimos años, lo que va a producir cambios y avances en el campo de aplicación que conllevaran mejoras en cuanto al uso de los datos vinculados, está en auge y crecimiento continuo.

Referencias bibliográficas

Angejo Bullón, X., & Hernández Carrascal, F. (2017). El estado de los datos vinculados en bibliotecas en 2015. Anuario ThinkEPI, (1), 321-323. Recuperado a partir de https://dialnet.unirioja.es/servlet/articulo?codigo=6008491

E. Fienberg, S. (2006). Analysis of Survey Data. Journal of the American Statistical Association, 101(473), 401-402. Recuperado a partir de https://dialnet.unirioja.es/servlet/articulo?codigo=1967640

Grossi, V., Romei, A., & Turini, F. (2017). Survey on using constraints in data mining. Data mining and knowledge discovery, 31(2), 424-464. Recuperado a partir de https://dialnet.unirioja.es/servlet/articulo?codigo=6454062

Lohr, S. L., & Raghunathan, T. E. (2007). Combining Survey Data with Other Data Sources. Statistical science, 32(2), 293-312. Recuperado a partir de https://dialnet.unirioja.es/servlet/articulo?codigo=5983411



Categorías: Data Survey | Datos vinculados | Analysis

740222 (discusión)