Diferencia entre revisiones de «Analyzing and Normalizing Type Metadata for a Large Aggregated Digital Library»

De TallerDocumental on Wiki
Saltar a: navegación, buscar
(Resumen detallado con cada una de sus partes)
(Introducción a IDHH y metadatos de tipos)
Línea 19: Línea 19:
 
Como en cualquier entorno agregado, algunos campos, incluido el Tipo, han sido difíciles de estandarizar en las instituciones contribuyentes del IDHH. El DPLA tiene controles de calidad sólidos para todos sus metadatos y refinamientos específicos para el campo Tipo. Sin embargo, sus sistemas de ingestión requieren una línea de base de calidad que no estaba presente en los metadatos de tipo del IDHH. Los metadatos del tipo IDHH son muy diversos y los requisitos de DPLA son estrictos; mientras que todos los metadatos de los registros originales se conservan y están disponibles en la API de DPLA, solo el tipo DCMI valores, como 'Imagen', 'Imagen en movimiento', 'Objeto físico', 'Sonido' y 'Texto' facetable en la API y el catálogo de DPLA. El tipo es uno de varios campos de datos que DPLA utiliza para crear facetas mediante las cuales restringir los resultados de la búsqueda y vincular desde un registro individual a una lista de elementos de un Tipo determinado. Los sistemas de ingestión de DPLA proporcionan asignaciones entre una lista establecida de elementos no conformes. valores y tipos de DCMI, pero las asignaciones y las características de catálogo posteriores que se basan en los valores de tipo de DCMI parecen funcionar mejor cuando hay valores de tipo de DCMI válidos en un registro original.
 
Como en cualquier entorno agregado, algunos campos, incluido el Tipo, han sido difíciles de estandarizar en las instituciones contribuyentes del IDHH. El DPLA tiene controles de calidad sólidos para todos sus metadatos y refinamientos específicos para el campo Tipo. Sin embargo, sus sistemas de ingestión requieren una línea de base de calidad que no estaba presente en los metadatos de tipo del IDHH. Los metadatos del tipo IDHH son muy diversos y los requisitos de DPLA son estrictos; mientras que todos los metadatos de los registros originales se conservan y están disponibles en la API de DPLA, solo el tipo DCMI valores, como 'Imagen', 'Imagen en movimiento', 'Objeto físico', 'Sonido' y 'Texto' facetable en la API y el catálogo de DPLA. El tipo es uno de varios campos de datos que DPLA utiliza para crear facetas mediante las cuales restringir los resultados de la búsqueda y vincular desde un registro individual a una lista de elementos de un Tipo determinado. Los sistemas de ingestión de DPLA proporcionan asignaciones entre una lista establecida de elementos no conformes. valores y tipos de DCMI, pero las asignaciones y las características de catálogo posteriores que se basan en los valores de tipo de DCMI parecen funcionar mejor cuando hay valores de tipo de DCMI válidos en un registro original.
 
Debido a su importancia para el acceso, el descubrimiento y la interactividad, y las bajas tasas de finalización como se ve en la interfaz de búsqueda de DPLA, se determinó que era necesario mejorar los metadatos Tipo aportados por las instituciones del IDHH. El análisis inicial reveló que había 558 valores de Tipo únicos en todos los registros de IDHH. Después del análisis de metadatos, se llevó a cabo un enfoque triple para mejorar los metadatos de tipo. Los metadatos de tipo aportados por las instituciones del IDHH podrían mejorarse mediante:
 
Debido a su importancia para el acceso, el descubrimiento y la interactividad, y las bajas tasas de finalización como se ve en la interfaz de búsqueda de DPLA, se determinó que era necesario mejorar los metadatos Tipo aportados por las instituciones del IDHH. El análisis inicial reveló que había 558 valores de Tipo únicos en todos los registros de IDHH. Después del análisis de metadatos, se llevó a cabo un enfoque triple para mejorar los metadatos de tipo. Los metadatos de tipo aportados por las instituciones del IDHH podrían mejorarse mediante:
1. instituciones que presenten metadatos de mejor calidad,
+
 
2. Transformaciones XSL más robustas de los metadatos agregados por el IDHH, y
+
1. instituciones que presenten metadatos de mejor calidad
 +
 
 +
2. Transformaciones XSL más robustas de los metadatos agregados por el IDHH
 +
 
 
3. trabajar con la DPLA para mejorar sus controles de calidad en los metadatos de Tipo IDHH, lo que a su vez puede conducir a controles de calidad mejorados en Tipo y otros campos para otros centros que aportan metadatos a la DPLA.
 
3. trabajar con la DPLA para mejorar sus controles de calidad en los metadatos de Tipo IDHH, lo que a su vez puede conducir a controles de calidad mejorados en Tipo y otros campos para otros centros que aportan metadatos a la DPLA.
  

Revisión del 01:13 18 dic 2020

Referencia del articulo

Lynch, Joshua D.; Gibson, Jessica; Han, M.-J. (2020). Analyzing and Normalizing Type Metadata for a Large Aggregated Digital Library. The Code4Lib Journal, (47).

Resumen original

The Illinois Digital Heritage Hub (IDHH) gathers and enhances metadata from contributing institutions around the state of Illinois and provides this metadata to the Digital Public Library of America (DPLA) for greater access. The IDHH helps contributors shape their metadata to the standards recommended and required by the DPLA in part by analyzing and enhancing aggregated metadata. In late 2018, the IDHH undertook a project to address a particularly problematic field, Type metadata. This paper walks through the project, detailing the process of gathering and analyzing metadata using the DPLA API and OpenRefine, data remediation through XSL transformations in conjunction with local improvements by contributing institutions, and the DPLA ingestion system’s quality controls.

Resumen traducido

El Illinois Digital Heritage Hub (IDHH) recopila y mejora los metadatos de las instituciones que contribuyen en todo el estado de Illinois y proporciona estos metadatos a la Biblioteca Pública Digital de América (DPLA) para un mayor acceso. El IDHH ayuda a los contribuyentes a dar forma a sus metadatos según los estándares recomendados y requeridos por el DPLA, en parte mediante el análisis y la mejora de los metadatos agregados. A finales de 2018, el IDHH emprendió un proyecto para abordar un campo particularmente problemático, los metadatos de tipo. Este documento describe el proyecto, detallando el proceso de recopilación y análisis de metadatos utilizando la API de DPLA y OpenRefine, la corrección de datos a través de transformaciones XSL junto con las mejoras locales de las instituciones contribuyentes y los controles de calidad del sistema de ingestión de DPLA.

Resumen detallado con cada una de sus partes

Antecedentes: problemas con los metadatos de tipo y los controles de calidad existentes

Introducción a IDHH y metadatos de tipos

El Illinois Digital Heritage Hub (IDHH) recopila y mejora los metadatos de las instituciones colaboradoras de Illinois y proporciona estos metadatos a la Biblioteca Pública Digital de América (DPLA) para un mayor acceso. El IDHH ayuda a los contribuyentes a dar forma a sus metadatos según los estándares recomendados y requeridos por el DPLA. Este documento describe el proceso para recopilar y analizar los metadatos de tipo de los contribuyentes, los problemas observados en el análisis de los metadatos y las formas en que los contribuyentes, el IDHH y el DPLA solucionaron los problemas encontrados en el análisis.

El IDHH es el Centro de servicios de Illinois para la Biblioteca Pública Digital de América (DPLA), y una colaboración entre la Biblioteca Estatal de Illinois (ISL), el Consorcio de Bibliotecas Académicas y de Investigación en Illinois (CARLI), la Biblioteca Pública de Chicago (CPL) y la Universidad de Biblioteca Illinois Urbana-Champaign (UIUC). En julio de 2019, el IDHH agregó metadatos de aproximadamente 150 instituciones contribuyentes individuales en todo el estado. Los metadatos se recopilan como Qualified Dublin Core (QDC), también conocidos como Términos de metadatos DCMI (dcterms), y se proporcionan como registros QDC a la DPLA.

En julio de 2019, el IDHH recopiló y expuso más de 310,000 registros de 448 colecciones digitales. Mediante evaluación de metadatos, un documento de mejores prácticas y formación; El IDHH ha realizado importantes esfuerzos para que los metadatos de los contribuyentes se ajusten a los estándares y recomendaciones de DPLA que, en última instancia, mejoran la capacidad de descubrimiento de los ricos y únicos recursos digitales del IDHH.

Como en cualquier entorno agregado, algunos campos, incluido el Tipo, han sido difíciles de estandarizar en las instituciones contribuyentes del IDHH. El DPLA tiene controles de calidad sólidos para todos sus metadatos y refinamientos específicos para el campo Tipo. Sin embargo, sus sistemas de ingestión requieren una línea de base de calidad que no estaba presente en los metadatos de tipo del IDHH. Los metadatos del tipo IDHH son muy diversos y los requisitos de DPLA son estrictos; mientras que todos los metadatos de los registros originales se conservan y están disponibles en la API de DPLA, solo el tipo DCMI valores, como 'Imagen', 'Imagen en movimiento', 'Objeto físico', 'Sonido' y 'Texto' facetable en la API y el catálogo de DPLA. El tipo es uno de varios campos de datos que DPLA utiliza para crear facetas mediante las cuales restringir los resultados de la búsqueda y vincular desde un registro individual a una lista de elementos de un Tipo determinado. Los sistemas de ingestión de DPLA proporcionan asignaciones entre una lista establecida de elementos no conformes. valores y tipos de DCMI, pero las asignaciones y las características de catálogo posteriores que se basan en los valores de tipo de DCMI parecen funcionar mejor cuando hay valores de tipo de DCMI válidos en un registro original. Debido a su importancia para el acceso, el descubrimiento y la interactividad, y las bajas tasas de finalización como se ve en la interfaz de búsqueda de DPLA, se determinó que era necesario mejorar los metadatos Tipo aportados por las instituciones del IDHH. El análisis inicial reveló que había 558 valores de Tipo únicos en todos los registros de IDHH. Después del análisis de metadatos, se llevó a cabo un enfoque triple para mejorar los metadatos de tipo. Los metadatos de tipo aportados por las instituciones del IDHH podrían mejorarse mediante:

1. instituciones que presenten metadatos de mejor calidad

2. Transformaciones XSL más robustas de los metadatos agregados por el IDHH

3. trabajar con la DPLA para mejorar sus controles de calidad en los metadatos de Tipo IDHH, lo que a su vez puede conducir a controles de calidad mejorados en Tipo y otros campos para otros centros que aportan metadatos a la DPLA.

Descripción general de los problemas de metadatos de tipo IDHH

El análisis en profundidad que se analiza en detalle a continuación mostró que, a partir del 13 de diciembre de 2018, había al menos 558 valores de metadatos de tipo únicos entre aproximadamente 327,000 valores en total. Sólo alrededor de 176.000 de los 327.000 valores totales se ajustaban perfectamente al tipo DCMI. Debido al gran volumen de valores únicos que ingresan y las limitaciones en la Ingestión 1 de DPLA controles de calidad, solo aproximadamente 61.000 valores de metadatos se muestran y funcionan como facetas de trabajo en las interfaces de búsqueda de DPLA. Esto representó solo un valor de Tipo de DCMI por cada cinco registros que las instituciones del IDHH habían contribuido al DPLA.

Comentario documentado

Bibliografía