Diferencia entre revisiones de «Using XML Schema with Embedded Schematron Rules for MODS Quality Control in a Digital Repository»

De TallerDocumental on Wiki
Saltar a: navegación, buscar
(Resumen detallado)
(Herramientas que podrían solventar éstos problemas)
Línea 20: Línea 20:
  
 
====Herramientas que podrían solventar éstos problemas====
 
====Herramientas que podrían solventar éstos problemas====
 +
• OpenRefine: herramienta de código abierto que permite limpiar datos desordenados. Esta herramienta es muy potente, pero al implementar un esquema de metadatos jerárquico como MODS, resulta demasiado engorroso
 +
 +
• Metadata Breakers: esta herramienta permite identificar ciertos problemas de los registros individuales, pero la tarea de personalizar la herramienta requiere de mucho tiempo, por lo que resulta incómoda para los bibliotecarios
 +
 +
• Oxygen XML Editor: es un software que permite procesar los metadatos de manera más simple en el flujo de trabajo
 +
 +
===Definición de esquema XML===
 +
Se trata de un esquema de metadatos en un lenguaje legible por humanos y por máquinas en la W3C. Especifica el orden en que deben aparecer (en forma de lista), y qué atributos se permiten utilizar. Mencionar a su vez, que existen diversos lenguajes validados para estos esquemas, como el de Schematron.
 +
 +
===Schematron===
 +
Son reglas basadas en XML y estándares ISO. Para ubicar los nodos dentro de documentos XML. Utiliza XPath. Es flexible y tiene una estructura simple
 +
====Implementación====
 +
1. Definir la estructura con XSD (lenguaje de validación extremadamente complejo)
 +
--> Definir 2 categorías de elementos: simples (solo texto) y complejos (otros atributos)
 +
 +
2. Validar el contenido con Schematron . Definir los elementos sch:
 +
a. <schema>
 +
b. <ns>
 +
c. <pattern>
 +
d. <rule>
 +
e. <assert>
 +
f. <report>
  
 
==Comentario personal documentado==
 
==Comentario personal documentado==

Revisión del 09:10 24 nov 2018

Referencia

LISA LORENZO, 2018. Using XML Schema with Embedded Schematron Rules for MODS Quality Control in a Digital Repository. [en línea]. S.l.: Code4Lib Journal. [Consulta: 24 octubre 2018]. Issue 41, 2018-08-09. Disponible en: https://journal.code4lib.org/articles/13546[1]


Resumen original

The Michigan State University Libraries Digital Repository relies primarily on MODS descriptive metadata to convey meaning to users and to improve discoverability and access to the libraries’ unique information resources. Because the repository relies on this metadata for so much of its functionality, it’s important that records are of consistently high quality. While creating a metadata guidelines document was an important step in assuring higher-quality metadata, the volume of MODS records made it impossible to evaluate metadata quality without some form of automated quality assessment. After considering several possible tools, an XML Schema with embedded Schematron rules was ultimately chosen for its customizability and capabilities. The two tools complement each other well: XML Schemas provide a concise method of dictating the structure of XML documents and Schematron adds more robust capabilities for writing detailed rules and checking the content of XML elements and attributes. By adding the use of this Schema to our metadata creation workflow, we’re able to catch and correct errors before metadata is entered into the repository.

Resumen original traducido

El depósito digital de bibliotecas de la Universidad Estatal de Michigan se basa principalmente en los metadatos descriptivos de MODS para transmitir un significado a los usuarios y para mejorar el descubrimiento y el acceso a los recursos de información únicos de las bibliotecas. Debido a que el repositorio se basa en estos metadatos para gran parte de su funcionalidad, es importante que los registros sean de alta calidad. Si bien la creación de un documento de pautas de metadatos fue un paso importante para garantizar metadatos de mayor calidad, el volumen de registros MODS hizo imposible evaluar la calidad de los metadatos sin ningún tipo de evaluación de calidad automatizada. Después de considerar varias herramientas posibles, finalmente se eligió un esquema XML con reglas de Schematron incrustadas por su capacidad de personalización y capacidades. Las dos herramientas se complementan bien: los esquemas XML proporcionan un método conciso para dictar la estructura de los documentos XML y Schematron agrega capacidades más sólidas para escribir reglas detalladas y verificar el contenido de los elementos y atributos XML. Al agregar el uso de este esquema a nuestro flujo de trabajo de creación de metadatos, podemos detectar y corregir los errores antes de ingresar los metadatos en el repositorio.

Resumen detallado

The Digital Library Federation (DLF) y Metadata Assessment Working Group, utilizan herramientas de evaluación de metadatos para conseguir unas métricas apropiadas y significativas. Es necesario que los metadatos sean de alta calidad para implementar un método de evaluación sostenible e integrable en los flujos de trabajo existentes. Para ello se requiere una descripción coherente, que ha de basarse en conjuntos de registros con un análisis preciso de las materias.

Repositorio digital MSUL

Es una colección de contenido digital accesible de forma gratuita y que abarca una gran variedad de temas y medios. El repositorio está construido en Fedora con un front-end de Islandora y utiliza MODS para los metadatos descriptivos. La indexación se realiza con Apache Solr. La colección del repositorio la enriquecen profesores y alumnos. La calidad y los formatos de los metadatos dependen dado que son éstos quienes los construyen. Posteriormente, los bibliotecarios convierten los metadatos en XML y corrigen los registros y crean un XLST. Existen pautas (creadas en 2016) para estructurar los metadatos, pero no lo suficientemente consistentes como para consolidar los metadatos de la colección. Un ejemplo lo encontramos en los formatos de las fechas o los URI, que pasan desapercibidos a no ser que causen un eror en Solr durante la indexación.

Herramientas que podrían solventar éstos problemas

• OpenRefine: herramienta de código abierto que permite limpiar datos desordenados. Esta herramienta es muy potente, pero al implementar un esquema de metadatos jerárquico como MODS, resulta demasiado engorroso

• Metadata Breakers: esta herramienta permite identificar ciertos problemas de los registros individuales, pero la tarea de personalizar la herramienta requiere de mucho tiempo, por lo que resulta incómoda para los bibliotecarios

• Oxygen XML Editor: es un software que permite procesar los metadatos de manera más simple en el flujo de trabajo

Definición de esquema XML

Se trata de un esquema de metadatos en un lenguaje legible por humanos y por máquinas en la W3C. Especifica el orden en que deben aparecer (en forma de lista), y qué atributos se permiten utilizar. Mencionar a su vez, que existen diversos lenguajes validados para estos esquemas, como el de Schematron.

Schematron

Son reglas basadas en XML y estándares ISO. Para ubicar los nodos dentro de documentos XML. Utiliza XPath. Es flexible y tiene una estructura simple

Implementación

1. Definir la estructura con XSD (lenguaje de validación extremadamente complejo) --> Definir 2 categorías de elementos: simples (solo texto) y complejos (otros atributos)

2. Validar el contenido con Schematron . Definir los elementos sch: a. <schema> b. <ns> c. <pattern> d. <rule> e. <assert> f. <report>

Comentario personal documentado

Referencias

Colaboradores de Wikipedia. Extensible Markup Language [en línea]. Wikipedia, La enciclopedia libre, 2018 [fecha de consulta: 24 de noviembre del 2018]. Disponible en https://es.wikipedia.org/w/index.php?title=Extensible_Markup_Language&oldid=111885798

Colaboradores de Wikipedia. OpenRefine. [en línea] Wikipedia, La enciclopedia libre, 2018 [fecha de consulta: 24 de noviembre del 2018]. Disponible en https://en.wikipedia.org/w/index.php?title=OpenRefine&oldid=850138882


Categorías: XML | [[ ]]


Escailerr (discusión) 07:58 24 nov 2018 (CET)