Using XML Schema with Embedded Schematron Rules for MODS Quality Control in a Digital Repository

De TallerDocumental on Wiki
Revisión del 11:14 17 dic 2018 de Escailerr (discusión | contribuciones) (Comentario personal)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar

Referencia

LISA LORENZO, 2018. Using XML Schema with Embedded Schematron Rules for MODS Quality Control in a Digital Repository. [en línea]. S.l.: Code4Lib Journal. [Consulta: 24 octubre 2018]. Issue 41, 2018-08-09. Disponible en: https://journal.code4lib.org/articles/13546

Resumen original

The Michigan State University Libraries Digital Repository relies primarily on MODS descriptive metadata to convey meaning to users and to improve discoverability and access to the libraries’ unique information resources. Because the repository relies on this metadata for so much of its functionality, it’s important that records are of consistently high quality. While creating a metadata guidelines document was an important step in assuring higher-quality metadata, the volume of MODS records made it impossible to evaluate metadata quality without some form of automated quality assessment. After considering several possible tools, an XML Schema with embedded Schematron rules was ultimately chosen for its customizability and capabilities. The two tools complement each other well: XML Schemas provide a concise method of dictating the structure of XML documents and Schematron adds more robust capabilities for writing detailed rules and checking the content of XML elements and attributes. By adding the use of this Schema to our metadata creation workflow, we’re able to catch and correct errors before metadata is entered into the repository.

Resumen original traducido

El depósito digital de bibliotecas de la Universidad Estatal de Michigan se basa principalmente en los metadatos descriptivos de MODS para transmitir un significado a los usuarios y para mejorar el descubrimiento y el acceso a los recursos de información únicos de las bibliotecas. Debido a que el repositorio se basa en estos metadatos para gran parte de su funcionalidad, es importante que los registros sean de alta calidad. Si bien la creación de un documento de pautas de metadatos fue un paso importante para garantizar metadatos de mayor calidad, el volumen de registros MODS hizo imposible evaluar la calidad de los metadatos sin ningún tipo de evaluación de calidad automatizada. Después de considerar varias herramientas posibles, finalmente se eligió un esquema XML con reglas de Schematron incrustadas por su capacidad de personalización y capacidades. Las dos herramientas se complementan bien: los esquemas XML proporcionan un método conciso para dictar la estructura de los documentos XML y Schematron agrega capacidades más sólidas para escribir reglas detalladas y verificar el contenido de los elementos y atributos XML. Al agregar el uso de este esquema a nuestro flujo de trabajo de creación de metadatos, podemos detectar y corregir los errores antes de ingresar los metadatos en el repositorio.

Resumen detallado

The Digital Library Federation (DLF) y Metadata Assessment Working Group, utilizan herramientas de evaluación de metadatos para conseguir unas métricas apropiadas y significativas. Es necesario que los metadatos sean de alta calidad para implementar un método de evaluación sostenible e integrable en los flujos de trabajo existentes. Para ello se requiere una descripción coherente, que ha de basarse en conjuntos de registros con un análisis preciso de las materias.

Repositorio digital MSUL

Es una colección de contenido digital accesible de forma gratuita y que abarca una gran variedad de temas y medios. El repositorio está construido en Fedora con un front-end de Islandora y utiliza MODS para los metadatos descriptivos. La indexación se realiza con Apache Solr. La colección del repositorio la enriquecen profesores y alumnos. La calidad y los formatos de los metadatos dependen dado que son éstos quienes los construyen. Posteriormente, los bibliotecarios convierten los metadatos en XML y corrigen los registros y crean un XLST. Existen pautas (creadas en 2016) para estructurar los metadatos, pero no lo suficientemente consistentes como para consolidar los metadatos de la colección. Un ejemplo lo encontramos en los formatos de las fechas o los URI, que pasan desapercibidos a no ser que causen un eror en Solr durante la indexación.

Herramientas que podrían solventar éstos problemas

• OpenRefine: herramienta de código abierto que permite limpiar datos desordenados. Esta herramienta es muy potente, pero al implementar un esquema de metadatos jerárquico como MODS, resulta demasiado engorroso

• Metadata Breakers: esta herramienta permite identificar ciertos problemas de los registros individuales, pero la tarea de personalizar la herramienta requiere de mucho tiempo, por lo que resulta incómoda para los bibliotecarios

• Oxygen XML Editor: es un software que permite procesar los metadatos de manera más simple en el flujo de trabajo

Definición de esquema XML

Se trata de un esquema de metadatos en un lenguaje legible por humanos y por máquinas en la W3C. Especifica el orden en que deben aparecer (en forma de lista), y qué atributos se permiten utilizar. Mencionar a su vez, que existen diversos lenguajes validados para estos esquemas, como el de Schematron.

Schematron

Son reglas basadas en XML y estándares ISO. Para ubicar los nodos dentro de documentos XML. Utiliza XPath. Es flexible y tiene una estructura simple

Implementación

1. Definir la estructura con XSD (lenguaje de validación extremadamente complejo). Definir dos categorías de elementos: simples (solo texto) y complejos (otros atributos)

2. Validar el contenido con Schematron . Definir los elementos sch:

  • <schema>
  • <ns>
  • <pattern>
  • <rule>
  • <assert>
  • <report>

Flujo de trabajo

Existe gran variedad de software tanto de código abierto como propietario, disponible para etiquetar con XML, como son Schematron y XSD Es posible implementar validaciones XSD con reglas de Schematron incrustadas en Oxigen de forma muy simple, y permite al usuario navegar y seleccionar el esquema.

Trabajo en el futuro

XSD y Schematron son herramientas efectivas para estructurar los metadatos del documento y la validación del contenido, pero la verificación de elementos y atributos de la estructura no implementan la corrección ortográfica o la conciliación de nombres y temas. Es algo que podría mejorarse. Se sopesa la posibilidad de utilizar herramientas de conciliación como OpenRefine para elaborar los encabezados de materias y un vocabulario de materias de la colección de los repositorios digitales.

Comentario personal

La implementación de un esquema de metadatos específica para insertar información en elementos en entornos de bibliotecas digitales ha de poder desarrollarse como en cualquier entorno que se trabaje con objetos digitales. El uso de un esquema XML resulta fácil cuando se desarrollan herramientas y nuevos lenguajes de descripción. Gracias a este nuevo esquema basado en la definición de nuevas etiquetas que permitan describir estos objetos resulta de gran utilidad. Destacar asimismo, que se desarrollan de forma libre con esquemas normalizados, lo que permite ser desarrollado de forma que la información que se introduce se puede ejecutar sin necesidad de invertir gran cantidad de dinero. Solo se necesita conocer las herramientas y un equipo informático que sea capaz de ejecutar sus funciones y una conexión a la red.

Las galerías, bibliotecas y archivos realizan descripciones de objetos digitales que han de ser de alta calidad para que sus usuarios puedan descubrir y comprender las colecciones. Los metadatos también han de ser de calidad y deben permitir realizar búsquedas con resultados eficientes que permitan el aprendizaje y la vinculación entre elementos para que los usuarios puedan aprovechar los datos y descubrir nuevos recursos. Para obtener unos resultados coherentes con las búsquedas, los esquemas de metadatos utilizados en la descripción de los elementos de los repositorios ha de ser también coherente y concisa.

La comunidad que en el artículo se denomina como GLAM (archivos, bibliotecas y museos) han de evaluar el cumplimiento de los estándares, independientemente de que sean nacionales, internacionales u otros específicos de las propias instituciones.

La tarea más complicada es la de definir los grupos y los flujos de trabajo, y desarrollar una métrica específica como método de evaluación para desarrollar un sistema sostenible e integrable.

Referencias

→Colaboradores de Wikipedia. Extensible Markup Language [en línea]. Wikipedia, La enciclopedia libre, 2018 [fecha de consulta: 24 de noviembre del 2018]. Disponible en https://es.wikipedia.org/w/index.php?title=Extensible_Markup_Language&oldid=111885798

→Colaboradores de Wikipedia. OpenRefine. [en línea] Wikipedia, La enciclopedia libre, 2018 [fecha de consulta: 24 de noviembre del 2018]. Disponible en https://en.wikipedia.org/w/index.php?title=OpenRefine&oldid=850138882

→Colaboradores de Wikipedia. Schematron [en línea]. Wikipedia, La enciclopedia libre, 2017 [fecha de consulta: 30 de noviembre del 2018]. Disponible en https://es.wikipedia.org/w/index.php?title=Schematron&oldid=104060132

→MILLER, Dick R.; and CLARKE, Kevin S. Putting XML to Work in the Library :Tools for Improving Access and Management. Chicago: American Library Association, 2004. ISBN 0838908632.

→EITO BRUN, Ricardo. Lenguajes De Marcas Para La Gestión De Recursos Digitales :Aproximación Técnica, Especificaciones y Referencia. Gijón: Trea, 2009. ISBN 978-84-9704-347-2.

→ Oxygen XML Editor. [en línea], [sin fecha]. [Consulta: 17 diciembre 2018]. Disponible en: https://www.oxygenxml.com/.

→ openrefine[en línea], [sin fecha]. [Consulta: 17 diciembre 2018]. Disponible en: http://openrefine.org/.


Categorías: XML | Schematron | Repositories | Metadata | Openrefine | Oxygen HTML Editor | MSUL

Escailerr (discusión) 07:58 24 nov 2018 (CET)