Python, Google Sheets, and the Thesaurus for Graphic Materials for Efficient Metadata Project Workflows

De TallerDocumental on Wiki
Saltar a: navegación, buscar

Referencia bibliográfica

BARTCZAK, Jeremy; GLENDON, Ivey. Python, Google Sheets, and the Thesaurus for Graphic Materials for Efficient Metadata Project Workflows. Code4Lib Journal [en línea], 2017, no 35. [Consulta 27/11/2017]. ISSN 1940-5758. Disponible en: http://journal.code4lib.org/articles/12182

Resumen original

In 2017, the University of Virginia (U.Va.) will launch a two year initiative to celebrate the bicentennial anniversary of the University’s founding in 1819. The U.Va. Library is participating in this event by digitizing some 20,000 photographs and negatives that document student life on the U.Va. grounds in the 1960s and 1970s. Metadata librarians and archivists are well-versed in the challenges associated with generating digital content and accompanying description within the context of limited resources. This paper describes how technology and new approaches to metadata design have enabled the University of Virginia’s Metadata Analysis and Design Department to rapidly and successfully generate accurate description for these digital objects. Python’s pandas module improves efficiency by cleaning and repurposing data recorded at digitization, while the lxml module builds MODS XML programmatically from CSV tables. A simplified technique for subject heading selection and assignment in Google Sheets provides a collaborative environment for streamlined metadata creation and data quality control

Resumen

La Universidad de Virginia en 2017, celebrando su bicentenario, lanza un proyecto de digitalización de una gran cantidad de fotografías (20.000) situadas entre los años 60 y 70 que narran la vida estudiantil. La iniciativa parte del año 2015 en función de un grupo de stakeholders. La parte interesada del proyecto se define en cuatro grupos: Special Collections Curators, (DPG) Digital Productor Group, (MAD) Metadata Analysis and Design y (DCMC) Digital Content Management and Disemination

Diseño de los metadatos

Para un buen diseño de metadatos antes hay que agrupar los principios básicos de estos mismos y posteriormente aplicarlos debidamente. La realización de la infraestructura debe atender tanto a especialistas en la materia como también al personal no cualificado, de ese modo se crea un diseño que sea comprensible para cualquier público. En el caso de metadatear las imágenes se realiza mediante su clasificación en una materia determinada y posteriormente (si hace falta) se puede ir descendiendo en cuanto a nivel de materia. Sin embargo, el hecho de asignar una materia se realiza con la ayuda de un vocabulario controlado que se adecúe de la mejor forma a la colección. En la elección de un vocabulario controlado se atiende el nivel de especialización que este pueda tener (en este caso un tesauro) ya que eso podría ser un problema a la hora de clasificar las materias. En la Universidad de Virginia, se designó el Library of Congress Thesaurus for Graphic Materials (LCTGM) ya que el Library of Congress Subject Headings era, textualmente, "too specific to be usefull". Por último, añadir que debido a la complicación que puede suponer la asignación de terminos, el personal no asigna mas de tres términos por fotografía.

Workflows, Pandas y Google Sheets

El flujo de trabajo reside en la creación de un sistema propio (in-house system) donde se almacenan las imágenes ya metadateadas en un repositorio. Dentro del sistema, las imágenes se transcriben y se añaden a una carpeta (box-by-box system) que se encuentra dividida por unidades. Al tratarse de imágenes, estas se guardan generando campos adicionales como TIFF filename entre otros. Esto, sumado a la gestión de metadatos, optimiza de manera notable el flujo de trabajo.

Para la gestión online, se recurre al MODS XML que combina el esquema de metadatos básico con un editor XML. También, se valora la posibilidad de realizar la digitalización pasando al formato CSV junto a una herramienta que realice una "limpieza". Por ello, se escoge la herramienta Phyton panda ya que lleva a cabo la acción de una limpieza en cuanto a nivel de tablas se refiere. En el caso de que se prefiera otra herramienta, también se encuentra disponible OpenRefine que es popular cuando se habla de "data cleaning". La implementación de Lxml combina las características de un lenguaje xml con la simplicidad del Phyton API (interfaz de programación de apliaciones) sumando la compatibilidad con ElementTree API (identifica qué tipo de dato se trata) realzando las operaciones mediante su propio diccionario. Por último, el uso de Google Sheets es cuestión de facilitar la operación de manera que el CSV se utilice en Google Sheet con la finalidad de permitir modificar la configuración para aquellos que tengan el acceso a la URL. Todo ello, trabajado con el LCTGM.

Comentario personal

El proceso de digitalización es una accion que requiere cierta meditación a la hora de realizar la acción pues, antes de llevarla a cabo, se necesitan diversos conocimientos básicos de herramientas indispensables para llevar a cabo este proceso tan largo. El estudio de este caso, en mi opinión, el proceso de digitalización que se ha llevado es el adecuado debido a la gran cantidad de fotografías que se han tenido que diitalizar. Todo el proceso se llevo de una manera adecuada gracias, tambien, a la división por grupos o stakeholders (parte interesada del proyecto) ya que cada uno se encarga de una labor y además esta bien complementado debido a que acada acción esta unida a otra.

La elección de una herramienta digital viene condicionada por las caracteísticas del mismo proyecto ya que, cuanto mas ambicioso sea el proyecto, las herramientas pueden variar debido al coste(preferiblemente herramientas de libre acceso). Por ejemplo, el uso de un tesauro que cubra de manera necesaria las necesidades del lenguaje controlado caracteriza de forma fidedigna el alcance de dicho proyecto ya que cuanta mas variedad, mas grande tendrá que ser el tesauro y por ende la lista de términos controlados a utilizar. En el caso de la elección de un "data cleaner" se valora mas la idea de desarrollar nuevas habilidades basandose en la idea de que la mejor opción para obtener rápidamente un script y ejecutarlo para realizar lo que se requería en cuanto al panda seleccionado (Phyton panda)

Bibliografía

SITAKER, K., 2002. Phyton or Perl: which is better? ;Login: the magazine of USENIX & SAGE [en línea], vol. 27, no. 3, pp. 20-24. [Consulta: 28 noviembre 2017]. ISSN 1044-6397. Disponible en: https://dialnet.unirioja.es/servlet/articulo?codigo=4957390

NAVAS MILLÁN, J. y RUIZ RODRÍGUEZ, A.A., 2011. Análisis y recomendaciones sobre software para archivos de imágenes. El profesional de la información [en línea], vol. 20, no. 4, pp. 474-481. [Consulta: 29 noviembre 2017]. ISSN 1386-6710. Disponible en: https://dialnet.unirioja.es/servlet/articulo?codigo=3743618

RODRÍGUEZ REY, N., 2013. Fondos y colecciones fotográficos del Archivo y Biblioteca Regional de la Comunidad de Madrid: descripción y análisis. [en línea], [Consulta: 28 noviembre 2017]. Disponible en: https://dialnet.unirioja.es/servlet/tesis?codigo=39902

MCCALLUM, S.H., 2017. BIBFRAME Developement. JLIS.it [en línea], vol. 8, no. 3, pp. 71-85. [Consulta: 28 noviembre 2017]. ISSN-e 2038-1026. Disponible en: https://dialnet.unirioja.es/servlet/articulo?codigo=6119076

Enrique Téllez 30 nov 2017 (MST)