Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement

De TallerDocumental on Wiki
Saltar a: navegación, buscar

Referencia

Wolfe, E. (2019). Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement. Code{4}lib Journal. (46). Recuperado a partir de https://journal.code4lib.org/articles/14834

Resumen original

The Black Book Interactive Project at the University of Kansas (KU) is developing an expanded corpus of novels by African American authors, with an emphasis on lesser known writers and a goal of expanding research in this field. Using a custom metadata schema with an emphasis on race-related elements, each novel is analyzed for a variety of elements such as literary style, targeted content analysis, historical context, and other areas. Librarians at KU have worked to develop a variety of computational text analysis processes designed to assist with specific aspects of this metadata collection, including text mining and natural language processing, automated subject extraction based on word sense disambiguation, harvesting data from Wikidata, and other actions.

Resumen original traducido

El Proyecto Interactivo de Libros Negros de la Universidad de Kansas (KU) está desarrollando un corpus ampliado de novelas de autores afroamericanos, con énfasis en escritores menos conocidos y con el objetivo de ampliar la investigación en este campo. Utilizando un esquema de metadatos personalizado con énfasis en los elementos relacionados con la raza, cada novela se analiza para una variedad de elementos tales como el estilo literario, el análisis de contenido específico, el contexto histórico y otras áreas. Los bibliotecarios de KU han trabajado para desarrollar una variedad de procesos de análisis de texto computacional diseñados para ayudar con aspectos específicos de esta colección de metadatos, incluyendo la minería de texto y el procesamiento de lenguaje natural, la extracción automatizada de temas basada en la desambiguación del sentido de la palabra, la recolección de datos de Wikidata, y otras acciones.

Resumen detallado

Introducción

El programa de Historia de la cultura negra (HBW) en la Universidad de Kansas, tiene origen en 1983 y su objetivo es aumentar la visibilidad y accesibilidad a obras de autores afroamericanos. Este programa ha creado el Black Book Interactive Project (BBIP) un proyecto enfocado en el acceso computacional a obras de “escritores de comunidades subrepresentadas […] poco estudiados” para su uso en humanidades digitales y proyectos de becas digitales.

HBW ha estado trabajando desde 2012 en el desarrollo de un Biblioteca digital de obras menos conocidas de autores afroamericanos, para aumentar el número de escritos afroamericanos (especialmente los de investigación en humanidades digitales). En colaboración con la Universidad de Chicago y su software Philologic se han producido hasta ahora más de 1.500 novelas digitalizadas. El objetivo principal es ir más allá de la accesibilidad a los textos creando vías de descubrimiento que permitan identificar las “propiedades específicas de los datos ficticios, la autoría y los elementos epitextuales que hacen de la novela afroamericana una práctica cultural, lingüística y estética distintiva”, dando visibilidad y disponibilidad en línea a la información y usando técnicas precisas de búsqueda y filtrado.

Metadatos

La información que BBIP pretende capturar, normalmente, no se acoge a los estándares de metadatos aceptados actualmente, y, por lo general, está fuera del alcance de la catalogación tradicional. Algunas de estas características están directamente relacionadas con la raza.

Para facilitar el desarrollo de un esquema personalizado HBW en 2014 recibió una subvención del National Endowment for the Humanities. Con esta subvención y la ayuda de sus socios HBW desarrolló una plantilla de metadatos que contiene más de 50 elementos para capturar esta información de manera sistemática y estructurada.

BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc. La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos.

Código

Se han desarrollado varios códigos o scripts para que realicen tareas específicas como el procesamiento del lenguaje natural, el análisis del texto o la recolección de datos de código abierto.

Información extraída de Wikidata

Wikidata sirve como una fuente de datos abierta estructurada, en este contexto se utiliza para recopilar información extratextual sobre el autor.

Tabla 1. Propiedades de muestra para el autor James Baldwin (Q273210).

Utilización: 1. Utilización de una lista de combinaciones autor/título para consultar las coincidencias con el nombre del autor. 2. Desambiguamos los resultados verificándolos con la descripción de palabras clave. 3. De los resultados filtrados buscamos la propiedad P214 (ID de archivo de autoridad internacional virtual (VIAF)). 4. Después recopilamos la lista asociada de trabajos del autor y la comparamos con la entrada inicial. 5. Por último, cerciorarnos de que el título de nuestra consulta inicial está en la bibliografía VIAF, si es así, tenemos una coincidencia precisa. 6. Como añadido, podemos usar pywikibot para cosechar otros campos relevantes de la entrada de Wikidata e incluirlos en los metadatos locales para ese elemento.

Además, podemos usar la lista de títulos de VIAF para expandir una bibliografía de trabajos relacionados.

Aunque el proceso de Wikidata es imperfecto, se suelen lograr, aproximadamente un 47% de coincidencias exitosas. Cuantos más datos de fuentes externas agreguemos mejores resultados obtendremos. Además, la identificación de lagunas en las fuentes de Wikidata puede proporcionar una oportunidad para que BBIP contribuya con la información faltante a Wikidata.

Identificación de temas específicos

Un área destinada al análisis textual por BBIP es la identificación de temas específicos dentro de un texto. Se ha desarrollado un script para mejorar la eficiencia y alcance de la revisión manual.

Para ello se utiliza WordNet de NLTK, una base de datos léxica ampliamente utilizada que relaciona semánticamente las palabras en función de su significado o "sentido".

Figura 1. Definiciones de WordNet del término "música".

Comenzando con una lista generada manualmente de palabras clave relacionadas con un tema específico, filtramos todos los pares de definición/sinónimos devueltos por WordNet para garantizar que solo se incluyan los sentidos que queremos. Este paso de revisión es un proceso manual que solo debe completarse una vez, pero que se puede refinar en cualquier momento. Usamos las relaciones con WordNet para construir un tesauro.

Tabla 2. Muestra de vocabulario de sentido expandido usando WordNet.

Se hace una lista de sinónimos y se pasa cada palabra del texto a través de un algoritmo en WordNet llamado lesk, que determina un significado probable para la palabra dado el contexto en el que aparece. Después se comprar lo que ha devuelto WordNet con nuestra lista de sinónimos. Al final del script, todas las coincidencias positivas se convierten en una tabla html ordenada, que luego puede ser revisada manualmente por el personal de BBIP para determinar qué debe registrarse en el registro de metadatos.

Figura 2. Fragmento de salida HTML de coincidencia de sentidos, de Checkmate y Deathmate, por Martin Ashley (1973).

Funciones adicionales

Identificación de ubicaciones