Diferencia entre revisiones de «Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement»

De TallerDocumental on Wiki
Saltar a: navegación, buscar
(Metadatos)
Línea 29: Línea 29:
 
BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc.  
 
BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc.  
  
La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos.  
+
La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos. Se han desarrollado varios códigos o scripts para que realicen tareas específicas como el procesamiento del lenguaje natural, el análisis del texto o la recolección de datos de código abierto.
  
 
=== Información extraída de Wikidata ===
 
=== Información extraída de Wikidata ===

Revisión del 11:07 28 nov 2019

Referencia

Wolfe, E. (2019). Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement. Code{4}lib Journal. (46). Recuperado a partir de https://journal.code4lib.org/articles/14834

Resumen original

The Black Book Interactive Project at the University of Kansas (KU) is developing an expanded corpus of novels by African American authors, with an emphasis on lesser known writers and a goal of expanding research in this field. Using a custom metadata schema with an emphasis on race-related elements, each novel is analyzed for a variety of elements such as literary style, targeted content analysis, historical context, and other areas. Librarians at KU have worked to develop a variety of computational text analysis processes designed to assist with specific aspects of this metadata collection, including text mining and natural language processing, automated subject extraction based on word sense disambiguation, harvesting data from Wikidata, and other actions.

Resumen original traducido

El Proyecto Interactivo de Libros Negros de la Universidad de Kansas (KU) está desarrollando un corpus ampliado de novelas de autores afroamericanos, con énfasis en escritores menos conocidos y con el objetivo de ampliar la investigación en este campo. Utilizando un esquema de metadatos personalizado con énfasis en los elementos relacionados con la raza, cada novela se analiza para una variedad de elementos tales como el estilo literario, el análisis de contenido específico, el contexto histórico y otras áreas. Los bibliotecarios de KU han trabajado para desarrollar una variedad de procesos de análisis de texto computacional diseñados para ayudar con aspectos específicos de esta colección de metadatos, incluyendo la minería de texto y el procesamiento de lenguaje natural, la extracción automatizada de temas basada en la desambiguación del sentido de la palabra, la recolección de datos de Wikidata, y otras acciones.

Resumen detallado

Introducción

El programa de Historia de la cultura negra (HBW) en la Universidad de Kansas, tiene origen en 1983 y su objetivo es aumentar la visibilidad y accesibilidad a obras de autores afroamericanos. Este programa ha creado el Black Book Interactive Project (BBIP) un proyecto enfocado en el acceso computacional a obras de “escritores de comunidades subrepresentadas […] poco estudiados” para su uso en humanidades digitales y proyectos de becas digitales.

HBW ha estado trabajando desde 2012 en el desarrollo de un Biblioteca digital de obras menos conocidas de autores afroamericanos, para aumentar el número de escritos afroamericanos (especialmente los de investigación en humanidades digitales). En colaboración con la Universidad de Chicago y su software Philologic se han producido hasta ahora más de 1.500 novelas digitalizadas.

El objetivo principal es ir más allá de la accesibilidad a los textos creando vías de descubrimiento que permitan identificar las “propiedades específicas de los datos ficticios, la autoría y los elementos epitextuales que hacen de la novela afroamericana una práctica cultural, lingüística y estética distintiva”, dando visibilidad y disponibilidad en línea a la información y usando técnicas precisas de búsqueda y filtrado.

Metadatos

La información que BBIP pretende capturar, normalmente, no se acoge a los estándares de metadatos aceptados actualmente, y, por lo general, está fuera del alcance de la catalogación tradicional. Algunas de estas características están directamente relacionadas con la raza.

Para facilitar el desarrollo de un esquema personalizado HBW en 2014 recibió una subvención del National Endowment for the Humanities. Con esta subvención y la ayuda de sus socios HBW desarrolló una plantilla de metadatos que contiene más de 50 elementos para capturar esta información de manera sistemática y estructurada.

BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc.

La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos. Se han desarrollado varios códigos o scripts para que realicen tareas específicas como el procesamiento del lenguaje natural, el análisis del texto o la recolección de datos de código abierto.

Información extraída de Wikidata

Wikidata sirve como una fuente de datos abierta estructurada, en este contexto se utiliza para recopilar información extratextual sobre el autor.

Tabla 1. Propiedades de muestra para el autor James Baldwin (Q273210).

Utilización:

  1. Utilización de una lista de combinaciones autor/título para consultar las coincidencias con el nombre del autor.
  2. Desambiguamos los resultados verificándolos con la descripción de palabras clave.
  3. De los resultados filtrados buscamos la propiedad P214 (ID de archivo de autoridad internacional virtual (VIAF)).
  4. Después recopilamos la lista asociada de trabajos del autor y la comparamos con la entrada inicial.
  5. Por último, cerciorarnos de que el título de nuestra consulta inicial está en la bibliografía VIAF, si es así, tenemos una coincidencia precisa.
  6. Como añadido, podemos usar pywikibot para cosechar otros campos relevantes de la entrada de Wikidata e incluirlos en los metadatos locales para ese elemento.

Además, podemos usar la lista de títulos de VIAF para expandir una bibliografía de trabajos relacionados.

Aunque el proceso de Wikidata es imperfecto, se suelen lograr, aproximadamente un 47% de coincidencias exitosas. Cuantos más datos de fuentes externas agreguemos mejores resultados obtendremos. Además, la identificación de lagunas en las fuentes de Wikidata puede proporcionar una oportunidad para que BBIP contribuya con la información faltante a Wikidata.

Identificación de temas específicos

Un área destinada al análisis textual por BBIP es la identificación de temas específicos dentro de un texto. Se ha desarrollado un script para mejorar la eficiencia y alcance de la revisión manual.

Para ello se utiliza WordNet de NLTK, una base de datos léxica ampliamente utilizada que relaciona semánticamente las palabras en función de su significado o "sentido".

Figura 1. Definiciones de WordNet del término "música".

Comenzando con una lista generada manualmente de palabras clave relacionadas con un tema específico, filtramos todos los pares de definición/sinónimos devueltos por WordNet para garantizar que solo se incluyan los sentidos que queremos. Este paso de revisión es un proceso manual que solo debe completarse una vez, pero que se puede refinar en cualquier momento. Usamos las relaciones con WordNet para construir un tesauro.

Tabla 2. Muestra de vocabulario de sentido expandido usando WordNet.

Se hace una lista de sinónimos y se pasa cada palabra del texto a través de un algoritmo en WordNet llamado lesk, que determina un significado probable para la palabra dado el contexto en el que aparece. Después se comprar lo que ha devuelto WordNet con nuestra lista de sinónimos. Al final del script, todas las coincidencias positivas se convierten en una tabla html ordenada, que luego puede ser revisada manualmente por el personal de BBIP para determinar qué debe registrarse en el registro de metadatos.

Figura 2. Fragmento de salida HTML de coincidencia de sentidos, de Checkmate y Deathmate, por Martin Ashley (1973).

Funciones adicionales

Identificación de ubicaciones

El entorno y la ubicación son elementos muy importantes para los académicos afroamericanos. Para el reconocimiento de la entidad se siguen los siguientes pasos:

  1. Agrupación de las ciudades, estados, países, etc. Figura 3. Muestra de ubicaciones agrupadas por tipo, de Long Old Road, por Horace Cayton (1965)
  2. Agrupación de ubicaciones de acuerdo con las pautas del Extracto automático de contenido (ACE) de 2005, que clasifica las ubicaciones por tipo conceptual, específicamente: entidad geopolítica, ubicación e instalación.

Figura 4. Muestra de ubicaciones agrupadas según las pautas de ACE, de A Waif – A Prince; o, El triunfo de una madre, por WT Andrews (1895)

Extracción automatizada de palabras clave

Existen varios métodos de procesamiento del lenguaje natural para extraer automáticamente palabras clave de un texto, depende del tipo de texto que estamos tratando (novela, artículos, reseñas…) y de la herramienta que utilicemos.

Se consiguieron mejores resultados utilizando la extracción rápida ya automática de las palabras clave. Para este proyecto, estos resultados se agrupan y se envían a un archivo html para su revisión.

Figura 5. Ejemplo de extracción de palabras clave usando RAKE, de Long Old Road, por Horace Cayton (1965).

Coincidencia con la posesión de HathiTrust

Otra posibilidad que se baraja es la incorporación de la colección digital BBIP en el Centro de Investigación HathiTrust utilizando la herramienta de análisis computacional para examinar los textos. Este proceso implica una limpieza de datos significativa y luego comparar los resultados para encontrar coincidencias muy cercanas. Dado que el archivo de datos HathiTrust es muy grande, la coincidencia precisa puede requerir mucho trabajo, no obstante, se está logrando el 50% de éxito.

Conclusión

Ya que las herramientas accesibles actualmente no están bien diseñadas para las necesidades específicas que busca BBIP, este, ha tenido muchos desafíos. A esto se une que las novelas de BBIP tienen unas características únicas.

Obviando todo lo anterior, se ha tenido éxito en el objetivo principal: proporcionar métodos para ayudar al personal o los investigadores de BBIP a extraer tipos específicos de información de un texto, así como a recolectar datos abiertos de fuentes externas y proporcionar estos datos de una manera fácil para acceder al formato.

El procesamiento del lenguaje natural y el aprendizaje automático aplicados al texto están creciendo rápidamente, lo que lleva a plantear nuevos enfoques en el análisis computacional de los textos.

Comentario personal documentado

Referencias bibliográficas