Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement

De TallerDocumental on Wiki
Revisión del 23:41 27 nov 2019 de SalinasL (discusión | contribuciones) (Página creada con «== Referencia == Wolfe, E. (2019). Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement. Code{4}lib Journal. (46). Recuperado a pa…»)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Saltar a: navegación, buscar

Referencia

Wolfe, E. (2019). Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement. Code{4}lib Journal. (46). Recuperado a partir de https://journal.code4lib.org/articles/14834

Resumen original

The Black Book Interactive Project at the University of Kansas (KU) is developing an expanded corpus of novels by African American authors, with an emphasis on lesser known writers and a goal of expanding research in this field. Using a custom metadata schema with an emphasis on race-related elements, each novel is analyzed for a variety of elements such as literary style, targeted content analysis, historical context, and other areas. Librarians at KU have worked to develop a variety of computational text analysis processes designed to assist with specific aspects of this metadata collection, including text mining and natural language processing, automated subject extraction based on word sense disambiguation, harvesting data from Wikidata, and other actions.

Resumen original traducido

El Proyecto Interactivo de Libros Negros de la Universidad de Kansas (KU) está desarrollando un corpus ampliado de novelas de autores afroamericanos, con énfasis en escritores menos conocidos y con el objetivo de ampliar la investigación en este campo. Utilizando un esquema de metadatos personalizado con énfasis en los elementos relacionados con la raza, cada novela se analiza para una variedad de elementos tales como el estilo literario, el análisis de contenido específico, el contexto histórico y otras áreas. Los bibliotecarios de KU han trabajado para desarrollar una variedad de procesos de análisis de texto computacional diseñados para ayudar con aspectos específicos de esta colección de metadatos, incluyendo la minería de texto y el procesamiento de lenguaje natural, la extracción automatizada de temas basada en la desambiguación del sentido de la palabra, la recolección de datos de Wikidata, y otras acciones.

Resumen detallado

Introducción

El programa de Historia de la cultura negra (HBW) en la Universidad de Kansas, tiene origen en 1983 y su objetivo es aumentar la visibilidad y accesibilidad a obras de autores afroamericanos. Este programa ha creado el Black Book Interactive Project (BBIP) un proyecto enfocado en el acceso computacional a obras de “escritores de comunidades subrepresentadas […] poco estudiados” para su uso en humanidades digitales y proyectos de becas digitales.

HBW ha estado trabajando desde 2012 en el desarrollo de un Biblioteca digital de obras menos conocidas de autores afroamericanos, para aumentar el número de escritos afroamericanos (especialmente los de investigación en humanidades digitales). En colaboración con la Universidad de Chicago y su software Philologic se han producido hasta ahora más de 1.500 novelas digitalizadas. El objetivo principal es ir más allá de la accesibilidad a los textos creando vías de descubrimiento que permitan identificar las “propiedades específicas de los datos ficticios, la autoría y los elementos epitextuales que hacen de la novela afroamericana una práctica cultural, lingüística y estética distintiva”, dando visibilidad y disponibilidad en línea a la información y usando técnicas precisas de búsqueda y filtrado.

Metadatos

La información que BBIP pretende capturar, normalmente, no se acoge a los estándares de metadatos aceptados actualmente, y, por lo general, está fuera del alcance de la catalogación tradicional. Algunas de estas características están directamente relacionadas con la raza.

Para facilitar el desarrollo de un esquema personalizado HBW en 2014 recibió una subvención del National Endowment for the Humanities. Con esta subvención y la ayuda de sus socios HBW desarrolló una plantilla de metadatos que contiene más de 50 elementos para capturar esta información de manera sistemática y estructurada.

BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc. La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos.

Código

Se han desarrollado varios códigos o scripts para que realicen tareas específicas como el procesamiento del lenguaje natural, el análisis del texto o la recolección de datos de código abierto.

Información extraída de Wikidata

Wikidata sirve como una fuente de datos abierta estructurada, en este contexto se utiliza para recopilar información extratextual sobre el autor.