Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement

De TallerDocumental on Wiki
Saltar a: navegación, buscar

Referencia

Wolfe, E. (2019). Natural Language Processing in the Humanities: A Case Study in Automated Metadata Enhancement. Code{4}lib Journal, (46). Recuperado de https://journal.code4lib.org/articles/14834

Resumen original

The Black Book Interactive Project at the University of Kansas (KU) is developing an expanded corpus of novels by African American authors, with an emphasis on lesser known writers and a goal of expanding research in this field. Using a custom metadata schema with an emphasis on race-related elements, each novel is analyzed for a variety of elements such as literary style, targeted content analysis, historical context, and other areas. Librarians at KU have worked to develop a variety of computational text analysis processes designed to assist with specific aspects of this metadata collection, including text mining and natural language processing, automated subject extraction based on word sense disambiguation, harvesting data from Wikidata, and other actions.

Resumen original traducido

El Proyecto Interactivo de Libros Negros de la Universidad de Kansas (KU) está desarrollando un corpus ampliado de novelas de autores afroamericanos, con énfasis en escritores menos conocidos y con el objetivo de ampliar la investigación en este campo. Utilizando un esquema de metadatos personalizado con énfasis en los elementos relacionados con la raza, cada novela se analiza para una variedad de elementos tales como el estilo literario, el análisis de contenido específico, el contexto histórico y otras áreas. Los bibliotecarios de KU han trabajado para desarrollar una variedad de procesos de análisis de texto computacional diseñados para ayudar con aspectos específicos de esta colección de metadatos, incluyendo la minería de texto y el procesamiento de lenguaje natural, la extracción automatizada de temas basada en la desambiguación del sentido de la palabra, la recolección de datos de Wikidata, y otras acciones.

Resumen detallado

Introducción

El programa de Historia de la cultura negra (HBW) en la Universidad de Kansas, tiene origen en 1983 y su objetivo es aumentar la visibilidad y accesibilidad a obras de autores afroamericanos. Este programa ha creado el Black Book Interactive Project (BBIP) un proyecto enfocado en el acceso computacional a obras de “escritores de comunidades subrepresentadas […] poco estudiados” para su uso en humanidades digitales y proyectos de becas digitales.

HBW ha estado trabajando desde 2012 en el desarrollo de un Biblioteca digital de obras menos conocidas de autores afroamericanos, para aumentar el número de escritos afroamericanos (especialmente los de investigación en humanidades digitales). En colaboración con la Universidad de Chicago y su software Philologic se han producido hasta ahora más de 1.500 novelas digitalizadas.

El objetivo principal es ir más allá de la accesibilidad a los textos creando vías de descubrimiento que permitan identificar las “propiedades específicas de los datos ficticios, la autoría y los elementos epitextuales que hacen de la novela afroamericana una práctica cultural, lingüística y estética distintiva”, dando visibilidad y disponibilidad en línea a la información y usando técnicas precisas de búsqueda y filtrado.

Metadatos

La información que BBIP pretende capturar, normalmente, no se acoge a los estándares de metadatos aceptados actualmente, y, por lo general, está fuera del alcance de la catalogación tradicional. Algunas de estas características están directamente relacionadas con la raza.

Para facilitar el desarrollo de un esquema personalizado HBW en 2014 recibió una subvención del National Endowment for the Humanities. Con esta subvención y la ayuda de sus socios HBW desarrolló una plantilla de metadatos que contiene más de 50 elementos para capturar esta información de manera sistemática y estructurada.

BBIP genera manualmente los metadatos, empleando los siguientes métodos: lectura rápida o secciones de lectura cercana del texto, búsqueda de palabras clave, búsquedas generales en la web, investigación en línea dirigida, etc.

La minuciosidad de este enfoque es la única forma realista de lograr el nivel de especificidad deseado por BBIP para este material, aunque el proceso requiere muchos recursos. Se han desarrollado varios códigos o scripts para que realicen tareas específicas como el procesamiento del lenguaje natural, el análisis del texto o la recolección de datos de código abierto.

Información extraída de Wikidata

Wikidata sirve como una fuente de datos abierta estructurada, en este contexto se utiliza para recopilar información extratextual sobre el autor.

Utilización:

  1. Utilización de una lista de combinaciones autor/título para consultar las coincidencias con el nombre del autor.
  2. Desambiguamos los resultados verificándolos con la descripción de palabras clave.
  3. De los resultados filtrados buscamos la propiedad P214 (ID de archivo de autoridad internacional virtual (VIAF)).
  4. Después recopilamos la lista asociada de trabajos del autor y la comparamos con la entrada inicial.
  5. Por último, cerciorarnos de que el título de nuestra consulta inicial está en la bibliografía VIAF, si es así, tenemos una coincidencia precisa.
  6. Como añadido, podemos usar pywikibot para cosechar otros campos relevantes de la entrada de Wikidata e incluirlos en los metadatos locales para ese elemento.

Además, podemos usar la lista de títulos de VIAF para expandir una bibliografía de trabajos relacionados.

Aunque el proceso de Wikidata es imperfecto, se suelen lograr, aproximadamente un 47% de coincidencias exitosas. Cuantos más datos de fuentes externas agreguemos mejores resultados obtendremos. Además, la identificación de lagunas en las fuentes de Wikidata puede proporcionar una oportunidad para que BBIP contribuya con la información faltante a Wikidata.

Identificación de temas específicos

Un área destinada al análisis textual por BBIP es la identificación de temas específicos dentro de un texto. Se ha desarrollado un script para mejorar la eficiencia y alcance de la revisión manual.

Para ello se utiliza WordNet de NLTK, una base de datos léxica ampliamente utilizada que relaciona semánticamente las palabras en función de su significado o "sentido".

Comenzando con una lista generada manualmente de palabras clave relacionadas con un tema específico, filtramos todos los pares de definición/sinónimos devueltos por WordNet para garantizar que solo se incluyan los sentidos que queremos. Este paso de revisión es un proceso manual que solo debe completarse una vez, pero que se puede refinar en cualquier momento. Usamos las relaciones con WordNet para construir un tesauro.

Se hace una lista de sinónimos y se pasa cada palabra del texto a través de un algoritmo en WordNet llamado lesk, que determina un significado probable para la palabra dado el contexto en el que aparece. Después se comprar lo que ha devuelto WordNet con nuestra lista de sinónimos. Al final del script, todas las coincidencias positivas se convierten en una tabla html ordenada, que luego puede ser revisada manualmente por el personal de BBIP para determinar qué debe registrarse en el registro de metadatos.

Funciones adicionales

Identificación de ubicaciones

El entorno y la ubicación son elementos muy importantes para los académicos afroamericanos. Para el reconocimiento de la entidad se siguen los siguientes pasos:

  1. Agrupación de las ciudades, estados, países, etc.
  2. Agrupación de ubicaciones de acuerdo con las pautas del Extracto automático de contenido (ACE) de 2005, que clasifica las ubicaciones por tipo conceptual, específicamente: entidad geopolítica, ubicación e instalación.

Extracción automatizada de palabras clave

Existen varios métodos de procesamiento del lenguaje natural para extraer automáticamente palabras clave de un texto, depende del tipo de texto que estamos tratando (novela, artículos, reseñas…) y de la herramienta que utilicemos.

Se consiguieron mejores resultados utilizando la extracción rápida y automática de las palabras clave. Para este proyecto, estos resultados se agrupan y se envían a un archivo html para su revisión.

Coincidencia con la posesión de HathiTrust

Otra posibilidad que se baraja es la incorporación de la colección digital BBIP en el Centro de Investigación HathiTrust utilizando la herramienta de análisis computacional para examinar los textos. Este proceso implica una limpieza de datos significativa y luego comparar los resultados para encontrar coincidencias muy cercanas. Dado que el archivo de datos HathiTrust es muy grande, la coincidencia precisa puede requerir mucho trabajo, no obstante, se está logrando el 50% de éxito.

Conclusión

Ya que las herramientas accesibles actualmente no están bien diseñadas para las necesidades específicas que busca BBIP, este, ha tenido muchos desafíos. A esto se une que las novelas de BBIP tienen unas características únicas.

Obviando todo lo anterior, se ha tenido éxito en el objetivo principal: proporcionar métodos para ayudar al personal o los investigadores de BBIP a extraer tipos específicos de información de un texto, así como a recolectar datos abiertos de fuentes externas y proporcionar estos datos de una manera fácil para acceder al formato.

El procesamiento del lenguaje natural y el aprendizaje automático aplicados al texto están creciendo rápidamente, lo que lleva a plantear nuevos enfoques en el análisis computacional de los textos.

Comentario personal documentado

El Black Book Interactive Project me parece un proyecto pionero, con un trasfondo muy importante, ya que reducir o eliminar la brecha digital es uno de los objetivos de las tecnologías de información y comunicación (TIC) y de la disciplina da la información y la documentación. Sobre el Black Book Interactive Project<ref>University of Kansas (s.f.). Black Book Interactive Project. College of Liberal Arts and Sciences, Department of English. Recuperado de https://bbip.ku.edu/</ref> no existe mucha documentación, pero si sobre cuestiones que le atañen como son el procesamiento del lenguaje natural o la brecha digital.

Pienso que, aunque el procesamiento del lenguaje natural sea una tarea complicada, y más aún en materias tan específicas como puede ser la literatura negra, estamos cada vez más cerca de crear una herramienta que sea capaz de recolectar todos los metadatos de los textos y novelas de los autores afroamericanos. Un claro ejemplo de lo anterior son las herramientas de Wikidata <ref>Wikidata (2019). Wikidata Main Page. Recuperado de https://www.wikidata.org/wiki/Wikidata:Main_Page</ref> y HathiTrust<ref>HathiTrust (2008). HathiTrust About. Recuperado de https://www.hathitrust.org/about</ref>, ya que sin ser herramientas especializadas en las necesidades del proyecto Black Book Intercative Project logran alrededor de un 50% de éxito.

Dichas herramientas de Procesamiento de Lenguaje Natural <ref>Cortez, A., Vega, H. y Pariona, J. (2009). Procesamiento del lenguaje natural. Revista de Ingeniería de Sistema e Informática, 6(2), 45-55. Recuperado de http://200.62.146.19/bibvirtual/Publicaciones/risi/2009_n2/v6n2/a06v6n2.pdf</ref> no deben perder de vista dos objetivos esenciales:

  1. Objetivo: Facilitar la comunicación con la computadora para que accedan a ella usuarios no especializados.
  2. Objetivo: Modelar los procesos cognoscitivos que entran en juego en la comprensión del lenguaje para diseñar sistemas que realicen tareas lingüísticas complejas (traducción, resúmenes de textos, recuperación de información, etc.)

La brecha digital <ref>Camacho, K. (2005). La brecha digital. Palabras en juego: enfoques multiculturales sobre las sociedades de la información, 61-71. Recuperado de https://analfatecnicos.net/archivos/96.LaBrechaDigital-PalabrasEnJuego-KenlyCamacho.pdf </ref> es un espejo de la brecha social, la relación entre tecnología y desarrollo (social, económico, etc.) es vista frecuentemente como una relación lineal.

La brecha digital tiene en cuenta fundamentalmente los siguientes tres aspectos:

  1. La infraestructura: disposición o no de maquinas y computadoras conectadas a la red.
  2. La capacitación: habilidad, capacidad y/o dificultad de usar las tecnologías.
  3. Uso de los recursos: limitación/disponibilidad de utilizar los recursos de la red.

Como reflexión final se puede decir que el buen uso de las herramientas de Procesamiento del Lenguaje Natural puede ayudar a proyectos como el Black Book Interactive Project de la Universidad de Kansas a romper la brecha digital de grupos sociales no privilegiados.

Referencias bibliográficas