Building an institutional author search tool

De TallerDocumental on Wiki
Revisión del 10:41 26 nov 2019 de AsensioC (discusión | contribuciones) (Resumen detallado)
Saltar a: navegación, buscar

RESUMEN ORIGINAL

Ability to collect time-specific lists of faculty publications has become increasingly important for academic departments. At OHSU publication lists had been retrieved manually by a librarian who conducted literature searches in bibliographic databases. These searches were complicated and time consuming, and the results were large and difficult to assess for accuracy. The OHSU library has built an open web page that allows novices to make very sophisticated institution-specific queries. The tool frees up library staff, provides users with an easy way of retrieving reliable local publication information from PubMed, and gives an opportunity for more sophisticated users to modify the algorithm or dive into the data to better understand nuances from a strong jumping off point.

Resumen detallado

En todas las universidades, cada departamento quiere conocer cuántas publicaciones han publicado sus profesores e investigadores durante un periodo de tiempo determinado. En la Universidad de Ciencias de las Salud de Oregon (OHSU), estas preguntas se manejaban manualmente, recayendo toda la responsabilidad y el trabajo en manos del bibliotecario ya que tenía que buscar manualmente en varias bases de datos de publicaciones, al hacerlo de esa forma, por mucho que el bibliotecario intentara acotar al máximo sus búsquedas, los resultados siempre eran amplios y difíciles de manejar. Por esa razón se llevó a cabo el reto de desarrollar estrategias de búsqueda para poder conseguir datos precisos y relevantes. En este articulo se intentan abordar los problemas que tienen las bases de datos de publicaciones y los esfuerzos que se han hecho para intentar abordarlos. Además, se desarrolló una herramienta de búsqueda aumentada que aligera la carga y normaliza el proceso en el campus, la herramienta está abierta y se puede personalizar fácilmente para otras instituciones. Los problemas que se identificaron fueron 3:


  • Quién: qué autores se consideran parte del departamento académico

El reto que se considera más difícil es identificar qué artículos deben contarse en los índices de publicaciones. Muchas de esas publicaciones incluyen la afiliación organizacional de los autores, y algunos de ellos al tener varias organizaciones las nombran todas o algunas de ellas, a todo esto, hay que añadir la temporalidad ya que las personas a veces cambian de organización y no hay ningún seguimiento de quién formó parte de esa organización o hasta cuándo. Para solucionar este problema se podrían hacer las búsquedas directamente por e nombre del autor, pero si todos usaran identificadores ORCID, porque si no es el caso, surgen problemas con personas que tienen el mismo nombre.

  • Qué: qué fuente se está utilizando para encontrar todas las publicaciones

Este problema está determinando una fuente autorizada de lo que se ha publicado. No hay una sola fuente a la que referirse para todas las publicaciones de una institución. OHSU, por ejemplo, ofrece una amplia selección de publicaciones, pero no abarca todos los formatos posibles, por lo tanto, hay recursos que no se contarán en ningún recuento de publicaciones de OHSU.

  • Cuándo: cuál de las muchas fechas asociadas con la publicación se está buscando

Los editores a menudo “pre-publican” un artículo y luego lo publican oficialmente, eso significa que los datos pueden ir cambiando y actualizarse, el problema que surge con esto es que una persona que cuente mensualmente las publicaciones de una organización puede contar más de una vez el mismo artículo en meses diferentes, para poder evitar este problema se tendrían que controlar los artículos de forma individual.

Proceso previo

Antes de desarrollar la nueva herramienta, la Biblioteca de OHSU creó manualmente una lista de publicaciones creadas por la propia facultad ejecutando una actualización mensual para las afiliaciones de OHSU en PubMed y Scopus. Lo que se quería conseguir era identificar y eliminar duplicaciones entre las dos bases de datos y mover las versiones más nuevas de los artículos para reemplazar cualquier versión existente en RefWorks. Llevar a cabo este proceso fue insostenible para la biblioteca, por lo que la facultad decidió aumentar las búsquedas de las personas para aproximar parte de la normalización realizada en el proceso manual. Para resolver el problema del “qué”, la herramienta utilizaría un índice de publicación existente, el que se eligió fue PubMed, en el caso del problema del “cuándo” se dejó en manos del buscador individual, no se abordó el problema a nivel institucional. Pero el gran problema sin duda fue como afrontar el problema de “quién”. El gran problema era cómo abordar el problema de «Quién». La búsqueda de personas específicas está llena de dificultades, ya que las personas cambian de nombre y a menudo tienen nombres idénticos con los demás. Nuestro enfoque es solo buscar personas después de que tengamos una búsqueda limitada por el alcance por institución. Trabajamos con los Registradores y las oficinas de Recursos Humanos para obtener una lista de las personas y su unidad organizativa principal dentro de la institución. La idea era esencialmente extraer una lista de las publicaciones más probables de OHSU de PubMed y luego intentar hacer coincidir los nombres con las listas de los Registradores y Recursos Humanos. Además, tenemos un problema con artículos más antiguos, donde es más probable que un autor ya no esté asociado con OHSU y, por lo tanto, no esté en la lista «maestra» proporcionada por los Registradores y Recursos Humanos.

Método automatizado

El servicio que se ha creado utiliza una pila LAMP (Linux, Apache, MySQL, PHP). Destacamos PHP, que se utiliza para consultar API de PubMed para obtener información de citas y MySQL para la consulta de una base de datos local que se extrae de los datos disponibles de Recursos Humanos, y Registradores de la institución. En cuanto al lenguaje de programación web también se eligió PHP, y para los datos personales MySQL. Con el formulario los usuarios hacen sus consultas, y lo que hace es comparar los resultados con los datos de personas disponibles y devuelve esos resultados a los usuarios. Éstos pueden realizar sus búsquedas desde el nombre del autor, título de la revista, rango de fecha de publicación, etc. Además, también hay campos adicionales, esos campos ingresados por el usuario se mandan a esa consulta base y se envían a la API de eSearch de PubMed al presionar “Buscar” en el formulario. La API devuelve esos resultados con una tabla páginada a la derecha del formulario de búsqueda, los usuarios tienen la posibilidad de “hacer coincidir los departamentos de OHSU”, en el que se intenta coincidir los nombres del autor del conjunto de resultados PubMed, con la base de datos de la institución y los nombres que coinciden aparecen en negrita. El formulario es 'self-POSTing' en el sentido de que todos los campos de búsqueda modificados se construyen como una cadena de consulta URI. Esto significa que los enlaces a conjuntos de resultados específicos son completamente portátiles o incluso completamente personalizables fuera del uso del formulario en sí para la entrada. Esto hace que los conjuntos de resultados enlatados sean fáciles de construir con la herramienta.

Lecciones aprendidas

Sobre los autores