En la mayoría de las colecciones digitales la única forma en la que un usuario puede acceder a un objeto digital es a través de sus metadatos. Si éstos no son precisos o contienen información inapropiada o incompleta, los usuarios no podrán acceder a los objetos digitales, y todo el esfuerzo de los proveedores por ponerlos a su disposición habrá sido en vano.

La importancia de la calidad de los metadatos  se pone de manifiesto con la creación dentro de Europeana de un Comité de Calidad de los Datos, que trabaja en los distintos aspectos de la misma, con especial hincapié en la búsqueda y reutilización de los objetos digitales del patrimonio cultural.

En este contexto, y tomando como punto de partida la hipótesis de que es posible medir algunos factores de la calidad de los datos a través de herramientas informáticas, Péter Király ha desarrollado su proyecto “A Metadata Quality Assurance Framework”, un Marco para el Control de la Calidad de los Metadatos, siendo éste uno de los primeros resultados del mencionado Comité.

Su objetivo es establecer – en el marco de Europeana – una metodología que valore los registros existentes y los nuevos datos entrantes,  comparar dichos datos con los requisitos de calidad, proporcionar a la comunidad de Europeana un panel de métricas que muestre los datos y su evolución histórica, así como facilitar consejos y sugerencias a los creadores de datos, a los agregadores y a los diferentes equipos de Europeana.

Los pasos de la garantía de la calidad de los metadatos
Los pasos de la garantía de la calidad de los metadatos

Para ello, en su investigación, Király toma los siguientes indicadores de calidad:

  • Grado de cumplimentación (nivel de detalle): la ratio de campos completos e incompletos. Los metadatos deben describir el recurso de la forma más completa posible.
  • Precisión: la información sobre el recurso en los metadatos debe ser lo más precisa y correcta posible (los errores tipográficos, por ejemplo, y la precisión en campos como el título y la descripción afectan a este indicador de calidad)
  • Cumplimiento de las expectativas: grado en el que los metadatos cumplen los requisitos de una determinada comunidad de usuarios para encontrar, seleccionar y obtener recursos adecuados a los objetivos.
  • Coherencia y consistencia lógica: los metadatos deben ser consistentes con las normas y tener coherencia interna, es decir que todos los campos describan el mismo recurso.
  • Accesibilidad: los metadatos que no puedan ser leídos o comprendidos, (por programas informáticos o por humanos según corresponda) no tienen ningún valor.
  • Pertinencia temporal (vigencia): los metadatos deben cambiar cuando cambie el objeto descrito.
  • Procedencia: la fuente de los metadatos puede ser otro factor para determinar su calidad: quién lo crea, nivel de experiencia, metodologías seguidas… pueden indicar niveles de calidad de los metadados.

Los resultados obtenidos de la primera muestra estadística realizada con los datos de Europeana, están disponibles públicamente y permiten ver y analizar dichos datos agrupados en tres conceptos:

  • frecuencia de disponibilidad de los campos
  • cardinalidad de los campos
  • frecuencia lingüística,

Si bien se trata de un proyecto de investigación en el que los resultados son experimentales y pueden ser objeto de cambio,  desde esta página de resultados, cada proveedor puede revisar hasta qué punto sus metadatos están cumplimentados. Para ello, presenta tablas con los porcentajes de cumplimentación por cada uno de los campos, pudiéndose visualizar los resultados organizados por proveedor de datos, o por datasets.

A continuación vemos algunos ejemplos:

En el ejemplo 1 analizamos el porcentaje de cumplimentación del campo dc:title. Los resultados nos muestran que los proveedores que se ven en la imagen de este ejemplo, tienen este dato cumplimentado en el 100% de sus objetos digitales.

Calidad de los metadatos: frecuencia de los campos. Campo dc:title
Ejemplo 1: Calidad de los metadatos: frecuencia de los campos. Campo dc:title

En el ejemplo 2 analizamos el porcentaje de cumplimentación del campo dc:rights. Los resultados nos muestran que el porcentaje de cumplimentación de este campo varía según los proveedores de datos. Destaca que algunos proveedores no aportan nunca este dato y otros lo hacen con muy poca frecuencia.

Calidad de los metadatos: frecuencia de los campos. Campo dc:rights
Ejemplo 2: Calidad de los metadatos: frecuencia de los campos. Campo dc:rights

En el ejemplo 3 destacamos el acceso al estudio de los datos completos de cada proveedor de datos. Se ofrece una tabla con 3.554 proveedores de datos, desde la cual se puede acceder al estudio completo de cada proveedor según los criterios establecidos en este proyecto:

Calidad de los metadatos: acceso al estudio de los datos de un proveedor concreto. Ejemplo de la Biblioteca Virtual de Prensa Histórica
Ejemplo 3: Calidad de los metadatos: acceso al estudio de los datos de un proveedor concreto. Ejemplo de la Biblioteca Virtual de Prensa Histórica

Los proveedores de datos disponen por tanto, en esta herramienta, de un recurso muy útil del que servirse para revisar el grado de cumplimentación de sus datos y tomar las medidas oportunas de cara a mejorar la calidad de los metadatos aportados.

Recursos:
Anuncios