teléfono 916 591 311 email normadat@normadat.es
Ciudad del Vaticano Photo by Chad Greiter on Unsplash

Archivo Secreto Vaticano y Machine Learning

El Archivo Secreto Vaticano es posiblemente el archivo más fascinante del mundo. En sus más de 85 km lineales de estantería se acumulan unos 150.000 ejemplares que contienen retazos de la historia desde el siglo VIII hasta nuestros días, pero, hasta ahora, no podíamos conocerlo.


Entre sus estanterías podemos encontrar más de 600 colecciones de archivos en los que se documentan procesos como el que terminó con la orden del Temple, el proceso que llevó a la muerte a Galileo, las cartas de Lutero al Papa o la división del Cristianismo Católico con el cisma de Avignon, por citar algunos ejemplos.
Es un archivo “secreto” porque el término procede de la antigua palabra latina “Secretum” que significa “personal”. De esta manera el Archivo Secreto Vaticano no es más que el archivo personal del Pontífice, lo que no es poca cosa. Si tenemos en cuenta el poder tanto político como espiritual que en los siglos precedentes ha tenido (y sigue teniendo) esta figura, podemos comprender la importancia de los documentos custodiados en su archivo personal.


Sabiendo el impresionante patrimonio que ostenta dicho archivo, muchos de vosotros os preguntaréis donde se puede consultar. Pinchad aquí, ahora bien, os adelanto que os va a decepcionar si lo que pretendéis es bucear por todas sus colecciones y legajos sin límite.  
Solo unas pocas miles de páginas han sido digitalizadas y puestas a disposición del público general. Si queremos consultar su vasto archivo sin restricciones, debemos obtener el permiso de investigador, trasladarnos hasta el Vaticano y consultar manualmente, uno a uno, los libros o códices que nos puedan interesar. Presuponiendo, claro está, que somos expertos paleográficos y consumados lingüistas de latín antiguo, entre otras lenguas. No parece sencillo, ¿verdad?


¿Qué puede ofrecer el progreso ante esta situación?


En una época en la que tanto se habla de Transformación Digital es lógico presuponer que este magnífico patrimonio también se transforme y toda la humanidad pueda disfrutar y conocer los textos que se esconden entre los muros del bunker situado debajo del Patio de la Piña, en el corazón de la Ciudad del Vaticano. Pero para lograr esta transformación digital hace falta que las técnicas tradicionales de OCR mejoren, y mucho. El OCR o Reconocimiento Óptico de Caracteres (por sus siglas en inglés) es una técnica capaz de dividir las palabras en una serie de imágenes de letras. Lo que hace está técnica es coger la palabra, buscar espacios entre letras e individualizar los caracteres de cada una de las letras para poder compararlas con su banco de imágenes. Estas letras-imágenes son procesadas y la computadora nos devuelve la letra que más se ajusta a la imagen que guarda en su base de datos, a través del código para el intercambio de información ASCII, que es el que hace posible la búsqueda del texto.  
En otras palabras, el OCR descompone la palabra en letras y las compara con lo que tiene en su base de datos para ofrecernos el mejor resultado.


Pero, ¿qué ocurre con este tipo de texto?


Muchos textos antiguos están escritos con una caligrafía en la que los caracteres están muy unidos entre sí y no disponen de espacio entre letras por lo que una letra puede ser, por ejemplo, una “m” o la unión de una “n” y una “i”. Además que los textos están llenos de abreviaturas técnicas en palabras compuestas de caracteres poco conocidos y con habituales zonas “sucias”  debido a emborronados, uniones de letras anómalas etc.
El OCR tradicional, por tanto, se encuentra ante un grave problema con este tipo de textos.


Si quisiéramos lograr una lectura y transcripción adecuada con las técnicas OCR conocidas necesitaríamos mucha capacidad de cómputo pues habría que enseñar a la máquina, en lugar de con limitadas letras, con palabras y sus variantes casi infinitas. Habría que decirle uno por uno todos los casos en los que puede aparecer una palabra y sus distintas formas caligráficas y variantes para acumular todos estos ejemplos en un banco de memoria gigantesco. Por no hablar del ejercito de académicos que deberían repasar cada uno de los textos para encontrar palabras tipo para “dar de comer” a la máquina y revisar sus resultados. No parece en absoluto práctico.

 

El nacimiento del Proyecto “In Codice Ratio”



Este proyecto, liderado por profesionales de la Universidad Roma Trè, de la Università La Sapienza di Roma y del Archivo Vaticano, nace con el objetivo de desarrollar nuevos métodos y herramientas que logren llegar donde las técnicas actuales no han llegado y posibiliten el estudio de todas estas grandes fuentes de conocimiento del pasado.

Para ello han puesto el foco de atención en un sistema que transcriba automáticamente el contenido de los textos manuscritos de una manera ágil.


En este proyecto dan una vuelta de tuerca a la descomposición de la palabra en letras simples. Para alcanzar su objetivo, han logrado que la secuencia observada (o palabra) sea fraccionada en segmentos o trazos que, al unirse de diversas maneras, ofrezcan como resultado un conjunto finito de unidades posibles (o letras) y evitar de esta forma la paradoja de Sayre. Esta paradoja dice que “una palabra no puede ser segmentada sin antes ser reconocida y no puede ser reconocida sin antes haber sido segmentada”. Para ello trabajan con trazos manuscritos y no con letras. En vez de segmentar letras el OCR segmenta trazos que localiza gracias a la cantidad de tinta utilizada en la escritura. Al digitalizarse esta tinta se sustituye por pixeles por pulgadas (ppp), es decir hay tramos en una misma palabra que son más gruesos y otros más finos. El OCR coge estos tramos y los separa como si de piezas de un puzle se trataran y luego los junta de distintas manera haciendo diferentes posibles letras.

 



A lo que hay que enseñar a la máquina es a discernir cuales de estos trazos son reales y cuales falsos. Para esta tarea se sirvieron de un “ejercito” de estudiantes de secundaria que le decían a la máquina cuando una letra era acertada o cuando no creándose así una base de datos lo suficientemente amplia para que la máquina estuviera en condiciones de aprender a partir de ahí por ella misma gracias a técnicas de Machine Learning.


Pero aún quedaba un escollo del que hemos hablado anteriormente. Los textos manuscritos no son siempre iguales y a veces una letra puede ser otra. Como antes decíamos una “m” bien pudiera ser una “n” y una “i” juntas. La inteligencia artificial aún necesitaba saber en qué posición y qué letras son más susceptibles de corresponder a determinados caracteres según la palabra o palabras que los contengan con un sentido dentro del texto. Es decir, había que determinar qué combinaciones de letras son comunes y cuáles nunca ocurren. Para ellos “alimentaron” al OCR con más de 18.000 páginas de los Archivos Secretos al estilo captcha (salvando las distancias) para que pudiera asignar probabilidades a diferentes cadenas de letras y aprender así a que es mucho más fácil que una letra “m” sea una “m” y no una “iii”.
De esta manera pudieron entregar resultados preliminares donde podemos ver las transcripciones que la máquina hizo de una serie de palabras asignando el término correcto que creía que era y, además, sus posibles alteraciones en la transcripción de la palabra. Por ejemplo para la palabra manuscrita “octauo” el término al que se refirió fue “octavo” aunque también ofreció un ranking con otras tres posibles palabras (1: icinio - 2: ocinio - 3: cicinio). Esto servía para facilitar la lectura y estudio de los investigadores de una forma sencilla ya que les ayudaba, pese a que la máquina no diera con la palabra correcta, al facilitarles un ranking de posibles variaciones de la palabra. 


Lo apasionante de este proyecto es la capacidad de absorción de diversas técnicas modernas como el Machine Learning, el OCR, la digitalización a través de rayos x para no dañar ni manipular los documentos originales y hasta de nuevas formas de financiación como el crowdsourcing para unirse y dar solución a un problema que pronto dejará de serlo y abrirá nuevas puertas al desarrollo tecnológico, a la vez que nos abrirá las puertas del conocimiento del pasado.


Es de suponer que, como toda la inteligencia artificial, el software mejorará sus resultados con el tiempo y quizá dentro de muy poco el Archivo Secreto Vaticano siga siendo “secreto” y a su vez, ya por fin, de dominio público.


Y si, a esto, le sumamos el componente de la tecnología blockchain y sus posibilidades en el mundo de los archivos que posibiliten la preservación de formato de la transcripción y su no manipulación, nos acercaremos a un horizonte tecnológico esperanzador para el estudio de la historia.

 

Comunicaciones Normadat

Sector
Área
Please wait

Artículos más leídos

Últimos Tweets

Especialidad Normadat

Digitalización de documentos, Custodia de backup, Backup online remoto, Custodia de archivos, Montaje de instalaciones de custodia, Organización e inventariado de documentación, Servicios a bibliotecas, Destrucción confidencial certificada, cumplimiento LOPD...

 

Formas de Contacto

Centro de Soporte
Chat ONLINE
Tel: +34 916 591 311
Email: normadat@normadat .es
Website: www.normadat.es

Canales Sociales

   

Certificaciones

Normadat certificada en ISO 9001 de Gestión de Calidad Normadat certificada en ISO 27001 de Gestión de la Seguridad de la Información
Normadat servicio certificado Destrucción Confidencial Normadat certificada en UNE-EN ISO 14001 GA-2014/0182

Subvenciones

Subvencionados por el programa de impulso a la contratación de jóvenes inscritos en el Fichero del Sistema Nacional de Garantía Juveníl, en el ámbito de la Comunidad de Madrid

Este sitio usa cookies propias y de terceros.

Si no cambias la configuración del navegador, aceptas su uso para tener una mejor experiencia de usuario. Saber más

OK

En Normadat utilizamos cookies propias y de terceros para un correcto funcionamiento del sitio y análisis de navegación para la optimización de la web. Si no cambias la configuración del navegador entendemos que aceptas nuestra Política de Cookies. Url de la política de cookies de normadat: Política de Cookies.