Inteligencia artificial al servicio de la búsqueda de datos en los manuscritos históricos
El proyecto Ipuscuako Agiriak permitirá buscar y comparar menciones escritas en las actas de las Juntas Generales y Diputaciones de Gipuzkoa
La inteligencia artificial tiene una gran capacidad de cálculo, pero para ello previamente hay que facilitarle información. Y eso es exactamente lo que han hecho desde los Archivos Históricos Forales de Gipuzkoa; darle 220.000 páginas digitalizadas de actas de las Juntas Generales y Diputaciones de Gipuzkoa, comprendidas entre los años 1550 y 1948.
El resultado es la web y el proyecto Ipuscuako Agiriak (Documentos de Ipuscua), que gracias a la aplicación de tecnología de indización probabilística y aprendizaje automático, permite realizar búsquedas de texto directamente sobre miles de páginas manuscritas, haciendo accesible la información contenida en documentos que hasta ahora requerían complejos conocimientos de paleografía.
Este nuevo servicio surge con la vocación de facilitar el trabajo tanto de investigadores como ciudadanos particuales, ya que permite realizar búsquedas directas en actas históricas sin necesidad de realizar lecturas lineales de miles de páginas. Eso sí, su uso deberá hacerse de una manera «lógica» y centrándose en el tipo de información que se quiera buscar, ya que en los archivos de Tolosa y Oñati hay «25 kilómetros de estantería ocupada por documentos», ha recordado Ramón Martín, jefe del Servicio de Archivos y Patrimonio Documental en la presentación de la inciativa. Junto a él han comparecido Goizane Álvarez, diputada de Cultura, Maider Etxagibel, responsable del Archivo General de Gipuzkoa, y Luis Morró, representante de la empresa Transkritorium.
El proyecto se ha estructurado en varias fases. En la primera se han tratado 195.000 imágenes de actas manuscritas de los siglos XVIII al XX; en la segunda se han incorporado las 25.000 páginas transcritas de los siglos XVI y XVII; y actualmente se desarrolla una tercera fase centrada en las actas impresas de la segunda mitad del siglo XIX y del XX. Sin embargo, hay dos períodos que todavía no recoge el sistema, los comprendidos entre los años 1656-1699 y 1840-1877.
Tal y como han explicado en la presentación del proyecto, el sistema no ofrece solo transcripciones, sino una localización probabilística de palabras o conceptos, que puede ajustarse en función del nivel de certeza elegido por la persona usuaria. «Esto facilitará investigar sobre materias transversales, materias que recorren muchos siglos, porque no hay persona que tenga tanto tiempo como para analizar 220.000 páginas», ha explicado Ramon Martin. Así, por ejemplo, se pueden consultar todos los documentos en los que aparezca el término «enfermedad», «Oyarzun» o «deporte», ofreciendo una visión transversal de la evolución del territorio y de las instituciones a lo largo de los siglos.
El proyecto Ipuscuako Agiriak ha sido impulsado por el Departamento de Cultura, y lo han desarrollado los Archivos Históricos Forales de Gipuzkoa, en colaboración con la empresa Transkriptorium AI S.L., una startup valenciana surgida del Centro Tecnológico de Reconocimiento de Patrones y Lenguaje Humano de la Universidad Politécnica de Valencia. Este trabajo complementa el trabajo iniciado por el Portal de Archivos de Gipuzkoa – Gipuzkoako Artxibo Ataria, que desde 2016 reúne más de 800.000 registros descriptivos y 4 millones de imágenes de documentos conservados en los archivos forales.