Científicos de la UPV desarrollan un sistema que procesa el euskera hablado para convertirlo en texto

Equipos de Informática y Politécnica de Ibaeta dirigen la investigación. El sistema tiene que ser adiestrado con archivos de audio y textos de referencia

A. LERATE

SAN SEBASTIÁN.DV. Un grupo investigador del Departamento de Ingeniería de Sistemas y Automática de la Escuela Universitaria Politécnica y de la Facultad de Informática de Ibaeta, dirigido por la profesora Miren Karmele López de Ipiña, está desarrollando sistemas que procesan y entienden la lengua hablada, especialmente en euskera, con el propósito de convertirlo en un texto.

Este tipo de búsqueda de información, según informaron desde la Universidad del País Vasco en un comunicado de prensa, recoge, a diferencia del resto de buscadores, lo hablado en los archivos de audio, a menos que éstos ya lleven una explicación escrita de lo mencionado.

Reconocer el lenguaje del habla y convertirlo en texto «no es tarea fácil», según explicaron los participantes en el estudio. Añadieron que existen varios obstáculos: en ocasiones las palabras no se distinguen adecuadamente, el ruido que ocasionan las señales físicas y, claro, la entonación.

Para el procesamiento del habla, el sistema tiene que recibir un entrenamiento conocido como «máquina-estudio». Para ello, en primer lugar, se necesitan ficheros o archivos audio de televisión o radio.

Grandes y pequeñas

En segundo lugar, explican los investigadores, es necesario tener ciertos textos de referencia, de lo dicho en esos medios de comunicación. Este grupo de investigación de la UPV ha utilizado ficheros de los programas de EITB Gaur Egun y Teleberri para adiestrar al sistema.

Una vez finalizado el proceso de aprendizaje, el mecanismo deberá ser capaz de entender lo escuchado en cualquier programa de estos informativos. Aunque el proceso de aprendizaje es lento, una vez que el sistema interioriza las reglas o la información el resultado se obtiene rápidamente.

En realidad, la mayoría de las aplicaciones de este tipo que existen en el mercado tienen como objetivo las «lenguas grandes» como el inglés. En cualquier caso, el grupo investigador de la Escuela Universitaria Politécnica de San Sebastián, junto con el grupo IXA, GTTS y el grupo de Inteligencia Computacional de la UPV ha trabajado con el euskera.

«La principal diferencia entre lenguas grandes y pequeñas agregan los investigadores- reside en el número de datos de referencia. Los sistemas de ese tipo para la lengua inglesa, tienen una cantidad de datos impresionante; el material de referencia del euskera, sin embargo, es bastante menor».

Con todo, el grupo investigador de la UPV no sólo ha trabajado con el euskera, sino que también ha utilizado el castellano y el francés. Así, en un futuro pretende desarrollar un sistema capaz de comprender el euskera, el castellano y el francés.