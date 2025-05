No tiene el nombre de Google, Microsoft o Meta, pero es líder a nivel estatal en Inteligencia Artificial (IA) centrada en el lenguaje y el ... habla. Hitz Zentroa, centro de investigación de la UPV/EHU, está sumido de lleno en la revolución tecnológica que, tarde o temprano, aplicará la ciudadanía. Su director, Eneko Agirre (Eibar, 1968) trata de acercarnos didácticamente el futuro.

- Sí que está de moda el tema de la tecnología del lenguaje...

- Llevamos en esto muchos años pero ahora estamos en pleno boom de una tecnología en concreto. La tecnología del lenguaje era un poco nicho hasta que llegaron los traductores automáticos y el procesiamiento de voz y, sobre todo, hasta que llegó una tecnología que se llama 'aprendizaje profundo', con redes neuronales, que es una forma especial de hacer inteligencia artificial. Sobre todo desde que salió ChatGPT, con su parte lingüística y los generadores de imágenes DALL-E, esta tecnología muy concreta está revolucionando el mundo de la IA en general.

- ¿En qué se aplica esa revolución?

- Empezó con la traducción automática porque mejoró mucho la calidad. Desde que llegó GPT, se vio que se ha convertido en una herramienta general para resolver múltiples problemas. Menciono GPT porque es el más conocido pero este tipo de modelo de lenguaje lo tienen las principales empresas.

- Insisto, ¿para qué sirve?

- Para hacer redacciones, para dar ideas para contar cuentos, para hacer resúmenes, para hacer traducciones... o para tomar decisiones. Tú planteas qué problema tienes y la herramienta te ofrece soluciones cada vez más prácticas.

Euskera «Somos mil veces más pequeños que el inglés pero solo hay 49 idiomas que tengan más textos en internet»

- ¿Para qué tipo de usuario?

- Está pasando un poco como lo que ocurrió con los buscadores de internet. Al principio tenían un uso especializado. Yo los utilizaba para buscar artículos de investigación. Otros, para encontrar cosas que tiene que ver con su labor profesional. Hoy lo usamos todos. Hasta los niños. Con los modelos de lenguaje está pasando un poco igual.

- ¿Se está generalizando el uso?

- De momento, los que más lo usan son los usuarios profesionales. Hablamos de herramientas que te ayudan a ser más efectivo en tu trabajo. Por ejemplo, a resumir diez páginas en una. O a responder preguntas sobre una colección de documentos. O una duda sobre la declaración de la renta. Esta tecnología es capaz de procesar la normativa y devolver las respuestas.

- ¿De verdad?

- Igual no funciona exactamente para la declaración de la renta, pero sí para muchos problemas parecidos. Al final hay información en unos documentos, tú tienes preguntas y te responde.

- Para el lector interesado. ¿Cómo debemos llamar a esto?

- Hay una proliferación de nombres para decir lo mismo de maneras distintas. Hablamos de IA generativa aplicada a la tecnología del lenguaje. Hay muchas cosas que son inteligencia artificial. Desde el reconocimiento de caras o el reconocimiento de la huella dactilar, hasta esto que estamos hablando que tiene que ver con el lenguaje.

Euskorpora «Como Hitz ya está dentro, no merece mirar atrás; la tecnología del lenguaje en euskera necesita la ayuda de todos los agentes»

- ¿Qué parte tiene Hitz Zentroa en esta revolución?

- Lo que hace particular nuestro centro son dos cosas: una, que somos pioneros en usar esta tecnología en el país, con lo que tenemos un bagaje científico y tecnológico en este área que pocos tienen en IA generativa. Y dos, que tenemos una motivación adicional: el objetivo de hacer que la tecnología del lenguaje en euskera funcione tan bien como la del castellano y la del inglés. Si la gente usa su móvil, le habla y funciona mejor en castellano, lo usará en castellano. El reto consiste en lograr que funcione igual de bien en un idioma pequeño. Es un reto científico: que los mismos algoritmos que funcionen en castellano funcionen igual de bien en euskera aunque haya menos datos

- Muchos menos datos...

- Casi la mitad de todo lo que hay en internet está en inglés. Lo que está en castellano es diez veces menos. Para el finlandés, hay diez veces menos que en castellano. O sea, cien veces menos que en inglés. Y para el euskera, hay diez veces menos, es decir, mil veces menos que en inglés y cien veces menos que en el castellano. Pero a su vez, el euskera está en la posición 50. Solo hay 49 idiomas que tengan más texto en internet. Hay cientos de idiomas que tienen menos textos.

- Para generar ese corpus ha nacido la asociación Euskorpora. Hitz no estaba dentro en un inicio aunque ha entrado finalmente. ¿Por qué deben estar?

- Porque en ese objetivo de reunir un corpus para mejorar las herramientas en euskera creemos que la UPV/EHU e Hitz deben estar dentro. No hemos tenido dudas. Desde nuestra experiencia, sabemos qué tipo de textos son importantes reunir: qué corpus es importante. Y en cuanto a la voz, donde los datos son más caros porque necesitas qué dice la gente y la transcripción, es importante saber recopilar y enfocar bien un esfuerzo que es limitado.

- ¿Debían haber estado dentro desde el inicio?

- Como ya estamos dentro, mirar hacia atrás tampoco tiene sentido. Miramos adelante.

Repercusión «Nos llaman investigadores de otros países para preguntar qué algoritmos usamos para funcionar tan bien en euskera»

- ¿Deben incorporarse otros agentes que no están aún?

- La tecnología del lenguaje en euskera necesita de todas las ayudas: cuanto más agentes, mejor. Tenemos que intentar que sea un proyecto compartido entre todos los agentes.

- ¿Qué le pide usted a Euskorpora como resultado?

- Me saldré un poco del objetivo científico de Hitz. Para mí, la mejor noticia sería que dentro de un año haya más textos en euskera para entrenar modelos de lenguaje, y más grabaciones transcritas. Pero haré una reflexión: La tecnología que use la mayoría no será la que hagamos nosotros, sino la de Microsoft o Google. Lo que tenemos que conseguir es que las herramientas que proporcionen esas multinacionales incorporen el euskera. Por muy buena tecnología que tengamos, si en las herramientas de esos gigantes no está el euskera, tendremos un problema.

- Hitz no se limita al euskera...

- No. Los mismos algoritmos que diseñamos nosotros y que están dando muy buenos resultados para el euskera, se pueden aplicar exactamente igual a otros idiomas. De hecho, nos llaman investigadores de otros países para que les contemos cómo hemos conseguido, qué algoritmos utilizamos, para que el euskera funcione tan bien.

- Se lo pregunto yo. ¿Como lo hacen? ¿Cómo trabaja un científico de Hitz?

- Piensa en un investigador nuestro programando en servidores. Estos algoritmos cogen un montón de datos, se ejecutan en supercomputadores que hay en Europa a los que tenemos acceso, y generan unos modelos que son los que usamos. Cuando uno se conecta a GPT está interactuando con uno de esos modelos que construimos nosotros.

- ¿De cuánta gente hablamos?

- Somos 110 investigadores: 39 profesores investigadores y el resto, personal contratado. La mayoría está haciendo la tesis o investiga después de hacer la tesis.

Utilidad «Para redacciones, resúmenes, ideas de cuentos, traducciones... esas herramientas dan soluciones prácticas»

- ¿Tienen inversión suficiente?

- El Gobierno Vasco ha visto la necesidad de contar con una buena tecnología del lenguaje y ha visto que hay un reto científico, que hace falta investigar para que la calidad sea mejor. Si un país no invierte en esto, no va a poder innovar, se va a convertir en mero usuario de la tecnología que hacen otros países.

- ¿Por qué es importante esta tecnología?

- Nosotros venimos de la tecnología del lenguaje, pero tiene muchas utilidades. Se aplica igual a procesamiento de imágenes, a procesamiento de vídeos, a procesamiento de voz, a procesamiento de conexiones neuronales... También a diseño de proteínas, a diseño de medicamentos, a diseño de materiales... El núcleo de la tecnología es el mismo. Nosotros sabemos cómo aplicarlo al lenguaje, también trabajamos con imágenes, y estamos trabajando con el BCBL en imágenes neuronales para poder saber en qué piensa la gente. La tecnología en sí, esto que nuestros investigadores dominan, es vital para hacer frente a todo lo que viene.

- ¿Les afecta en algo la guerra de EE UU con el mundo?

- Bueno, en todo caso, el proteccionismo de EE UU puede hacer que haya fuga de cerebros. Sería buena noticia si conseguimos captar talento. Podría ser una repercusión.

«El reto de Latxa es funcionar tan bien como GPT, en euskera»

Preguntamos al director de Hitz Zentroa por proyectos concretos que ilusionen.

- ¿En qué están metidos de lleno ahora mismo?

- Hay un proyecto para gente que pierde la voz por alguna enfermedad. Ahora es posible sintetizar voz. Se puede hacer que el móvil hable por ellos. Pero claro, una voz impersonal, como si hablara la estación de Renfe... Es mejor que hable con una voz que se parezca a la suya. Con la tecnología actual es posible diseñar esas voces. Incluso si alguien va a tener una operación en la que vaya a perder la voz, puede previamente grabar minutos y la tecnología reproducirla.

- ¿Y Latxa?

- Es nuestro proyecto estrella. Es un modelo de lenguaje. Un GPT para el euskera. Lo estamos desarrollando a la vez en castellano. El reto es que funcione tan bien como los modelos de las multinacionales millonarias, pero en euskera.

- ¿En qué fase está?

- Hace dos años no sabíamos hasta dónde podríamos llegar con la supercomputación que teníamos y los textos con los que contábamos. No había indicios empíricos de qué se podía lograr. Hace un año vimos que se podía hacer el motor principal de ese modelo de lenguaje. Pero ese motor principal, aunque sabe mucho del mundo y del lenguaje, no es capaz de interactuar.

- ¿Entonces?

- Los modelos de lenguaje tienen tres fases. Primero se hace un motor que lee todos los documentos que pueda y aprende sobre el mundo (cultura local y global, matemáticas...). En una segunda fase se le dan ejemplos de qué puede querer la gente. Un resumen, por ejemplo. Cuesta millones pagar a gente para que aporte estos ejemplos. La tercera fase es cuando se le dan al modelo cuáles son las mejores salidas, por ejemplo, para evitar insultos: decir menos lo que no gusta y más lo que gusta. Por tanto, fases de preentrenamiento, instrucciones y preferencias.

- ¿Y dónde estamos?

- El modelo ya puede interactuar con la gente. Ya es una herramienta útil. Gobierno y agentes tecnológicos lo están evaluando para ver si está a la altura de GPT.