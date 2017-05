El próximo julio se publicará la versión definitiva de un artículo cuya versión preliminar ya puede verse en internet, en la revista 'ACM Transacción on Graphics'. El autor principal es Zeyu Jin, de Creative Technologies. El trabajo trata de cómo ha ido evolucionando un programa llamado VoCo. VoCo tiene un aspecto muy similar a cualquier editor de voz. Para los lectores que alguna vez hayan utilizado 'Audacity', podemos decir que es muy parecido. Se graba una frase y en la pantalla aparece la forma de la onda de sonido. Con esa onda podemos hacer lo que queramos. Por ejemplo, podemos alargarla y, después, podemos eliminar un trozo, o copiarlo y pegarlo en otro sitio. Muchas veces en mis grabaciones toso, con Audacity voy a la zona donde está la tos y la borro. Supongamos que tengo una grabación de otra persona y veo que en mitad de una frase se ha olvidado de una palabra. Puedo ver si esa palabra estaba en otro sitio, y si lo estaba puedo copiarla y pegarla donde falta. Eso es sencillo, lo difícil es que esa palabra añadida no parezca un pegote. Una misma palabra no suena igual a principio de frase, en medio o al final; el tono no es el mismo. Tampoco lo es si es una frase interrogativa o admirativa... Por ejemplo, Donosti no es lo mismo en «me gusta ir a Donosti» que en «¿te gusta ir a Donosti?». La entonación de la palabra es muy distinta. Si la palabra no está en otra parte el problema todavía es mucho más difícil, hay que reconstruirla fonema a fonema.

VoCo simplifica todo esto. Una de las cosas que sorprenden es que debajo de la imagen sonora de una frase, aparece su transcripción en letras. Un sistema de reconocimiento de voz ha entendido y escrito lo que se había dicho. Y ahora viene lo interesante. Supongamos que la frase es «Me gusta el txakoli de Getaria» y lo que queríamos decir era «Me gusta mucho el txakoli de Getaria». Basta con que pongamos el ratón detrás de «gusta», escribamos «mucho», y automáticamente se crea la frase sonora con la nueva palabra. No hace falta que la palabra se hubiera dicho antes. Y continúan las sorpresas, no solo aparece la palabra sino que lo hace con el volumen, tono, longitud de las sílabas, etc., que encaja en la frase de modo natural, como si el locutor la hubiera dicho. Muchas de las frases así creadas, sin ningún retoque, fueron sometidas a evaluación. El 60% de los participantes no notaron que era una frase sintética. Además, el programa tiene herramientas que perfeccionan el resultado.