Cómo funciona el software que le devuelve la voz a quienes no pueden hablar

Un equipo interdisciplinario de la Universidad Tecnológica de La Plata creo el software con inteligencia artificial que -en base a horas de grabación de tapes de archivo, videos familiares y audios antiguos- les permitirá volver a expresarse con su voz natural a través de una computadora.

Por Juliana Ricaldoni

Un equipo interdisciplinario compuesto por 12 profesionales de la Universidad Tecnológica Nacional de La Plata trabajó en la creación de un software con inteligencia artificial que -en base a horas de grabación de tapes de archivo, videos familiares y audios antiguos- permitirá a quienes hayan perdido el habla volver a expresarse con su voz natural a través de una computadora.

Financiado por el Ministerio de Ciencia que conduce Daniel Filmus, el programa de voz sintética se denomina "Mi identidad vocal" y se enmarca en el Programa ImpaCT.Ar, que tiene por objetivo mejorar las condiciones de accesibilidad universal y de calidad de vida de las personas que hayan sufrido diferentes patologías resultantes en la pérdida de la voz.

La iniciativa fue presentada días atrás por el político socialista Jorge Rivas (61), quien podrá volver a hablar con su voz natural reproducida en una computadora tras el golpe en la cara que recibió durante un asalto en 2007 que lo dejó cuadripléjico y sin voz.

En la actualidad, el dirigente se comunica mediante una computadora con un software que sigue su vista y hace click con el dedo índice derecho, para leer lo que escribe mediante una voz sintetizada.

La novedad es que, a diferencia de aquellos softwares que no representan la identidad vocal de quien la utilizan porque suenan robóticos, este proyecto busca recuperar la voz original de la persona a partir de registros anteriores, como viejos tapes de archivo, videos familiares o audios.

En declaraciones formuladas a Télam, la licenciada en Análisis de Sistemas y en Fonoaudiología, y directora del proyecto, Andrea Cortizo, explicó que "la idea de desarrollar ese sistema surgió durante la pandemia porque queríamos que Jorge recuperara su voz natural" y apuntó que recién se pudo empezar a trabajar este año, recurriendo a la IA.

Hacia una voz natural
"Se constituyó un equipo de trabajo integrado por integrantes de el Centro UTN CODAPLI, del área de trabajo Sistemas Aplicados a Neurotecnologías e integrantes de la Facultad de Ingeniería del Ejército", describió la profesional y detalló que "la solución se planifico para un período de 8 meses de trabajo".

Sostuvo que en la actualidad se encuentran "en la mitad del proceso", en el que junto a ingenieros electrónicos y en sonido, informáticos y fonoaudiólogos, lograron "una voz masculina neutra que habla en español rioplatense a partir de un texto escrito".

A la hora de describir el modo en que funciona el nuevo desarrollo, Cortizo señaló que "el proceso incluye el procesamiento de muestras de voz de la persona previas al trastorno" e indicó que "en el caso de Jorge, se necesitaron aproximadamente 15 horas de muestra de audio y videos, a las que se despojó de los ruidos para dejarlas limpias y luego fueron procesadas como sonido".

"A posteriori, se fragmentó esa cadena de habla en unidades para constituir un Data Set con las palabras y frases que ha utilizado Jorge en esas muestras de voz. Después, a partir de un texto, en lugar de la voz que se logra como salida del software actual (metálica, robotizada, producto de una tecnología ya antigua) la salida esperada es una voz lo más parecida a la que Jorge tuvo", puntualizó.

La propuesta tecnológica pública, que no tiene precedentes en Argentina, será útil para quienes sufrieron Traumatismo Cráneo Encefálico (TEC), enfermedades neurodegenerativas, como la Esclerosis Lateral Amiotrófica (ELA), Accidentes Cerebro Vasculares (ACV), tumores laríngeos, Parkinson, Esclerosis Múltiple y otras patologías que afectan el aparato orofonador.

Con este desarrollo, quien esté perdiendo o haya perdido su capacidad del habla, podrán hacerlo nuevamente con el mismo timbre y características de su particular forma de hablar, generando así, un fuerte impacto psicosocial en las personas que lo utilicen, de sus familias, grupos vinculantes y de la sociedad en general.

En esta primera etapa, el desarrollo contempla la creación de tres voces sintéticas con entonación y modismos en la forma de hablar y expresarse que tiene una voz argentina. La segunda etapa del proyecto, que se encuentra en desarrollo, consiste en la inclusión del registro de la voz natural del beneficiario directo en el software desarrollado.

"La diferencia que tiene con otros programas de este tipo es que desde el inicio este sistema se plantea, primero como un producto argentino y luego para que la población que lo necesite de Argentina lo utilice. Los otros programas que se conocen, son de pago en moneda extranjera, existen Data Sets en otras lenguas", dijo Cortizo y subrayó que "claramente, este es un buen ejemplo de que la IA puede tener fines positivos".

Sucede que gran parte de las personas que sufren la pérdida de su voz, no acceden a ningún desarrollo tecnológico para satisfacer esa necesidad.

La presentación del software
En ese sentido, y en declaraciones formuladas a Télam, Filmus destacó que los proyectos "ImpaCT.Ar" son importantes porque están dirigidos a resolver necesidades concretas" y recalcó que "la diferencia entre los gobiernos neoliberales y los nacionales y populares pasa, en buenas medida, porque unos atienden la capacidad de demanda y otros la necesidad".

"Mientras que los gobiernos neoliberales atienden las demandas de los más poderosos, los gobiernos populares buscan resolver las necesidades de los que más lo necesitan y de los que tienen menos voz. Si esas situaciones no las atiende el Estado, no las atiende nadie porque el mercado no resuelve todo", expresó el ministro y enfatizó que se trata de "una demostración de que la ciencia sirve para resolver los problemas concretos de nuestra gente".

En tanto, en la presentación del software, que se realizó en el Centro Cultural de las Ciencias, Rivas afirmó que "el programa será de acceso universal, es decir, que podrá acceder a él quien lo necesite y no quien pueda pagarlo" y celebró "lo importante que es para una persona poder disponer de la tecnología para mejorar su calidad de vida".

"La voz también es un derecho, que se valora sobre todo cuando se lo pierde. No tener voz limita gravemente nuestra posibilidad de comunicarnos, nos deja afuera, dependemos de que alguien lea lo que podemos escribir o que entienda nuestras señas", reflexionó.

Así, puso de relieve la importancia de "devolvernos la identidad de nuestra propia voz es derribar nuevas barreras para lograr una inclusión más plena" y destacó la necesidad de "universalizar el acceso a estos derechos a todas las personas sin voz ya que hoy somos minoría los que podemos acceder".