MADRID 31 Mar. –
Una **mujer** que sufrió un **derrame cerebral** hace casi 20 años ha logrado traducir sus pensamientos a **voz** de forma instantánea gracias a un **implante cerebral** desarrollado por investigadores de la Universidad de California en San Francisco y de la Universidad de California en Berkeley (EEUU).
Los **científicos**, que han publicado su descubrimiento en Nature Neuroscience, han mejorado este dispositivo, conocido como interfaz **cerebro-ordenador** (BCI, por sus siglas en inglés), utilizando **algoritmos de inteligencia artificial** (IA) que decodifican las frases en el momento en que la mujer las piensa, permitiendo que las pronuncie en voz alta mediante una voz sintética.
A diferencia de iniciativas anteriores, que solo producían sonidos al finalizar una frase, el nuevo método puede detectar palabras simultáneamente y convertirlas en **voz** en menos de **tres segundos**.
La participante en el estudio, **Ann**, perdió la capacidad de hablar tras un **derrame cerebral** en el tronco del encéfalo en 2005. Aproximadamente 18 años después, se sometió a una intervención quirúrgica para colocar un rectángulo delgado con 253 electrodos en la superficie de la corteza cerebral, que permite registrar la actividad de miles de neuronas simultáneamente.
Los investigadores personalizaron la **voz sintética** para que sonara como la de Ann antes del accidente, entrenando **algoritmos de inteligencia artificial** con grabaciones de su boda. Para más información sobre cómo se puede personalizar la voz, consulta este artículo sobre síntesis de voz.
«Adoptamos técnicas de transductor de flujo continuo, similares a las utilizadas por métodos **ASR** populares como **Siri** o **Alexa**, y las reutilizamos para la **sintetización personalizada cerebro-voz**», señala **Kaylo Littlejohn**, coautor principal del estudio.
«Este enfoque dio lugar a mejoras significativas en la velocidad de descodificación de la neuroprótesis cerebro-voz en comparación con enfoques anteriores que presentaban retardos más largos», destaca Littlejohn.
En el estudio, los **científicos** explican que la comunicación oral natural es instantánea y que los **retrasos en el habla** superiores a unos segundos pueden interrumpir el flujo de la conversación. Esto dificulta que las personas con **parálisis** participen en diálogos significativos, provocando sentimientos de aislamiento y frustración. Para un análisis más profundo, puedes visitar este enlace sobre aislamiento y conversación en personas con parálisis.
De ahí que diseñaran modelos transductores de **redes neuronales** recurrentes de **aprendizaje profundo** para lograr una síntesis del habla fluida e inteligible, personalizada de acuerdo con la **voz** de la participante.
«Nuestros hallazgos introducen un paradigma de **habla-neuroprótesis** para restaurar la comunicación hablada natural en personas con **parálisis**», afirman los **científicos**.
ENTRENAMIENTO DE ANN
Los investigadores han desarrollado una neuroprótesis de síntesis del habla que permite a Ann sintetizar el habla deseada a partir de **señales neuronales** adquiridas de una matriz de **ECoG** de 253 canales implantada sobre la superficie de su corteza sensoriomotora y una pequeña sección del lóbulo temporal.
Para entrenar el sistema, registraron los datos neuronales mientras Ann intentaba pronunciar frases. Se le mostró un texto en un monitor y se le pidió que comenzara a intentar hablar en silencio una vez que apareciera un ‘GO’ visual. Para más información sobre cómo funciona el entrenamiento en inteligencia artificial, visita este enlace sobre aprendizaje profundo para el reconocimiento de voz.
Además, la **habla sintetizada** se transmitía a través de un altavoz cercano, y el texto descodificado se mostraba en el monitor. Los **descodificadores neuronales** del sistema eran bimodales, ya que se entrenaron conjuntamente no solo para sintetizar el habla, sino también para descodificar el texto al mismo tiempo.
Asimismo, evaluaron el sistema usando un conjunto de frases de vocabulario reducido de 50 frases y un conjunto de vocabulario extenso con 1.024 palabras generales. El conjunto de 50 frases fue diseñado para expresar las necesidades primarias de los cuidadores, mientras que el conjunto de 1.024 palabras generó 12.379 frases únicas, compuestas por palabras extraídas de diversas fuentes, incluyendo redes sociales y transcripciones de películas. Para más información sobre el uso de frases en la comunicación asistida, consulta este estudio sobre frases conversacionales.