Restauración de la Voz con Interfaces Cerebro-Ordenador, RESSINT

RESSINT

Restauración de la Voz con Interfaces Cerebro-Ordenador

Datos del proyecto

Grupo de Investigación: SigMAT, Signal Processing, Multimedia Transmission and Speech/Audio Technologies Group

Financiación: Convocatoria de 2019 de los «Proyectos de I+D+i» del Plan Estatal de Generación de Conocimiento y Fortalecimiento Científico y Tecnológico del Sistema de I+D+i y de I+D+i Orientada a los Retos de la Sociedad

Proyecto PID2019-108040RA-C22 financiado por MCIN/ AEI /10.13039/501100011033

Fechas Inicio y Fin: 6/2020 - 6/2023

Investigador principal: José Andrés González López (E-mail: joseangl [at] ugr [dot] es)

Departamento: Teoría de la Señal, Telemática y Comunicaciones (TSTC)

Resumen

Una de las habilidades más esenciales para el ser humano, nuestra capacidad de hablar, puede verse afectada tras lesiones traumáticas o enfermedades neurodegenerativas como la esclerosis lateral amiotrófica (ELA), una enfermedad que se espera que aumente globalmente en un 69% entre 2015 y 2040 debido al envejecimiento de la población y a la mejora de la sanidad pública. A medida que esta enfermedad progresa, las personas que la padecen dejan de poder comunicarse verbalmente y requieren del uso de dispositivos que dependen de señales no verbales para comunicarse. En última instancia, algunas de estas enfermedades pueden dejar al individuo en un estado conocido como síndrome de enclaustramiento, en el que las capacidades cognitivas del individuo están intactas pero éste no puede moverse o comunicarse verbalmente debido a la parálisis completa de casi todos los músculos voluntarios del cuerpo.

En este proyecto pretendemos investigar el uso de las Interfaces de Habla Silenciosa (SSI) para restaurar la comunicación verbal a estas personas. Las Interfaces de Habla Silenciosa son dispositivos que capturan señales biológicas no acústicas generadas durante el proceso de producción de voz y las utilizan para descifrar las palabras que el individuo quiere transmitir. Mientras que las SSIs han sido investigadas principalmente en el contexto del reconocimiento automático de voz (SSI-to-Text), este proyecto se centra en técnicas de síntesis de voz directa, generando así voz audible directamente a partir de esas bioseñales.

Más específicamente, en este proyecto se pretende desarrollar una prótesis neural en la que se utilizarán señales electrofisiológicas captadas de la corteza cerebral mediante métodos invasivos (electrocorticografía) para decodificar el habla. En trabajos anteriores se ha demostrado la viabilidad de esta propuesta para el caso de algoritmos de reconocimiento automático de voz entrenados en grabaciones de actividad neuronal. En esta propuesta queremos dar un paso más allá e investigar sobre la generación de voz directamente a partir de la actividad neuronal, lo que posibilitaría la síntesis de voz de forma instantánea. Además, como consecuencia de la plasticidad cerebral y de la retroalimentación acústica, también existe la posibilidad de que los usuarios pudiese aprender a producir una mejor habla con el uso continuo de la prótesis. Para transformar las señales neuronales en audio, utilizaremos los últimos avances en sensores de actividad cerebral, síntesis del habla y técnicas de aprendizaje profundo. Durante el proyecto se generarán varias bases de datos de actividad neural y señales de voz que se pondrán a disposición de la comunidad investigadora. Además, se desarrollarán nuevas técnicas de aprendizaje profundo. El proyecto se llevará a cabo con la colaboración de un panel de expertos nacionales e internacionales en los campos del aprendizaje automático y las interfaces de voz silenciosa. Como resultado de este proyecto esperamos iniciar una investigación innovadora cuyo objetivo final es tener un impacto real en las vidas de aquellas personas con graves problemas de comunicación, permitiéndoles restaurar o mejorar la forma en que se comunican.

Palabras clave:

Brain-Computer Interfaces, Speech Restoration, Speech Synthesis, Augmentative and Alternative Communication, Deep Neural Networks