FTCAPPS

Fusión de Técnicas Clásicas y de Aprendizaje Profundo para Procesado de Señal


Datos del proyecto

Grupo de Investigación: SigMAT, Signal Processing, Multimedia Transmission and Speech/Audio Technologies Group

Financiación: Proyectos de I+D+i» de los Programas Estatales de Generación de Conocimiento y Fortalecimiento Científico y Tecnológico del Sistema de I+D+i y de I+D+i Orientada a los Retos de la Sociedad

Proyecto PID2019-104206GB-I00 financiado por MCIN/ AEI /10.13039/501100011033

Fechas Inicio y Fin: 6/2020 - 11/2023

Investigador principalÁngel M. Gómez García (E-mail: amgg [at] ugr [dot] es)

Departamento: Teoría de la Señal, Telemática y Comunicaciones (TSTC)

 


Resumen

La aplicación de aproximaciones conexionistas al procesado de señal empieza a mostrar una tendencia hacia la racionalización. Tras una etapa de efervescencia en donde la actividad investigadora se enfocó en la búsqueda de viejos problemas en donde aplicar soluciones basadas íntegramente en redes neuronales, hemos alcanzado una etapa de madurez en donde, tal y como hemos apostado en un proyecto precursor de la presente propuesta, se están imponiendo las soluciones integradoras. Estas soluciones aúnan lo mejor de cada paradigma: por un lado, el conocimiento y la elegancia del procesamiento de señal clásico y, por otro, la capacidad de modelar y aprender de los propios datos que proporcionan las arquitecturas de deep learning. En este proyecto pretendemos profundizar en esta dirección, de forma que las técnicas clásicas y conexionistas no solo colaboran, sino que se fusionan para avanzar hacia un nuevo paradigma de procesado de señal. En concreto, nuestra propuesta se centra en dos objetivos: 1) el desarrollo de arquitecturas de red para aprendizaje profundo que estén basadas o inspiradas en esquemas de procesado de señal y/o que integren el procesado de señal en las propias capas o celdas que la conforman, y 2) la mejora de los métodos de entrenamiento por medio de las técnicas y algoritmos clásicos, y el conocimiento sobre la señal que estos condensan. Éstas innovaciones se trasladaran principalmente a dos ámbitos de aplicación de relevante interés científico y social en los que el equipo de investigación viene trabajando desde hace años, como son el realce de voz multicanal y la autenticación reforzada mediante biometría de voz.


Palabras clave:

Machine Learning, Deep Neural Networks, Speech Enhancement, Multichannel speech processing, Voice Anti-spoofing, Digital Signal Processing