BioVoz

Sistemas Seguros de Biometría de Voz Mediante Técnicas de Procesamiento Profundo


Datos del proyecto

Grupo de Investigación: SigMAT, Signal Processing, Multimedia Transmission and Speech/Audio Technologies Group

Financiación: Programa de Ayudas a la I+d+i, en Régimen de Concurrencia Competitiva, en el Ámbito del Plan Andaluz de Investigación, Desarrollo e Innovación (PAIDI 2020). Línea de Ayudas para la Realización de Proyectos de I+d+i en los Agentes Públicos del Sistema Andaluz del Conocimiento.

Proyecto P20_00902 financiado por Consejería de Transformación Económica, Industria, Conocimiento y Universidades, Junta de Andalucía.


Fechas Inicio y Fin: 4/10/2021 - 31/6/2023

Investigador principal Antonio M. Peinado Herreros (E-mail: amp [at] ugr [dot] es)

Departamento: Teoría de la Señal, Telemática y Comunicaciones (TSTC)

 


Resumen

Actualmente, la adopción de sistemas de biometría de voz está experimentando un fuerte crecimiento impulsado por la necesidad de nuevos sistemas de autenticación. El presente proyecto se centra en la seguridad de este tipo de aplicaciones biométricas, amenazadas por diversos tipos de ataques, desde una simple reproducción de voz pregrabada hasta otras formas más sofisticadas de suplantación basadas en sistemas de conversión o síntesis de voz. El problema de la detección de este tipo de fraudes es la inexistencia de modelos adecuados basados en técnicas clásicas de procesado de señal. Por ello, la tendencia actual es la basada en el empleo de redes neuronales profundas, bien para la detección directa del ataque, bien para la obtención de vectores de características profundas que representen adecuadamente a las señales de audio, procediendo posteriormente a la detección. Sin embargo, estas soluciones plantean numerosas cuestiones sin respuesta clara a día de hoy y que son objeto de la investigación que aquí se propone. Entre ellas cabe mencionar qué información espectral o temporal debe usarse para alimentar la red, cómo compensar el efecto del ruido en caso de entornos acústicos adversos, qué arquitectura de red es la más adecuada, o qué metodología debe emplearse para entrenarlas de forma que se obtenga una representación de la señal altamente discriminativa y, a la vez, capaz de generalizar incluso a ataques no presentes en los datos de entrenamiento. El presente proyecto se centra en la búsqueda de soluciones a los problemas antes mencionados sin olvidar una cuestión fundamental, muy poco estudiada hasta el momento, como es la integración de la detección del fraude en el sistema de biometría de voz.


Palabras clave:

Biometría de la voz, Computer Interfaces, Anti-Spoofing, Deep Neural Networks.