Signal and Neural Processing against Spoofing Attacks and Deepfakes for Secure Voice Interaction, ASASVI

ASASVI

Signal and Neural Processing against Spoofing Attacks and Deepfakes for Secure Voice Interaction

Datos del proyecto

Grupo de Investigación: SigMAT, Signal Processing, Multimedia Transmission and Speech/Audio Technologies Group

Financiación:

Proyecto PID2022-138711OB-I00 financiado por MCIN/ AEI/10.13039/501100011033/ y FEDER Una manera de hacer Europa

Fechas Inicio y Fin: 9/2023 - 9/2026

Investigador principal: Ángel M. Gómez García (E-mail: amgg [at] ugr [dot] es)

Departamento: Teoría de la Señal, Telemática y Comunicaciones (TSTC)

Resumen

La sociedad digital está asistiendo actualmente a la aparición de una nueva forma de relacionarse con los sistemas de información, a los que podemos acceder de manera multimodal pero que también pueden interactuar con nosotros de una forma casi humana. Esto plantea el problema de la autenticidad de los datos intercambiados: ¿fueron generados los datos tal y como se afirma y por quién se afirma? Este proyecto se centra en soluciones a este problema cuando el soporte para estas interacciones es la voz.

En primer lugar debemos de tener en cuenta los recientes avances en los sistemas de conversión de voz (VC) y de síntesis automática de texto a voz (TTS), que pueden ser maliciosamente usados para impersonar la voz de un hablante y engañar, o bien a oyentes humanos, con el fin de dañar la reputación de alguien o manipular a la opinión pública, o bien a sistemas de biometría por voz. Además, en este último caso, hay otras formas más simples de atacar al sistema automático de biometría, como imitar la voz o reproducir voz grabada, que pueden ser bastante efectivas.

A pesar de los esfuerzos realizados por la comunidad científica, impulsados además por una serie de desafíos desde 2015, el desarrollo de contramedidas, también conocidas como técnicas de antispoofing, para combatir las estas amenazas, ha encontrado una serie de dificultades que son el foco de este proyecto. Así, proponemos tres líneas de actuación diferentes para abordar este desafío. En primer lugar, las redes neuronales profundas (DNNs) se han utilizado extensamente para antispoofing debido a su gran capacidad de modelado, tanto de relaciones no lineales y como abstracciones de alto nivel. Sin embargo, tienen una capacidad de generalización insuficiente y tienden a sobreajustar los datos de entrenamiento. Esto ha dado lugar a una gran brecha entre el rendimiento logrado por los sistemas del estado del arte y el requerido por las aplicaciones reales. Por lo tanto, en este proyecto, nuestro objetivo es ofrecer extractores de características más robustos, arquitecturas DNN novedosas, funciones de pérdida y metodologías de entrenamiento mejoradas que permitan cerrar esta brecha.

La segunda línea de actuación está estrechamente relacionada con la anterior, ya que contar con datos adecuados para entrenar sistemas de antispoofing se ha mostrado como un importante cuello de botella. Las razones de esto son la complejidad en la adquisición de datos que se requiere y la gran diversidad de ataques posibles. Nuestros esfuerzos aquí se orientarán a la generación de datos más realistas, que reflejen las condiciones propias de situaciones reales, así como a proporcionar técnicas de aumentado de datos que puedan ayudar a mejorar la diversidad de estos.

Finalmente, este proyecto también propone investigar sobre marcas fiables, robustas e imperceptibles para la señal de voz sintetizada. La idea tras esto es el marcado de voz impersonada con el fin de evitar su mal uso. Aunque se pueden encontrar en la literatura muchas técnicas de watermarking clásicas y basadas en DNN para abordar este problema, las redes neuronales también se pueden utilizar para el borrado de estas marcas. Por lo tanto, otro de nuestros objetivos es desarrollar técnicas avanzadas y especializadas de watermarking para sistemas de síntesis de voz automática que sean robustas frente a la eliminación o alteración, incluso si el atacante está utilizando métodos basados en aprendizaje profundo.

Palabras clave:

Interacción por voz, Seguridad, Sistemas biométricos de voz, Impersonación de voz, Contramedidas, Deepfakes, Inteligencia Artificial