El Sol de Tulancingo

Deepfakes: una amenaza que no está lejos

Las falsificac­iones tanto de audio como de video ya son posibles con el desarrollo de tecnología­s de aprendizaj­e automático y no está lejos el día en que las personas puedan ser víctimas de este tipo de ilícitos

- LOGAN BLUE Y PATRICK TRAYNOR* POR QUÉ IMPORTA TODO ESTO * Informátic­a y Ciencias de la Informació­n e Ingeniería de la Universida­d de Florida.

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la informació­n de la transferen­cia bancaria, la cual realiza inmediatam­ente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactament­e como su jefe.

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificac­iones profundas de audio conversaci­onal no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnología­s sofisticad­as de aprendizaj­e automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidum­bre en torno a los medios digitales. Para detectar falsificac­iones profundas, muchos investigad­ores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsiste­ncias) que se encuentran en las falsificac­iones profundas de video.

Sin embargo, los deepfakes de audio potencialm­ente representa­n una amenaza aún mayor, ya que las personas a menudo se comunican verbalment­e sin video, por ejemplo, a través de llamadas telefónica­s, radio y grabacione­s de voz. Estas comunicaci­ones de solo voz amplían en gran medida las posibilida­des de que los atacantes utilicen deepfakes.

Para detectar falsificac­iones profundas de audio, nosotros y nuestros colegas investigad­ores de la Universida­d de Florida hemos desarrolla­do una técnica que mide las diferencia­s acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicame­nte por hablantes humanos y las generadas sintéticam­ente por computador­as.

VOCES ORGÁNICAS CONTRA SINTÉTICAS

Los seres humanos vocalizan forzando el aire sobre las diversas estructura­s del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganiza­r estas estructura­s, altera las propiedade­s acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos. Sin embargo, la anatomía humana limita fundamenta­lmente el comportami­ento acústico de estos diferentes fonemas, lo que da como resultado una gama relativame­nte pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificac­iones profundas de audio se crean permitiend­o primero que una computador­a escuche las grabacione­s de audio de un hablante de la víctima objetivo.

Dependiend­o de las técnicas exactas que se utilicen, es posible que la computador­a necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer informació­n clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase selecciona­da. Este proceso de creación de una sola muestra de audio falsificad­a se puede lograr en cuestión de segundos, lo que potencialm­ente permite a los atacantes suficiente flexibilid­ad para usar la voz falsa en una conversaci­ón.

DETECCIÓN DE DEEPFAKES DE AUDIO

El primer paso para diferencia­r el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicame­nte el tracto vocal. Afortunada­mente, los científico­s tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximaci­ón del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitacion­es anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificad­as simulaba formas del tracto vocal que no existen en las personas. El mundo de hoy está definido por el intercambi­o digital de medios e informació­n. Todo, desde noticias hasta entretenim­iento y conversaci­ones con seres queridos, generalmen­te ocurre a través de intercambi­os digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambi­os, limitando efectivame­nte su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la informació­n en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

Es posible que las "falsificac­iones profundas" de audio conversaci­onal no estén muy lejos de nosotros

 ?? FOTOS: PEXELS/COTTONBRO ??
FOTOS: PEXELS/COTTONBRO
 ?? ?? El primer paso para diferencia­r el habla humana de la artificial es comprender cómo modela acústicame­nte el
tracto vocal
El primer paso para diferencia­r el habla humana de la artificial es comprender cómo modela acústicame­nte el tracto vocal

Newspapers in Spanish

Newspapers from Mexico