En dos mil diecinueve, el directivo de una compañía británica fue víctima de una estafa tras percibir un falso mensaje de voz de su gerente en que solicitaba la trasferencia de doscientos veinte euros a un distribuidor. Un año después, un gerente de banco en Hong Kong recibió una llamada telefónica de alguien que le sonaba familiar. Basado en su relación existente, el banquero trasfirió cuatrocientos dólares americanos hasta el momento en que se percató de que algo estaba mal. Estos son solo ejemplos apartados, mas poco a poco más usuales. Ambos casos implican el uso de tecnología deepfake para clonar las voces, una forma exageradamente compleja de manipular un contenido. Identificarla es un reto significativo que se volverá cada vez más difícil conforme la inteligencia artificial avanza de forma rápida. Y no hay buenas noticias. Mientras ciertas herramientas computacionales pueden advertirlas con determinado grado de precisión, las voces falsas engañan a los humanos, aun cuando las personas se adiestran.

Un estudio efectuado con quinientos veintinueve personas, que se publica hoy en Plos One, prueba que las habilidades humanas son poco eficientes en el momento de calificar sin un mensaje de voz es falso o auténtico. Los participantes fallaron una de cada 4 veces que procuraron advertir adecuadamente estos deepfakes de voz y los sacrificios para capacitarlos tuvieron efectos mínimos. La mitad del conjunto recibió un adiestramiento anterior, donde podían percibir 5 ejemplos de voz sintetizada. Pese a ello, la mejora fue solo del tres% en comparación al otro.

Los estudiosos del University College London, en Reino Unido, deseaban además de esto comprender si el reto era más simple o bastante difícil conforme las peculiaridades de diferentes idiomas, por lo que condujeron las pruebas en inglés y chino mandarín. Los descubrimientos sugieren que las capacidades son equivalentes y los dos públicos se fundamentaron en atributos afines en el momento de calificar la autenticidad de los mensajes, como la naturalidad y si sonaba robótico. “Tanto los participantes de habla inglesa como los de mandarín mencionaron comúnmente las pronunciaciones incorrectas y las entonaciones inusuales en los clips de sonido al tomar decisiones”, explica Kimberly Mai, autora primordial del estudio.

Más subjetivo que lo visual

Curiosamente, los participantes mentaban exactamente las mismas peculiaridades, con independencia de si la contestación era adecuada o no. Mai explica que esto es debido a la subjetividad que implica un audio. En contraste a la detección de deepfakes visuales, donde se pueden ver objetos y escenarios para juzgar la autenticidad, la naturaleza auditiva del alegato hace que las percepciones sean más subjetivas. “Cuando se ven potenciales personas falsas, se puede contar el número de dedos en sus manos o si sus accesorios coinciden”, afirma la estudiosa postdoctoral de la universidad británica.

Para cotejar la capacidad humana con la tecnológica, los estudiosos condujeron exactamente la misma prueba asimismo con dos detectores automáticos. El primero fue un software entrenado con una base de datos extraña al estudio, que alcanzó el setenta y cinco% de asertividad, cifra afín a las contestaciones humanas. El segundo, entrenado con la V. O. y sintetizada de la voz, pudo identificar la naturaleza de los audios con cien% de precisión. Según destaca Mai, se da un mejor desempeño pues los programas avanzados son capaces de identificar las sutilezas de la acústica, lo que no puede hacer una persona.

Los sonidos complejos, como el habla humana, poseen una mezcla de diferentes frecuencias, que es la cantidad de veces que una onda sonora se repite en un segundo. “Los detectores automáticos examinan miles de ejemplos de voz durante su fase de entrenamiento. A través de este proceso, pueden aprender sobre peculiaridades en niveles específicos de frecuencia e irregularidades en el ritmo. Los humanos son incapaces de descomponer los sonidos de esta manera”, mantiene la estudiosa.

Si bien los detectores automatizados han probado ser más efectivos que los humanos en esta labor, asimismo tienen restricciones. Primero, no son alcanzables para el uso rutinario. Además, su desempeño reduce cuando hay cambios en el audio de prueba o en ambientes estruendosos. Pero el mayor reto es que sean capaces de acompañar los avances en materia de inteligencia artificial generativa, pues se generan contenidos sintetizados poco a poco más realistas y de forma más veloz. Si ya antes eran precisas horas de grabación para adiestrar un programa, ahora se hace en unos pocos segundos, por servirnos de un ejemplo.

Fernando Cucchietti, especialista extraño al estudio, destaca que los resultados presentados tienen ciertas restricciones, puesto que las condiciones del los ensayos “son muy de laboratorio” y no traducen las amenazas rutinarias de esta clase de tecnología. “No son realistas para situaciones donde los deepfakes puede ser problemáticos, por ejemplo, si conoces a la persona que están imitando”, opina el responsable del conjunto de Análisis y Visualización de datos del Barcelona Supercomputing Centre en declaraciones al Science Media Centre España. Pese a ello, Cucchietti destaca que las conclusiones se semejan a otros estudios afines, y por tratarse de un ambiente bastante controlado, “los resultados están menos afectados por otros factores, por ejemplo, prejuicios o sesgos previos, como en el caso de los estudios de desinformación”.

Evitar las estafas

En el plano individual, las personas son poco fiables para detectar deepfakes de voz. Sin embargo, los resultados de la investigación muestran que al reunir las creencias de más individuos y tomar una resolución basada en una votación mayoritaria, hay una mejora en la detección. Kimberly Mai recomienda: “Si escuchas un clip de audio del que no estás seguro porque el contenido parece inusual, por ejemplo, si implica una solicitud de transferir una gran cantidad de dinero, es una buena idea discutirlo con otras personas y verificar la fuente”.

Mai sugiere que la senda para progresar los detectores automatizados es hacerlos más robustos frente a las diferencias en el audio de prueba. Según afirma, su equipo trabaja para amoldar modelos básicos que han funcionado en otros campos, como el texto y las imágenes. “Dado que esos modelos utilizan grandes cantidades de datos para el entrenamiento, es de esperar que generalicen mejor las variaciones en los clips de sonido de prueba”, destaca. Además, considera que las instituciones tienen la obligación de tomar parte. “Deben priorizar la implementación de otras estrategias, como regulaciones y políticas, para mitigar los riesgos derivados de los deepfakes de voz”, arguye.