En los últimos años, hablar con contestadoras o conmutadores se ha convertido en una actividad normal en nuestras vidas. Interactuamos con asistentes de voz inteligentes en nuestros automóviles, teléfonos inteligentes, dispositivos inteligentes del hogar y durante la banca telefónica. Más bancos alrededor del mundo están utilizando la biometría de voz. En bancos la biometría de voz se utiliza para hacer coincidir los patrones de la voz personal y verificar la identidad del hablante en segundos utilizando sólo su voz. En esencia, el sistema escucha la voz humana y determina quién es esa persona. Para identificar a una persona, la tecnología biométrica captura la voz de una persona y compara las características de la voz capturada con las características de un patrón de voz creado previamente. Si los dos coinciden, el software de biometría de voz confirmará que la persona que habla es la misma que la persona registrada con el patrón de voz. Una vez que el cliente ha creado su patrón de autenticación de voz, cuando llama al banco, simplemente escribe su número de cuenta, de cliente o de tarjeta y repite la frase “Mi voz es mi contraseña” o “Mi voz es mi firma” y puede acceder a su banca telefónica, donde podrá realizar transacciones de forma más segura.

Según los sitios web de diferentes  bancos, la biometría de voz es muy segura y, al igual que la huella dactilar, la voz es única. Pero los ciberdelincuentes están utilizando ataques de suplantación biométrica de voz, también conocidos como clonación de voz o deep fake para ingresar a las cuentas bancarias de las personas. Al usar estos ataques, usan ataques de presentación que incluyen voz grabada, voz alterada por computadora y voz sintética, o voz clonada, para engañar a los sistemas biométricos de voz haciéndoles creer que escucha al usuario real, autorizando y otorgando acceso a información sensible y a las cuentas. En palabras simples, clonan la voz de los clientes del banco simulando artificialmente la voz de una persona.

Según Atul Narula, experto de ciberseguridad, los sistemas actuales de Inteligencia Artificial son capaces de generar una voz sintética que se asemeja mucho a la voz humana. En algunos casos, la diferencia entre la voz real y la falsa es imperceptible. Estos ciberdelincuentes no solo se dirigen a figuras públicas, como celebridades, políticos y líderes empresariales, la realidad es que atentan a cualquiera que tenga una cuenta bancaria. Ellos utilizan videos en redes, discursos, conferencias de videollamada, conversaciones telefónicas y publicaciones en redes sociales para recopilar los datos necesarios para entrenar un sistema y clonar una voz.

Ciberdelincuentes no solo atacan a los bancos, lo están utilizando para una nueva generación de estafas de phishing que aprovechan el hecho de que una víctima cree que está hablando con alguien en quien confía. El año pasado, un director ejecutivo con sede en el Reino Unido fue engañado y transfirió más de 240.000 dólares basándose en una llamada telefónica que creía que era de su jefe, un director ejecutivo de la empresa matriz alemana. Estos ciberdelincuentes, con clones de voz, están usando llamadas telefónicas y correos de voz. Y los ataques no solo amenazan a las empresas. En una nueva generación de la “estafa de la abuela”, los delincuentes se hacen pasar por miembros de la familia que necesitan fondos de emergencia.

Los ciberdelincuentes han comenzado a utilizar el deep fake de voz para difundir información y noticias falsas. Imagínate si alguien publica una llamada de voz clonada de alguna figura importante para influir en la opinión pública o piensa cómo las declaraciones manipuladas de directores o figuras públicas podrían afectar al mercado de valores. Recientemente algunas personas parecían estar empleando tecnología deepfake para imitar a algunos miembros de la clase política rusa, principalmente de la oposición al gobierno de Vladimir Putin, para realizar videollamadas falsas a algunos representantes de parlamentos europeos.

Los DeepFakes también se pueden utilizar para crear pruebas falsas de conversaciones que afectan los casos penales. O para chantajear a las personas en casos en los que el vídeo y el audio fueron manipulados, parecerá que hacen o dicen cosas que no sucedieron, con los deep fake de voz pueden chantajearnos por todo lo que nos pudieran adjudicar.

¿Cómo se hace la clonación de voz deep fake?

Hoy en día, la inteligencia artificial (IA) y los avances en Deep Learning (el Aprendizaje Profundo) están mejorando la calidad de voz sintética. Con tan solo unos minutos de voz grabada como muestra, los desarrolladores pueden usarlos para entrenar un modelo de voz de Inteligencia Artificial que pueda leer cualquier texto con la voz deseada.

Según Atul Narula, un experto de ciberseguridad del Instituto Internacional de Seguridad Cibernética; existen una variedad de herramientas de inteligencia artificial que permiten clonar prácticamente cualquier voz. Algunos de estos son:

Resemble.AI 

Permite voces personalizadas generadas por Inteligencia Artificial a partir de una muestra de voz. Crea voces realistas de texto a voz con Inteligencia Artificial con solo 5 minutos de muestra de voz. Puedes probarlo gratis.

iSpeech 

Es una herramienta de texto a voz y de reconocimiento de voz de alta calidad. Puede generar la voz de cualquier persona en 27 idiomas.

Descript – Overdub – Lyrebird AI 

Permite crear una voz digital que suene como tú a partir de una pequeña muestra de audio. Tiene un plan gratuito que permite generar 3 horas de voz sintética.

Vera Voice

Utiliza la tecnología de Aprendizaje Automático para crear clones de voz súper realistas de cualquier persona. Afirman que necesitan solo una hora de datos de audio para entrenar  redes neuronales y generar una nueva voz.

Google’s Tacotron – Wavenet

Estos sistemas de Google pueden generar una voz  que imita cualquier voz humana y que suena más natural. Necesita guión y muestra de voz para generar una voz similar a la humana.

SV2TTS Real Time Voice Cloning, Resemblyzer and WaveRNN

Existen algunas buenas herramientas gratuitas como Real Time Voice Cloning, Resemblyzer y WaveRNN que permiten la clonación de voz con modelos previamente entrenados. Si bien estos se pueden usar para generar voz usando un texto aleatorio con uno de los cientos de voces, también se pueden ajustar para generar una voz en específico a partir de un texto particular.

Aunque las muestras de voz son difíciles de obtener, los delincuentes utilizan las redes sociales para obtener las mismas.

Aunque es importante tener en cuenta que estas herramientas no se crearon con el propósito de cometer fraude o engaño menciona Atul Narula. La realidad es que las empresas y los consumidores deben estar al tanto de las nuevas amenazas asociadas con la  clonación de voz.

Los bancos están obligando a los clientes a activar biometría de voz. Los bancos usan diferentes frases para autenticar a los usuarios, algunos usan “mi voz es mi contraseña”, y otros “mi voz es mi firma” o puede ser “en tal banco mi voz es mi firma”. Para verificar la identidad de usuario solamente le piden el número de cuenta o el número de cliente o 16 dígitos de tarjeta y que diga la frase de autenticación por voz. El número de cuenta es público, ya que está en el talonario de cheques y los cibercriminales pueden pedirle a alguien su número de cuenta para  depositar una cantidad usando la ingeniería social y la gente dará su número de cuenta con mucho gusto.

Hay tres escenarios que alguien puede usar para hackear el sistema de autenticación por voz usados por diferentes bancos.

  • El primer escenario es donde alguien te marca para vender algún servicio y te fuerzan a usar estas palabras: “Mi voz”, “Firma”, “Contraseña”, “Sí”, “No” o “el nombre del banco” Y después juntan las palabras para crear la frase y reproduce la grabación durante la llamada de banca telefónica.
  •  El segundo escenario es donde te marcan y graban una muestra de tu voz y después usan herramientas de inteligencia artificial para generar una voz similar o las palabras que no dijiste durante las llamadas. Estas herramientas no son perfectas pero sí pueden generar voz similar usando solamente una muestra de unos minutos.
  • El tercer escenario es donde te marcan y te piden repetir la frase completa, y después y reproduce la grabación durante la llamada de banca telefónica.

Usando los tres escenarios el experto de ciberseguridad del Instituto Internacional de Seguridad Cibernética; grabó su voz y después juntó las palabras usando un programa de edición de audio y generó la frase. Y después reprodujo la grabación durante la llamada de banca telefónica.

Usando esta técnica, pudo ingresar en sistemas de bancos como HSBC y Scotiabank. Usó la misma técnica para generar las frases en inglés y en español. Parece que los sistemas de autenticación de voz son vulnerables a los ataques de clonación de voz y los cibercriminales podrían ingresar a la cuenta de cualquier persona con solo tener el número de cuenta o cliente y algo de ingeniería social para realizar cualquiera de los escenarios mencionados anteriormente.

¿Es posible detectar la clonación de voz?

Mariano Octavio, investigador de ciberseguridad, menciona que la tecnología de clonación de voz no es una tecnología maligna. Tiene muchos casos de uso positivos y emocionantes como:

Educación: La clonación de las voces de personajes históricos ofrece nuevas oportunidades para la enseñanza interactiva y la narración dinámica en los museos.

Audiolibros: Al usarlo, las voces de las celebridades se pueden usar para narrar libros y las figuras históricas pueden contar sus propias historias con sus voces. El resultado es una experiencia auditiva envolvente y de alta calidad.

Tecnología de asistencia: La clonación de voz puede utilizarse para ayudar a las personas con discapacidades o problemas de salud que afectan su habla.

Según Jitender Narula, un experto de ciberseguridad del Instituto Internacional de Seguridad Cibernética; el anti-spoofing de voz, también llamado detección de voz viva, es una tecnología capaz de distinguir entre una voz en vivo y una voz grabada, manipulada o sintética. Para los sistemas avanzados de autenticación por voz, generalmente se usa la tecnología de Detección de Vida Interactiva cuando se le pide a una persona que diga una frase generada al azar. Las capacidades actuales de las redes neuronales permiten eludir esta tecnología,  generando una voz en tiempo real.

Los expertos en ciberseguridad comprenden los riesgos asociados con las vulnerabilidades en los sistemas biométricos y están comenzando a recurrir a un enfoque multimodal, cuando varios tipos de datos biométricos están integrados en el sistema de identificación a la vez. Como reconocimiento facial a partir de fotografías y reconocimiento de voz del usuario.

Pero parece que los bancos no tienen esta tecnología, ya que la autenticación de voz utilizada por muchos bancos se puede hackeada como se muestra en el video anterior.  

Atul Narula menciona que, existen otros riesgos asociados con la autenticación biométrica. Las empresas y las instituciones financieras deben centrar su atención en el desarrollo de métodos avanzados de detección de Deep Fake, desde clonación de voz hasta de la imagen de una persona. Por otro lado, debemos enfocarnos en crear conciencia y educar a los consumidores en las redes sociales sobre el riesgo asociado con la tecnología Deepfake.