Deepfakes y clonación de voz: cómo funciona el fraude más sofisticado de 2026 y cómo protegerse

Hay una categoría de fraude que en los últimos dos años ha pasado de ser un riesgo teórico a convertirse en una amenaza concreta con miles de víctimas documentadas en toda Europa. No requiere hackear servidores ni explotar vulnerabilidades técnicas complejas. Requiere tres o cuatro segundos de audio de tu voz, acceso a internet y un software que cualquiera puede usar sin conocimientos de programación.

Lo que hace especialmente peligroso este tipo de fraude es que ataca exactamente el mecanismo en el que más confiamos para verificar que algo es real: el reconocimiento de las personas que conocemos. Cuando escuchas la voz de tu hijo o ves la cara de tu jefe en una pantalla, tu cerebro activa un nivel de confianza que es muy difícil de anular racionalmente, aunque algo en la situación no encaje del todo.

Cómo se crea una voz clonada en 2026

La clonación de voz mediante inteligencia artificial no es tecnología de ciencia ficción ni algo reservado a actores con grandes presupuestos. Los modelos de síntesis de voz actuales pueden replicar las características principales de una voz, el timbre, el acento, las inflexiones, la velocidad al hablar, con una muestra de audio de apenas tres a cinco segundos.

Esa muestra puede obtenerse de muchos lugares: un vídeo corto en Instagram o TikTok, una historia de voz en WhatsApp enviada en un grupo, un vídeo de una boda o un cumpleaños subido a redes sociales, un podcast o entrevista en YouTube. La mayoría de personas que usan redes sociales con regularidad tienen suficiente material de audio público disponible sin saberlo.

Una vez que el sistema ha procesado esa muestra, el estafador puede escribir cualquier texto y el software lo reproduce con la voz clonada en tiempo real o en forma de audio pregrabado. La calidad no es perfecta, pero es suficientemente buena para engañar a alguien que recibe una llamada en un momento de estrés o urgencia.

Los deepfakes de vídeo siguen el mismo principio pero con mayor complejidad técnica. Permiten superponer el rostro de una persona sobre otro cuerpo en una videollamada en tiempo real, sincronizando las expresiones faciales y el movimiento de los labios con el audio generado. El resultado puede mantener el engaño durante varios minutos en una llamada de vídeo si la calidad de la conexión es media o baja, lo que dificulta detectar anomalías visuales.

Los patrones del fraude: cómo funciona en la práctica

Los fraudes basados en estas tecnologías siguen estructuras bastante predecibles. Entender esas estructuras es la primera capa de defensa.

El fraude familiar de urgencia es el más extendido a nivel de particulares. El estafador llama usando la voz clonada de un familiar cercano, generalmente un hijo adulto o un hermano, y presenta una situación de emergencia que requiere una transferencia inmediata de dinero. Los escenarios más habituales incluyen un accidente de coche con responsabilidad civil, una detención por parte de las autoridades en el extranjero que requiere fianza, o el robo del teléfono y la documentación en otro país.

El diseño del engaño está pensado para crear un estado de pánico que desactive el pensamiento crítico. La urgencia es total, hay una explicación para cada posible duda, los importes son lo suficientemente elevados como para que la víctima sienta la gravedad de la situación pero no tan desorbitados como para generar incredulidad inmediata, y el canal de pago propuesto suele ser una transferencia o Bizum a una cuenta que el estafador controla.

El fraude corporativo con deepfake tiene consecuencias económicas mayores y está dirigido a empresas. El esquema más documentado implica una videollamada en la que un empleado con capacidad de autorizar transferencias recibe instrucciones de quien parece ser un directivo superior. El contexto habitual es una operación urgente y confidencial, una adquisición en marcha, un pago a proveedor que no puede esperar, y la instrucción de no comentarlo con otros compañeros por la sensibilidad de la operación.

Casos documentados públicamente en Hong Kong, Reino Unido y varios países europeos muestran pérdidas de entre cientos de miles y varios millones de euros en operaciones individuales de este tipo. En 2024 un empleado de una empresa multinacional con sede en Hong Kong transfirió aproximadamente 25 millones de dólares después de una videollamada en la que aparecían varios ejecutivos de la empresa, todos ellos deepfakes generados en tiempo real.

El fraude de suplantación bancaria mejorada combina la clonación de voz con información personal previamente obtenida. El estafador llama haciéndose pasar por el servicio de atención al cliente del banco de la víctima, en algunos casos usando el número de teléfono real del banco mediante técnicas de spoofing, y menciona datos específicos como los últimos movimientos de la cuenta, el nombre completo o el número de tarjeta parcial. Esa información, obtenida de filtraciones de datos o de redes sociales, da credibilidad al engaño y lleva a la víctima a proporcionar los códigos de verificación necesarios para autorizar transferencias.

Por qué estos fraudes funcionan tan bie

La efectividad de estos engaños no se debe a que las víctimas sean poco inteligentes o descuidadas. Se debe a que explotan mecanismos neurológicos que están profundamente arraigados y que son muy difíciles de anular conscientemente en tiempo real.

El reconocimiento de voces y rostros familiares activa circuitos cerebrales asociados a la confianza y la seguridad que tienen prioridad sobre el análisis racional en situaciones percibidas como urgentes. Cuando el cerebro está procesando simultáneamente una amenaza emocional intensa, como el posible daño a un ser querido, y un estímulo de confianza elevado, como la voz de ese ser querido, la capacidad para detectar inconsistencias se reduce drásticamente.

Es el mismo principio que hace que los magos funcionen: la atención focalizada en un punto hace que dejes de procesar lo que ocurre en la periferia. Los estafadores diseñan el engaño para mantener esa atención focalizada en la urgencia emocional.

Protocolos concretos que funcionan

El antídoto más efectivo contra estos fraudes es reducir la velocidad de la respuesta y recuperar el control del canal de comunicación. Dos cosas que son difíciles de hacer en el momento del engaño pero que se pueden preparar de antemano.

La palabra de seguridad familiar. Es la medida más simple y más efectiva que existe. Consiste en acordar con las personas más cercanas, pareja, hijos, padres, una palabra o frase que solo vosotros conocéis y que no tiene sentido en una conversación normal. La regla es simple: si alguien te llama pidiendo dinero o ayuda urgente, pides la palabra de seguridad. Si no la sabe o se niega a darla por cualquier motivo, cierras la llamada y llamas tú directamente al número que tienes guardado.

La palabra debe ser algo que no pueda adivinarse por contexto y que no haya aparecido en ninguna conversación digital. Una palabra aleatoria que hayáis acordado en persona funciona perfectamente.

Corta y llama. Esta es la regla más importante y la más difícil de aplicar en el momento porque va en contra del impulso de mantenerse en la llamada para resolver la situación. Si recibes una llamada de alguien que conoces desde un número desconocido, o incluso desde el número habitual, y la conversación deriva hacia una petición de dinero urgente, cuelga. Sin dar explicaciones. Respira, espera unos segundos y llama tú al número que tienes guardado de esa persona.

Si la situación era real, esa persona te lo confirmará. Si no lo era, habrás evitado el fraude. El tiempo que tardas en hacer esa verificación es el único coste de este protocolo.

Verificación de canal alternativo en el entorno laboral. Si recibes instrucciones de realizar una transferencia por videollamada, correo electrónico o mensaje de chat, independientemente de quién parezca ser el emisor, verifica la instrucción por un canal distinto antes de ejecutarla. Una llamada directa al teléfono móvil del supuesto emisor, no al número desde el que llegó la instrucción, es suficiente. Las empresas con buenos protocolos de seguridad tienen esta verificación institucionalizada para transferencias por encima de cierto importe.

Tu huella biométrica digital: qué puedes controlar

Reducir la cantidad de material de audio y vídeo que publicas en abierto en redes sociales reduce directamente la calidad del material disponible para entrenar un clon de tu voz o construir un deepfake de tu rostro. No es una medida que elimine el riesgo por completo, pero sí lo eleva.

Las cuentas privadas en redes sociales limitan el acceso a ese material a personas que ya conoces. Los grupos de mensajería abiertos, donde los mensajes de voz pueden ser escuchados por personas que no conoces directamente, son una fuente de exposición que merece revisarse.

En el ámbito bancario, configurar límites de transferencia diaria que se ajusten a tu uso habitual añade una capa de protección que puede limitar el daño en caso de que un fraude tenga éxito parcialmente. Si necesitas superar ese límite para una operación legítima, el tiempo adicional que requiere la autorización especial es también tiempo para verificar.

Una amenaza que seguirá creciendo

La tecnología de clonación de voz y generación de deepfakes seguirá mejorando y abaratándose. Los modelos disponibles hoy son significativamente mejores que los de hace dos años, y la tendencia no tiene señales de reversión. La regulación avanza, pero siempre con retraso respecto a las capacidades técnicas.

Lo que permanece constante es la estructura del engaño: urgencia artificial, apelación emocional y reducción del tiempo para el pensamiento crítico. Entender ese patrón y tener protocolos preparados de antemano, no improvisados en el momento del fraude, es la defensa más sólida disponible actualmente.

Este artículo tiene carácter informativo y divulgativo. Si has sido víctima de un fraude de este tipo, contacta con tu banco de inmediato y presenta denuncia ante las Fuerzas y Cuerpos de Seguridad del Estado. En España, la Policía Nacional dispone de la Brigada Central de Investigación Tecnológica (BCIT) especializada en este tipo de delitos.

sanzdes

Analista independiente de finanzas personales y tecnología con más de 8 años de experiencia gestionando inversiones propias. Fundador de Infoplus360, donde prueba estrategias financieras y herramientas de IA con dinero real para que el lector no tenga que cometer los mismos errores. Especializado en criptomonedas, neobancos y automatización del ahorro doméstico. El contenido de este blog es divulgativo y no constituye asesoramiento financiero.