Несколько месяцев назад сотрудник финансового отдела одной немецкой компании снял трубку. На другом конце — генеральный директор. Голос, интонации, манера речи. Попросил срочно перевести 220 000 евро партнёру. Сотрудник перевёл. Настоящий директор узнал об этом только вечером.
Я наткнулся на эту историю случайно — читал отчёт страховой компании. И поймал себя на мысли: а я бы распознал? Честно — не уверен.
С тех пор немного покопался в теме. Не как эксперт по безопасности, просто как человек, которому стало не по себе.
Что вообще происходит с голосовыми дипфейками
Ещё в 2022 году клонировать голос было сложно и дорого. Нужны были часы записей, специалисты, серьёзное железо. Сейчас — я сам проверил — есть сервисы, которым хватает 10–15 секунд чистого аудио для более-менее убедительной копии.
Откуда берутся эти 15 секунд? Из YouTube, подкастов, корпоративных презентаций на сайте компании. Если человек хоть раз выступал публично — его голос уже где-то лежит.
Я попробовал один из таких сервисов на себе: загрузил минуту собственного голоса и попросил его «сказать» фразу, которую никогда не произносил. Результат был некомфортным. Не идеальным — слышны артефакты. Но если бы кто-то получил такой звонок в шуме офиса или через плохое соединение — вполне мог бы поверить.
Видеодипфейки чуть сложнее в производстве. Для убедительного видео в реальном времени пока нужны ресурсы, но для короткого заготовленного ролика — уже нет.
Схема, которую используют чаще всего
Голосовой фишинг — его ещё называют вишингом — работает по простой механике. Атакующий выбирает цель, обычно кого-то в финансах или с доступом к системам, изучает компанию через открытые источники, клонирует голос кого-то из руководства и звонит с просьбой сделать что-то срочное и конфиденциальное.
Срочность и конфиденциальность — ключевые слова. «Это нельзя обсуждать с коллегами», «нужно сейчас, потом объясню» — именно это отключает нормальное желание проверить и уточнить.
Я потратил час на разборы реальных случаев. Паттерн везде одинаковый: жертва чувствовала что-то странное, но не хотела «беспокоить начальника лишний раз» или «выглядеть параноиком». Это не глупость — это нормальная социальная инерция, на которую всё и рассчитано.
Как я теперь для себя это фильтрую
После той немецкой истории я стал иначе думать о звонках с необычными просьбами. Не параноидально — просто с другой точки по умолчанию.
Первое, на что обращаю внимание: просит ли звонящий что-то сделать быстро и не говорить другим. Это не обязательно дипфейк, но это сигнал притормозить. Любая легитимная срочность переживёт 10 минут на уточнение.
Дальше — я стараюсь перезвонить по номеру, который знаю сам, а не по тому, с которого позвонили. Звучит очевидно. Но в момент разговора это не приходит в голову само по себе, нужно сделать это привычкой заранее.
Если что-то кажется странным — в голосе, в контексте, в самой просьбе — я говорю «дай мне минуту» и вешаю трубку. Настоящий человек перезвонит или напишет. Скрипт дипфейка обычно давит на то, чтобы разговор не прерывался.
Есть ещё один способ, который мне понравился: кодовое слово с людьми, которым доверяешь. Что-то заранее оговорённое. Звучит немного шпионски, но для семьи или близких коллег — вполне рабочая вещь.
Что делать с видео
С видеодипфейками пока чуть проще замечать артефакты. Края лица, моргание, движение губ не совсем в такт звуку, странная текстура кожи при повороте головы. Но на коротком видео в плохом качестве, каким делятся в мессенджерах, я бы не всегда заметил — честно.
Поэтому с видео я применяю тот же принцип, что и со звонками: содержание важнее источника. Если видео просит меня что-то сделать или во что-то поверить — проверяю через другой канал. Написал в другой чат, позвонил сам, нашёл первоисточник.
Отдельная история — дипфейки знаменитостей в рекламе инвестиций. Тут уже не надо анализировать артефакты: если Илон Маск в ролике предлагает удвоить деньги — это мошенничество, независимо от качества видео.
Почему это сложнее, чем кажется
Я думал, что после того как узнал о дипфейках, буду их легко замечать. Оказалось — нет. Дело не в том, что технология совершенна. Проблема в другом: мы не привыкли сомневаться в голосе человека, которого знаем.
Слух — очень доверчивый канал. Мы верим знакомому голосу автоматически. Это работало тысячелетиями, потому что подделать голос было невозможно. Теперь можно, а наша реакция пока не обновилась.
Главная защита здесь, как мне кажется, не технология распознавания, а просто привычка: любая необычная просьба через любой канал требует подтверждения через другой канал. Не потому что ты никому не доверяешь — а потому что это теперь просто норма, как двухфакторная аутентификация.
Неудобно? Немного. Но те 220 000 евро, которые вернуть не получилось — неудобнее.
