Исследователь нашел способ получать аудио из неподвижных изображений и бесшумных видеороликов

Поскольку видеозвонки становятся все более распространенными в эпоху удаленных и гибридных рабочих мест, фразы «отключите звук самостоятельно» и «я думаю, вы отключены» стали частью нашего повседневного словаря. Но оказывается, что отключение звука самостоятельно может быть не таким безопасным, как представляется.

Кевин Фу, профессор электротехники, вычислительной техники и компьютерных наук Северо-Восточного университета, нашел способ извлекать звук из фотографий и даже из видео с приглушенным звуком. Используя Side Eye, инструмент с поддержкой машинного обучения, созданный Фу и его исследовательской группой, Фу может определить пол человека, говорящего в комнате, где была сделана фотография, и даже точные слова, которые он произносил.

«Представьте, что кто-то снимает видео на TikTok, отключает звук и дублирует музыку», — говорит Фу. «Вам когда-нибудь было любопытно, что они на самом деле говорят? Вы действительно можете уловить, что говорится за кадром».

Это звучит как научная фантастика — но так оно и есть. Идея Side Eye была вдохновлена эпизодом научно-фантастического шоу «Грань», в котором главные герои, команда исследователей fringe science, работающих на ФБР, извлекали звук из расплавленного стекла.

Когда эпизод вышел в эфир, один критик журнала Den of Geek назвал это «нелепой псевдонаучной техникой». Фу не согласился.

«Держу пари, мы сможем это сделать», — говорит Фу. «Моя лаборатория специализируется на невозможном. Обычно мы ожидаем, что первой реакцией на все, что мы делаем, будет «Вы не можете этого сделать», и мы говорим: «Ну, мы уже это сделали», — сказал Фу.

Side Eye использует технологию стабилизации изображения, которая в настоящее время практически является стандартной для большинства телефонных камер. Чтобы дрожащая рука не создавала размытых снимков, камеры оснащены небольшими пружинами, удерживающими объектив в жидком состоянии. Затем электромагнит и датчики перемещают объектив в равных и противоположных направлениях, чтобы уменьшить дрожание камеры.

Однако, по словам Фу, всякий раз, когда кто-то говорит рядом с объективом камеры, это вызывает крошечные вибрации в пружинах и слегка отклоняет свет. Угол освещения меняется почти незаметно — «если вы этого не ищете», говорит Фу.

Обычно было бы трудно выделить звуковую частоту из этих микроскопических колебаний. Но Фу говорит, что вращающийся затвор, метод съемки, используемый сегодня большинством телефонных камер, на самом деле облегчает достижение невозможного.

«Способ, которым камеры работают сегодня для снижения затрат, в основном заключается в том, что они не сканируют все пиксели изображения одновременно — они делают это по одной строке за раз», — говорит Фу. «Это происходит сотни тысяч раз на одной фотографии. По сути, это означает, что вы можете более чем в тысячу раз увеличить объем частотной информации, которую вы можете получить, то есть степень детализации звука».

Пока есть хоть немного света, Side Eye будет работать, хотя чем к большему количеству изображений у него есть доступ, тем лучше. Фу говорит, что даже фотография, направленная на потолок, позволит Side Eye сделать свое дело.

Конечным результатом этого процесса является звук, который даже в лучшем случае больше похож на приглушенный звук взрослых в мультфильмах Peanuts. Но с помощью машинного обучения и бокового наблюдения за определенными словами и звуком Fu способен извлекать много информации.

С точки зрения кибербезопасности Side Eye открывает совершенно новый мир угроз, о которых должны знать люди и эксперты по кибербезопасности. Однако Фу говорит, что наиболее интересным приложением для Side Eye может стать новая форма цифровых доказательств для юристов и других лиц, работающих в уголовно-правовой системе.