Нейромережа генерує відео з виступами Барака Обами, які важко відрізнити від справжніх

Олег Дмитренко · 17 Липня 2017

Нейромережа генерує відео з виступами Барака Обами, які важко відрізнити від справжніх

Вчені Вашингтонського університету створили алгоритм, що дозволяє вставляти сторонню мову в відеоряд, практично точно відтворюючи артикуляцію та міміку. Матеріалом для створення алгоритму послужили 17 годин записів відеозвернень Президента США Барака Обами.

Технологія конвертації аудіозаписів людського голосу в відео має величезне практичне застосування: від поліпшення відеоконференцій, звук в яких дуже часто відстає від відео, до використання у віртуальній реальності і кіновиробництві.

Робота нового алгоритму ґрунтується на рекурентних нейромережах. З аудіозаписів спершу витягуються окремо взяті фонеми, з яких відтворюється артикуляційна міміка. На основі цього створюється реалістична форма губ, яка потім накладається на потрібне відео, а сам відеоряд налаштовують так, щоб рухи голови людини виглядали природно.

В результаті дослідники поєднали відеоряд звернень Барака Обами до американців з аудіо з інших відео, в яких він говорить про батьківство в ефірі телешоу або про своє обрання редактором юридичного журналу в 1990-му році.