Вчені Вашингтонського університету створили алгоритм, що дозволяє вставляти сторонню мову в відеоряд, практично точно відтворюючи артикуляцію та міміку. Матеріалом для створення алгоритму послужили 17 годин записів відеозвернень Президента США Барака Обами.
Технологія конвертації аудіозаписів людського голосу в відео має величезне практичне застосування: від поліпшення відеоконференцій, звук в яких дуже часто відстає від відео, до використання у віртуальній реальності і кіновиробництві.
Робота нового алгоритму ґрунтується на рекурентних нейромережах. З аудіозаписів спершу витягуються окремо взяті фонеми, з яких відтворюється артикуляційна міміка. На основі цього створюється реалістична форма губ, яка потім накладається на потрібне відео, а сам відеоряд налаштовують так, щоб рухи голови людини виглядали природно.
В результаті дослідники поєднали відеоряд звернень Барака Обами до американців з аудіо з інших відео, в яких він говорить про батьківство в ефірі телешоу або про своє обрання редактором юридичного журналу в 1990-му році.