Мария Иванова
Microsoft представила платформу искусственного интеллекта VASA-1, позволяющую превращать человека с фотографии (или даже Мону Лизу) в «говорящую голову». Видео, демонстрирующие возможности нового сервиса, опубликовал ИИ-эксперт Мин Чой.
VASA-1 может заставить изображение петь или выразительно говорить на основе аудиозаписи. Метод этой платформы не только обеспечивает синхронизацию губ и звука, но также позволяет уловить широкий спектр эмоций, выразительные нюансы лица и естественные движения головы
Мин Чой отметил, что люди на созданных VASA-1 роликах выглядят живыми. ИИ позволяет выбирать для «говорящей головы» разные эмоции (улыбающееся или серьезное лицо), а ее взгляд может быть направлен в разные точки пространства.
В комментариях пользователи назвали людей с этих видео «слишком реалистичными».
В Microsoft подчеркнули, что основные инновации VASA-1 включают в себя целостную модель генерации динамики лица и движений головы. Платформа создает видео разрешением 512 х 512 пикселей с частотой до 40 кадров в секунду.
«Это открывает путь к взаимодействию в реальном времени с реалистичными аватарами, имитирующими разговорное поведение человека», — заявили в компании.
В Microsoft подчеркнули, что речь идет лишь об исследовательской демонстрации, а не о планах по выпуску этого продукта/его демоверсии на рынок.
Ранее американский стартап Delphi предложил клиентам услугу по созданию их цифровых клонов. В конце мая у пользователей сервиса появится возможность отправлять клонов на встречи в Zoom вместо себя. Клоны смогут не просто присутствовать на видеозвонках, но даже отвечать на вопросы.