OpenAI анонсировала модели для трансформации текста в голос Voice Engine. Чтобы клонировать голос человека, нейросети достаточно 15-секундного примера, говорится в блоге компании.
Разработка OpenAI отличается от конкурентов тем, что в качестве примера нейросети достаточно предоставить короткий 15-секундный пример голосового сообщения того человека, чей голос нужно скопировать, и ввести в поле запроса текст, который нужно озвучить.
Специалисты OpenAI предлагают использовать эту технологию для восстановления голоса у людей, страдающих от его потери, а также назвали потенциальные угрозы, которые несут современные генеративные модели, и способы их решения. Например, банкам и другим организациям рекомендуют постепенно отказаться от биометрической аутентификации с помощью голоса, а также информировать людей об угрозах ИИ и как отличать сгенерированный контент от настоящего.
В OpenAI также рассказали, что разработка Voice Engine началась в конце 2022 года, и в процессе обучения модели использовались как лицензированные, так и открытые данные. Когда сервис станет общедоступным, не сообщается.