Microsoft недавно представила VALL-E 2 — новый генератор речи, способности которого настолько впечатляют, что компания пока воздерживается от его публичного релиза. Это заявление вызвало волну обсуждений: одни видят в нём проявление ответственного подхода к технологиям, другие — хитрый маркетинговый ход.
VALL-E 2, по утверждению Microsoft, — первая нейронная модель синтеза речи, достигшая «человеческого паритета». Её уникальность заключается в способности воссоздавать голос конкретного человека на основе всего нескольких секунд аудиозаписи. Результат поражает своей естественностью и точностью, практически неотличимой от речи живого человека.
В основе работы VALL-E 2 лежит обширная база данных, позволяющая модели анализировать и воспроизводить тончайшие нюансы произношения, интонации и ритма речи. Для демонстрации возможностей своего детища Microsoft опубликовала ряд аудиопримеров, где VALL-E 2 превращает короткие образцы голоса в полноценную синтезированную речь.
Однако, осознавая потенциальные риски злоупотребления этой технологией, Microsoft приняла решение пока не выпускать VALL-E 2 в свободное плавание. Компания подчёркивает исследовательский характер проекта и выражает обеспокоенность возможными сценариями неправомерного использования, такими как подделка голосовой идентификации или имитация речи конкретных людей.