Главная Наука и Технологии Инновационная технология синтеза речи от Microsoft настолько хороша, что компания не решается её выпустить

Инновационная технология синтеза речи от Microsoft настолько хороша, что компания не решается её выпустить

от Татьяна

Microsoft недавно представила VALL-E 2 — новый генератор речи, способности которого настолько впечатляют, что компания пока воздерживается от его публичного релиза. Это заявление вызвало волну обсуждений: одни видят в нём проявление ответственного подхода к технологиям, другие — хитрый маркетинговый ход.

VALL-E 2, по утверждению Microsoft, — первая нейронная модель синтеза речи, достигшая «человеческого паритета». Её уникальность заключается в способности воссоздавать голос конкретного человека на основе всего нескольких секунд аудиозаписи. Результат поражает своей естественностью и точностью, практически неотличимой от речи живого человека.

В основе работы VALL-E 2 лежит обширная база данных, позволяющая модели анализировать и воспроизводить тончайшие нюансы произношения, интонации и ритма речи. Для демонстрации возможностей своего детища Microsoft опубликовала ряд аудиопримеров, где VALL-E 2 превращает короткие образцы голоса в полноценную синтезированную речь.

Однако, осознавая потенциальные риски злоупотребления этой технологией, Microsoft приняла решение пока не выпускать VALL-E 2 в свободное плавание. Компания подчёркивает исследовательский характер проекта и выражает обеспокоенность возможными сценариями неправомерного использования, такими как подделка голосовой идентификации или имитация речи конкретных людей.

Вам также может понравиться