Инновационная технология синтеза речи от Microsoft настолько хороша, что компания не решается её выпустить

от Татьяна 14.07.2024

14.07.2024

Microsoft недавно представила VALL-E 2 — новый генератор речи, способности которого настолько впечатляют, что компания пока воздерживается от его публичного релиза. Это заявление вызвало волну обсуждений: одни видят в нём проявление ответственного подхода к технологиям, другие — хитрый маркетинговый ход.

VALL-E 2, по утверждению Microsoft, — первая нейронная модель синтеза речи, достигшая «человеческого паритета». Её уникальность заключается в способности воссоздавать голос конкретного человека на основе всего нескольких секунд аудиозаписи. Результат поражает своей естественностью и точностью, практически неотличимой от речи живого человека.

В основе работы VALL-E 2 лежит обширная база данных, позволяющая модели анализировать и воспроизводить тончайшие нюансы произношения, интонации и ритма речи. Для демонстрации возможностей своего детища Microsoft опубликовала ряд аудиопримеров, где VALL-E 2 превращает короткие образцы голоса в полноценную синтезированную речь.

Однако, осознавая потенциальные риски злоупотребления этой технологией, Microsoft приняла решение пока не выпускать VALL-E 2 в свободное плавание. Компания подчёркивает исследовательский характер проекта и выражает обеспокоенность возможными сценариями неправомерного использования, такими как подделка голосовой идентификации или имитация речи конкретных людей.

Предыдущая запись

Надежда Петрова: «Мы с Шараповой не особо старались разрешить конфликт»

Следующая запись

Инновационная технология синтеза речи от Microsoft настолько хороша, что компания не решается её выпустить

Надежда Петрова: «Мы с Шараповой не особо старались разрешить конфликт»

Новую книгу о Владимире Сунгоркине представили в редакции «Комсомольской правды»

Вам также может понравиться