Как использовать ИИ для клонирования вашего голоса

Недавно компания Google заявила, что последняя версия ее системы синтеза речи Tacotron2 синтезирует речь почти так же, как человеческий голос. Он имеет две глубокие нейронные сети, первая способна преобразовывать текст в спектрограмму, а вторая отвечает за генерацию соответствующего звука из спектрограммы.

Преобразование текста в речь, или сокращенно TTS, — это технология, которая искусственно генерирует человеческую речь и преобразует произвольную текстовую информацию в стандартную и беглую речь в режиме реального времени. TTS включает в себя множество дисциплин и технологий, таких как акустика, лингвистика, цифровая обработка сигналов, информатика и т. д. Это передовая технология в области обработки информации. Основная решаемая проблема заключается в том, как преобразовать текстовую информацию в слышимую звуковую информацию, то есть дать машине возможность говорить как человеку.

По данным Markets and Markets, мировой рынок голосовых клонов, вероятно, вырастет с 456 миллионов долларов в 2018 году до 1,739 миллиарда долларов к 2023 году.

В персонализированной сцене взаимодействия человека с компьютером технология синтеза речи может применяться для настройки персональных помощников ИИ, чтения аудио и голосовых систем для людей с нарушениями речи. Синтез речи может помочь людям с нарушениями речи попрактиковаться в вокализации и облегчить им общение с другими людьми. В области психологической медицины, если удастся восстановить голос умершего, это будет большим утешением для тех, кто был травмирован потерей близкого человека.

Являясь ведущим мировым поставщиком услуг по обработке данных на основе искусственного интеллекта, Datatang стремится преодолевать технические узкие места и поддерживать более широкое применение технологии TTS. Datatang обладает богатыми ресурсами данных, выдающимися техническими преимуществами и богатым опытом обработки данных, а также поддерживает индивидуальный сбор речевых данных по сцене, языку, возрасту, полу и говорящему.

Соответствие требованиям безопасности

Чтобы предоставить клиентам безопасные и соответствующие требованиям службы данных и в то же время обеспечить собственную безопасность и соответствие Datatang, Datatang сформулировала систему обеспечения соответствия требованиям безопасности для бизнеса данных компании в соответствии с законами и политиками данных основных стран по всему миру. В Datatang сбор данных должен осуществляться на основании авторизационного письма, подписанного собираемым лицом.

Студия звукозаписи

Datatang имеет профессиональную студию звукозаписи, оснащенную вокальными конденсаторными микрофонами и оборудованием для мониторинга. Студия звукозаписи соответствует акустическому стандарту NR15: время реверберации менее 0,1 секунды, фоновый шум менее 20 дБ, она сертифицирована Лабораторией строительной физики Университета Цинхуа.

Ресурсы для докладчиков

Datatang имеет тысячи ресурсов спикеров и сотни профессиональных команд по всему миру и поддерживает синтез речи на нескольких языках, таких как китайский, английский, японский, а также смешанное чтение на китайском и английском языках и т. Д. Кроме того, Datatang имеет различные тембры. ресурсы, такие как мужские, женские и детские голоса. Каждый тембр имеет разные типы динамиков, что полностью отвечает требованиям разнообразного синтеза речи.

Обеспечение качества

В процессе записи Datatang оснащен профессиональным мониторингом для обеспечения качества записи. Консультируясь с экспертами, исследовательскими работами и ссылаясь на произношение слов в различных словарях, Google Translate и Baidu Translate, Datatang составил полный набор правил произношения и словарь произношения.

Стандартные наборы речевых данных TTS

Американский английский корпус синтеза речи — женский

Корпус записан носителями американского английского языка с аутентичным акцентом и приятным звучанием. Фонемы и тона сбалансированы, в аннотации участвует профессиональный фонетик.

Американский английский корпус синтеза речи — мужской

Данные записаны носителями американского английского языка с аутентичным акцентом и приятным звуком. Фонемы и тона сбалансированы, в аннотации участвует профессиональный фонетик.

Японский Синтез Корпус-Женщина

Корпус записан носителями японского языка, с аутентичным акцентом и сладким звуком. Фонемы и тона сбалансированы, в аннотации участвует профессиональный фонетик.

Китайско-английский смешанный среднетональный корпус синтеза речи-обслуживание клиентов

Он записан носителями китайского языка, текст обслуживания клиентов, а слоги, фонемы и тона сбалансированы. В аннотации участвует профессиональный фонетик.

Китайский Мандарин Синтез Корпус-Женский, Эмоциональный

Данные записываются носителем китайского языка, эмоциональный текст, а слоги, фонемы и тона сбалансированы. В аннотации участвует профессиональный фонетик.

Конец

Если вам нужны услуги передачи данных, свяжитесь с нами: info@datatang.com.

Как использовать ИИ для клонирования вашего голоса

Вопросы по теме