Обзор нового приложения SaluteSpeech от Сбера для синтеза и распознавания речи

В этом видео я расскажу вам о новом приложении от Сбера SaluteSpeech App для синтеза и распознавания речи в аудио.

И хочу вам сказать, что озвучка для этого видео сделана с помощью данного приложения.

Вы можете скачать его для систем Windows и macOS по ссылке в описании видео.

Я скачиваю версию для Windows и устанавливаю.

После чего запускаем приложение.

Щёлкаем по аватарке в правом верхнем углу.

Нужно сгенерировать токен для нашего приложения SaluteSpeech.

Выбираем этот вариант.

И далее нам нужно выбрать тип использования: физическое лицо, юридическое лицо или режим Logacy ().

Я оставляю тип физическое лицо.

И нам нужно перейти по ссылке Проект SaluteSpeech в Studeo.

Нам предлагают согласиться с Пользовательским соглашением.

Далее создаётся специальный проект под именем Мой SaluteSpeech.

Нам нужно нажать на кнопку Начать пользоваться.

И из нового окна скопировать значение из поля Авторизационные данные.

Вставляем его в соответствующее поле в программе.

И нажимаем кнопку Сгенерировать токен.

Пишется сообщение, что токен сгенерирован. Ожидание активации в течение 29 минут.

Закрываем окно, но не закрываем программу, а просто сворачиваем окно.

Я не сказал, что для использования приложения SaluteSpeech App для синтеза и распознавания речи в аудио необходимо пройти процедуру регистрации.

Это можно сделать различными способами: адрес электронной почты или аккаунтом Google.

Если вы являетесь клиентом Сбера, то можно использовать Сбер ID и для бизнес-клиентов СберБизнес ID.

Вам может не хватить доступных бесплатно лимитов на синтез и распознавание речи, тогда возможно приобрести дополнительный пакет.

1000 минут распознавание речи и 1 миллион символов для синтеза речи.

Давайте попробуем в начале синтез речи.

Я ввожу строку текста, который нужно озвучить и не изменяя ни каких параметров нажимаю на кнопку Синтезировать.

Мы получаем результат, который можно прослушать и скачать вам на компьютер в формате wav.

Какие параметры доступны для изменений на вкладке синтеза речи.

Мы можем выбрать голос для озвучки из 7 доступных, у каждого есть менее и более качественная версия.

Голос Киры предназначен для синтеза английской речи.

Есть возможность выбрать дополнительный голос.

Это можно использовать для одновременной озвучки сразу несколькими голосами.

Часть текста одним голосом, а другую — вторым.

Т.е. можно синтезировать диалоги.

Формат аудио файла сейчас доступен только один — wav.

На отдельной странице, ссылочку я добавлю позже в свой Телеграмм канал (как и другие ссылки на ресурсы из видео).

Можно прослушать примеры доступных голосов для синтеза.

Теперь посмотрим на работу распознавания аудио.

Поддерживаются различные форматы аудио файлов: pcm, opus, mp3, flac, alaw, mulaw.

Формат wav тоже поддерживается, хотя он и не упомянут на данной странице.

Выбираем короткое аудио в формате wav на компьютере, это тот же фай который мы синтезировали.

Он тут же обрабатывается и мы видим распознанный текст.

И мы можем его скопировать, скачать в виде текстового файла, удалить и так далее.

Я скачаю текстовый файл и открою его.

Давайте распознаем больший по размеру аудио файл со стерео звуком.

Мы получаем два варианта текста.

Второй вариант можно скрыть, если нажать на ссылку Скрыть второй канал.

И теперь мы видим только по одной реплике, у каждой есть время её продолжительности.

И мы можем скопировать текст или скачать в виде текстового файла.

Третья дополнительная возможность программы SaluteSpeech — это использование GigaChat API для генерации ответов и сделать короткую выжимку длинного текста.

Ответ от GigaChat можно использовать для озвучки.

В начале нам нужно будет подключить GigaChat API в программе, аналогично подключению SaluteSpeech API.

Мы генерируем секретный ключ и вставляем его в форму.

И нажимаем на кнопку Сгенерировать токен.

Теперь мы можем использовать GigaChat в приложении.

Я прошу написать 5 способов использования технологии синтеза речи.

Нажимаем на кнопку Сгенерировать и через некоторое время получаем ответ.

Его также можно скопировать или сохранить в виде текстового файла.

Если нажать на кнопку Использовать в синтезе, то текст ответа можно озвучить.

И на этом я заканчиваю свой обзор нового приложения от Сбера SaluteSpeech App для синтеза и распознавания речи в аудио.

Если у вас возникли вопросы, пишите их в комментариях.

Спасибо за внимание!

Оставьте комментарий Отменить ответ