В этом видео я расскажу вам о новом приложении от Сбера SaluteSpeech App для синтеза и распознавания речи в аудио.
И хочу вам сказать, что озвучка для этого видео сделана с помощью данного приложения.
Вы можете скачать его для систем Windows и macOS по ссылке в описании видео.
Я скачиваю версию для Windows и устанавливаю.
После чего запускаем приложение.
Щёлкаем по аватарке в правом верхнем углу.
Нужно сгенерировать токен для нашего приложения SaluteSpeech.
Выбираем этот вариант.
И далее нам нужно выбрать тип использования: физическое лицо, юридическое лицо или режим Logacy ().
Я оставляю тип физическое лицо.
И нам нужно перейти по ссылке Проект SaluteSpeech в Studeo.
Нам предлагают согласиться с Пользовательским соглашением.
Далее создаётся специальный проект под именем Мой SaluteSpeech.
Нам нужно нажать на кнопку Начать пользоваться.
И из нового окна скопировать значение из поля Авторизационные данные.
Вставляем его в соответствующее поле в программе.
И нажимаем кнопку Сгенерировать токен.
Пишется сообщение, что токен сгенерирован. Ожидание активации в течение 29 минут.
Закрываем окно, но не закрываем программу, а просто сворачиваем окно.
Я не сказал, что для использования приложения SaluteSpeech App для синтеза и распознавания речи в аудио необходимо пройти процедуру регистрации.
Это можно сделать различными способами: адрес электронной почты или аккаунтом Google.
Если вы являетесь клиентом Сбера, то можно использовать Сбер ID и для бизнес-клиентов СберБизнес ID.
Вам может не хватить доступных бесплатно лимитов на синтез и распознавание речи, тогда возможно приобрести дополнительный пакет.
1000 минут распознавание речи и 1 миллион символов для синтеза речи.
Давайте попробуем в начале синтез речи.
Я ввожу строку текста, который нужно озвучить и не изменяя ни каких параметров нажимаю на кнопку Синтезировать.
Мы получаем результат, который можно прослушать и скачать вам на компьютер в формате wav.
Какие параметры доступны для изменений на вкладке синтеза речи.
Мы можем выбрать голос для озвучки из 7 доступных, у каждого есть менее и более качественная версия.
Голос Киры предназначен для синтеза английской речи.
Есть возможность выбрать дополнительный голос.
Это можно использовать для одновременной озвучки сразу несколькими голосами.
Часть текста одним голосом, а другую — вторым.
Т.е. можно синтезировать диалоги.
Формат аудио файла сейчас доступен только один — wav.
На отдельной странице, ссылочку я добавлю позже в свой Телеграмм канал (как и другие ссылки на ресурсы из видео).
Можно прослушать примеры доступных голосов для синтеза.
Теперь посмотрим на работу распознавания аудио.
Поддерживаются различные форматы аудио файлов: pcm, opus, mp3, flac, alaw, mulaw.
Формат wav тоже поддерживается, хотя он и не упомянут на данной странице.
Выбираем короткое аудио в формате wav на компьютере, это тот же фай который мы синтезировали.
Он тут же обрабатывается и мы видим распознанный текст.
И мы можем его скопировать, скачать в виде текстового файла, удалить и так далее.
Я скачаю текстовый файл и открою его.
Давайте распознаем больший по размеру аудио файл со стерео звуком.
Мы получаем два варианта текста.
Второй вариант можно скрыть, если нажать на ссылку Скрыть второй канал.
И теперь мы видим только по одной реплике, у каждой есть время её продолжительности.
И мы можем скопировать текст или скачать в виде текстового файла.
Третья дополнительная возможность программы SaluteSpeech — это использование GigaChat API для генерации ответов и сделать короткую выжимку длинного текста.
Ответ от GigaChat можно использовать для озвучки.
В начале нам нужно будет подключить GigaChat API в программе, аналогично подключению SaluteSpeech API.
Мы генерируем секретный ключ и вставляем его в форму.
И нажимаем на кнопку Сгенерировать токен.
Теперь мы можем использовать GigaChat в приложении.
Я прошу написать 5 способов использования технологии синтеза речи.
Нажимаем на кнопку Сгенерировать и через некоторое время получаем ответ.
Его также можно скопировать или сохранить в виде текстового файла.
Если нажать на кнопку Использовать в синтезе, то текст ответа можно озвучить.
И на этом я заканчиваю свой обзор нового приложения от Сбера SaluteSpeech App для синтеза и распознавания речи в аудио.
Если у вас возникли вопросы, пишите их в комментариях.
Спасибо за внимание!