luden | Лента

Попытался я тут немного облегчить себе жизнь и вместо диктовки курсов под запись генерить их в TTS. Эти машинки вроде как уже умеют работать клонированным голосом и можно сделать дублера с железной глоткой, который будет начитывать записи вместо меня.

Оказалось, что системы эти живут под девизом "Я где нормальный, а где и беспощаден!"

Что на входе: слайды и тексты к слайдам, уже готовые, только читай.
Что хотелось получить на выходе: аудиофайлы с текстами, начитанными моим голосом.

Попытка раз. Селфхост система под названием GPT-SoVITS.
Шесть гигов, локальная установка. Сорокаминутный аудиофайл более ранней записи - научить ее моему голосу. Несколько часов пошаговой возни "нарежь то, разметь это...". И в результате у меня отличная модель, которая реально говорит моим голосом... на каком-то диалекте китайского. На русском - не умеет.

Side note. Промпты надо писать кааанкретные. Спросил нейронку, какие из селфхост решений синтеза речи лучше всего умеют клонировать голос - она мне парочку и назвала. И по шагам объяснила, как ставить и как настраивать. Только это мне было очевидно, что читать надо будет на русском - а ей-то откуда, она в одно жало весь шарик окучивает...

Попытка два. Вторая selfhost система, xtts, вроде как русский обещает уметь. Десять гигов. Тоже настройка, образцы голоса, обучение. Результат говорит голосом, примерно похожим на мой, но беда даже не в этом - он говорит как нерусский ПТУшник, впервые увидевший примерно четверть слов и понятия не имеющий как они произносятся. Можно убить еще часов десять и натаскать на максимально точное соответствие моему голосу, но толку-то?

Окей. Селфхост не прошел. Делаем аккаунт на elevenlabs и даже платим им 11 баксов за подписку. Голос... вот тут вообще без претензий. Обучился так, что сам себя могу перепутать. Не зря лидерами зовутся в голосовой теме.

Пробуем озвучить рабочий текст.

Ой.

Есть у технических айтишных презентаций одно общее свойство - там термины попадаются. Английские. А элевеновская студийка у проекта держит один язык. И попытки произнести английские термины в русском тексте звучат местами просто офигительно. "После сообщения сип траИнг идет сообщение сип рингИнг", и ни в чем себе не отказывай. SetupCall местами звучит как СетапСолл, REGISTER произносится с ударением на второй слог вместо первого.

Нет, инструмент для оверрайда произношения там есть. Словарик такой. Только в этом словарике "произношение" прописывается просто буквами, никакого специального формата нет, стандартные транскрипции не понимаются, символ ударения не понимается, в чистом виде метод ненаучного тыка. Не нравится произношение траИнг? Пиши в произношение "трАинь", глядишь, допрет где ты ударение хочешь видеть. Не доперло? Пробуй "трААинь", "трА-инь", "трАынь", может, какой-то вариант и сработает. Вишенка на тортике - оно case sensitive, вариант с большой буквы (ну а вдруг это слово в начале предложения?) просто напиши другим правилом. И если отметить, что нужно выбирать только целое слово, будет попадать в обработку только слово, ограниченное пробелами. С точкой, запятой, скобкой, кавычкой - нет.

И отдельное веселье от того, что на английские слова эти правила срабатывают через раз. Похоже, периодически до движка доходит, что это, наверное, другой язык. А для другого языка - другие словари, которые редактировать и дополнять нельзя, бо проект только в своем языке настраивается. А дефолтные словари, например, заставляют читать /etc/ как "эт цетера". Офигительный путь к конфигам получается...

В общем, пошел я курс начитывать.

(голосом мужика из лифта) ELEVEN!!!

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Берлога

Тут живёт медведь. Ну и натащено всякого. Медведем.

Лента

Право говорить

О хозяине берлоги

March 2026

Популярные тэги

Page Summary

Style Credit

Развернуть каты