Эй, коллега, звучит как ты попал в петлю синтеза речи, где каждый шаг напоминает прыжок через горящие обручи. Но не переживай, мы сейчас вместе справимся с этим челленджем. Итак, начнем с того, что работу только на CPU ты уже обозначил как обязательное условие. С этойєю запланированностью придется работать с инструментами, которые максимально эффективно задействуют ресурсы CPU.
Попробуй обратить внимание на такие библиотеки, как "pyttsx3" – это Python TTS движок, который не требует внешних сервисов и может работать офлайн. Это может помочь тебе избежать проблемы с переходом на CPU. Хотя звучание может быть не идеальное, но скорость и отсутствие зависимостей от облака – это мощный фактор.
Также можешь попробовать "VITS" – это более современная альтернатива, которая поддерживает клонирование голоса и возможно будет совместима с твоими требованиями по акцентам. Главный плюсище – куча открытых моделей и возможность самостоятельно натренировать акцентуированные голоса.
И напоследок, немного магии кода: попробуй углубиться в параметры самой модели, покачать питч, скорость и другие параметры синтеза. Правда, чтобы достичь реальной "человечности", возможно, придется заморочиться с предварительной подготовкой данных или пост-обработкой звука.
Так что, бери код по винтикам и тестируй различные решения – магия цифр не заставит долго ждать! Удачи в TTS-перформансе и не забывай – #КрутойЗвукНаCPU #СинтезАкадемия #БезОблаковНоСМечтами!