Рамиль Мухоряпов создал голосовой ИИ, который «чувствует» на казахском
Команда предпринимателя разработала технологию для дизайна голоса через промпты
Основатель и совладелец Choco Holding Рамиль Мухоряпов рассказал, что его команда создала модель синтеза речи на казахском языке Freedom Speech. Она способна передавать эмоции и воспроизводить невербальные вокализации (вздохи, стоны, плач и т. д.). Бизнесмен представил новую разработку на форуме Freedom Inside.
Разработка Freedom Speech ведется внутри ИИ-лаборатории Freedom ALPS — внутренней платформы, объединяющей вычислительные мощности и пользовательскую базу. Модели синтеза речи уже умеют передавать эмоциональную окраску, воспроизводить паузы и междометия. В будущем такие модели планируют сделать массовыми.
«Что мы дадим всем точно — это голос. У нас получились лучшие модели казахского языка. Мы верим, что 70–80% взаимодействия с ИИ будет идти через голос на казахском языке. Наши модели умеют воспроизводить невербальные звуки и передавать эмоции», — уточнил Мухоряпов.
По его словам, в сравнительных тестах модель получила оценку «4» из 5, тогда как решение «Яндекса» — «3». «Пятерка» означает, что голос неотличим от живого человеческого. Бизнесмен добавил, что в прямых сравнениях уровень победы моделей составляет 88–90%. Кроме того, команда внедрила технологию дизайна голоса через текстовые команды.
«Мы научились делать дизайн голоса через промты — например, можно задать голос мамы или монстра, к примеру. Это в 10–100 раз дешевле, чем запись в профессиональной студии», — подчеркнул Мухоряпов.
AI-студия от Freedom
Кроме того, команда развивает AI-студию для работы с видеоконтентом. Сервис позволяет автоматически переводить ролики, клонировать голос спикера и синхронизировать артикуляцию (lip-sync). Это, по оценке Мухоряпова, снижает затраты в 10–20 раз по сравнению с традиционным производством.
Он также заявил о развитии технологий распознавания речи и поддержке трех языков.
«У нас лучшее в мире распознавание казахской речи: 8% ошибок (у ElevenLabs — 10%), и наш бенчмарк — 5%. Мы развиваем три базовых языка: казахский, русский и английский, а также решаем задачу понимания «микса» этих языков в одном предложении», — уточнил Рамиль Мухоряпов.
Freedom Assistant как альтернатива GPT
Также команда бизнесмена разрабатывает ассистента Freedom Assistant, аналог чата GPT. При этом, как подчеркивает Мухоряпов, в Казахстане невысокий уровень внедрения чат-ботов. Только 15–20% используют GPT. В США этот показатель достигает 50%, в Эмиратах — больше 60%.
«И мы пытаемся ответить на вопрос: как сделать так, чтобы 12 месяцев спустя порядка 70% всех жителей Казахстана использовали GPT, в идеале — Freedom GPT, того самого Freedom Assistant», — отметил он.
Freedom Assistant ориентирован не только на ответы, но и на выполнение пользовательских задач — от записи к врачу до взаимодействия с сервисами.
«Мы строим ассистента, который будет знать вас, чувствовать и, самое главное, будет делать задачи за вас. У локальной компании есть целый ряд преимуществ перед Anthropic или OpenAI, потому что мы можем делать уникальные связки и кучу интеграций с локальными компаниями гораздо быстрее. Теперь, благодаря интерфейсу чата, можно делать такие штуки на уровне магии», — добавил Мухоряпов.
В будущем в экосистему Freedom будут привлекать предпринимателей, чтобы создавать кейсы внутри ассистента — например, функционал доставки цветов или бронирования столиков в ресторанах голосом пользователя.
Мухоряпов заявил, что базовый ИИ должен стать «общественным благом». Он заверил, что Freedom даст доступ всем жителям Казахстана к передовым моделям бесплатно. Кроме того, компания намерена обучать бизнес использованию ИИ и открыть доступ к GPU — специализированным вычислительным мощностям, необходимым для разработки и запуска AI-решений.