В Казахстане появился свой ChatGPT на казахском языке
Первую национальную языковую модель на базе ИИ опубликовали в открытом доступе

В Казахстане стала доступна первая национальная языковая модель с открытым исходным кодом IrbisGPT, обученная на большом наборе данных на государственном языке. Разработчики опубликовали официальный релиз на популярном ресурсе Habr.com 25 июня. Теперь каждый казахстанец сможет протестировать языковую модель и сделать свой вклад в ее обучение на казахском языке.
IrbisGPT — общественная некоммерческая инициатива, разработанная в сотрудничестве с MOST Holding и Gen2b.ai, студией, специализирующейся на применении искусственного интеллекта в бизнесе.
«IrbisGPT — это пионерский проект в области развития казахского языка через применение искусственного интеллекта. Цель инициативы — сохранение и распространение казахского языка и его интеграция в современные цифровые технологии для развития общества, экономики и науки в Казахстане. Мы выложили проект в открытый доступ для того, чтобы собрать вокруг него комьюнити и дать возможность энтузиастам развития казахского языка протестировать его и сделать свой вклад в обучение модели», — рассказал фаундер проекта Бахт Ниязов.
В сравнении с предрелизом, который был опубликован весной, актуальная версия IrbisGPT демонстрирует отличный потенциал для обучения. По словам разработчиков, подобные опенсорсные модели либо пытаются ответить на английском, либо просто «сыпят» случайными словами на казахском. Но благодаря длительному обучению национальная языковая модель на вопросы без контекста отвечает достаточно развернуто и правильно. Так, IrbisGPT дает ответ на государственном языке на вопрос «Шөп неге жасыл?» («Почему трава зеленая?»), знает, кто президент Казахстана, сколько дней в году и даже может пофилософствовать о смысле жизни.
«За очень короткое время мы получили впечатляющие результаты. IrbisGPT не просто разобралась с построением слов и грамматикой казахского языка, она умеет обрабатывать входящую информацию, натренирована отвечать на простые вопросы, способна работать с контекстом, что дает возможность ее подключения к актуальным базам знаний, к Налоговому кодексу, например, что может стать полезным инструментом по получению релевантной информации, — рассказал Армен Атаян, CEO Gen2b.ai. — Также благодаря более эффективному токенизатору скорость генерации текста на государственном языке увеличилась от трех до пяти раз по сравнению с моделями GPT.
Для обучения модели разработчики использовали 20 гигабайтов «сырых» данных из новостей и статей на казахском языке, что расширило словарь почти в три раза, говорит Атаян.
«Однако этого недостаточно, мы надеемся на предоставление качественных данных со стороны госорганов для усовершенствования IrbisGPT. У нас есть четкий план и самое главное — навыки по созданию модели следующего поколения, используя все самые последние достижения в области больших языковых моделей», — пообещал руководитель компании.
Итоговый словарь токенизатора содержит более 60 тысяч токенов. У команды имеется план по созданию модели в более совершенной архитектуре, которая будет полезна в разных отраслях.
Примеры ответов IrbisGPT
Question (KZ/RU) |
Answer (KZ) |
Answer (Translated to RU) |
Шөп неге жасыл?
Почему трава зеленая? |
Өсімдіктер мен басқа |
Растения преобразуют солнечный |
Жексенбі күні кешке не істей аласыз?
Чем заняться в воскресенье вечером? |
Сіз жексенбі күні кешке бірнеше |
В воскресенье вечером |
Бір жылда неше күн бар?
Сколько дней в году? |
12 ай, 365 күннен тұрады |
Состоит из 12 месяцев, 365 дней |
Қазақстан президенті кім?
Кто является президентом Казахстана? |
Президент — Касым-Жомарт |
Президент — Касым-Жомарт Токаев |
Өмірдің мәні неде?
В чем смысл жизни? |
Көптеген адамдар өмірдің мәні — |
Для многих людей смысл |
Тәрбиенің маңыздылығын және
Опишите значение образования |
Тәрбие — бұл адамның өмірінде |
Образование — процесс, |