Станет ли KazLLM альтернативой ChatGPT?
Национальная языковая модель — это вопрос цифрового суверенитета, считают в Институте умных систем и искусственного интеллекта

В конце 2024 года в Казахстане появилась первая национальная языковая модель KazLLM, созданная для понимания и генерации текстов на казахском языке. Проект стал результатом совместной работы Института умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете и нескольких правительственных организаций.
С учетом стремительного развития генеративного ИИ во всем мире для страны было критически важно создать собственную базовую модель, адаптированную к национальным языковым, культурным и информационным реалиям, объясняет генеральный директор ISSAI Хуссейн Атакан Варол.
Как создавалась модель, кто будет ее использовать, станет ли она альтернативой ChatGPT — об этом Атакан Варол и его коллега по институту Ербол Абсалямов, занимающий должность исполнительного директора, рассказали Forbes Kazakhstan.
Почему искусственный интеллект должен говорить на казахском
«Иностранные языковые модели, даже те, что могут говорить на казахском, не понимают реалий местного общества, тонкостей быта и традиций», — в начале разговора уточняет Абсалямов. По его словам, в мире ИИ языки не равны: глобальные модели в первую очередь обучаются на английском, китайском и других доминирующих языках. Это приводит к тому, что «меньшинства» рискуют оказаться в цифровой тени и сильной зависимости. Идея KazLLM родилась как раз из потребности Казахстана иметь свой голос в цифровом пространстве, отмечает исполнительный директор ISSAI. В то же время национальная языковая модель — это еще вопрос цифрового суверенитета, добавляет Атакан Варол.
От идеи до вызовов
«Понимая наши ограничения в вычислительных ресурсах, мы отказались от идеи обучать модель с нуля. Вместо этого адаптировали одну из передовых моделей с открытым исходным кодом и дообучили ее на высококачественных региональных данных», — раскрывает детали генеральный директор ISSAI.
Так, для обучения KazLLM было собрано порядка 150 млрд токенов (эквивалент 1,5 млн книг) на казахском, русском, английском и турецком языках, продолжает Абсалямов. Это огромный объем общедоступной информации — книги, статьи, сайты, социальные сети, документы.
Главная трудность заключалась в том, что казахский язык представлен в интернете в ограниченном объеме. «Нам пришлось делать масштабную работу по очистке, разметке и дополнению датасета. Мы использовали существующие источники, а также создавали собственные корпуса и данные», — говорит собеседник.
Другой вызов — лингвистическая сложность самого языка: он агглютинативный, с богатой морфологией, большим количеством форм слов. Это накладывает особые требования к токенизации, архитектуре модели и качеству данных, поясняет Абсалямов.
«Еще один вызов — этика. Как и любая LLM, KazLLM может генерировать токсичный или некорректный контент. Мы заложили в модель фильтры, разработали систему безопасности и постоянно проводим мониторинг», — рассказывает он. Это особенно важно, когда модель работает с чувствительными темами: историей, национальной идентичностью, межэтническими вопросами.
«В итоге мы выпустили две версии модели — KazLLM-8B и KazLLM-70B, где «8B» и «70В» — количество параметров в миллиардах, что вполне сопоставимо с ранними версиями LLaMA от Meta и другими открытыми LLM», — объясняет исполнительный директор ISSAI. Первая подходит для систем со средними ресурсами, вторая — для задач, требующих высокой вычислительной мощности.
При этом государственные средства в разработке проекта не участвовали, уверяет он. Главным источником финансирования выступил Назарбаев Фонд, также были задействованы ресурсы частных компаний, заявляет собеседник.
Кто будет использовать KazLLM
В декабре 2024 года ISSAI передал разработку Министерству цифрового развития, инноваций и аэрокосмической промышленности (МЦРИАП), а именно в Astana Hub как основному заказчику. Сейчас ведомство проводит настройку модели для e-gov-сервисов, утверждает Абсалямов. Предполагается, что KazLLM станет основой для цифровых агентов в госсекторе.
Вместе с тем для полноценного развертывания модели пока не хватает вычислительных мощностей, сетует собеседник. К слову, в середине мая в Казахстан наконец прибыл суперкомпьютер, самый мощный в Центральной Азии, по данным МЦРИАП. «Уже в ближайшие месяцы можно ожидать запуск реальных кейсов — как в госсекторе, так и в бизнесе», — уверен Абсалямов.
Хотя проект еще не получил широкого распространения, интерес к нему уже большой. Особенно со стороны банков и финтехкомпаний. «Модель можно использовать в формате fine-tuning — адаптации под конкретные задачи. Допустим, банк может обучить KazLLM на своих данных, чтобы она понимала особенности его продуктов», — делится подробностями собеседник.
При этом коммерческое использование модели требует отдельного согласования. «На Hugging Face выложенные версии KazLLM — с 8 и 70 млрд параметров, доступны по лицензии, ограничивающей коммерческое применение. Для бизнес-использования модели условия обсуждаются индивидуально с Назарбаев Университетом и/или с Astana Hub», — поясняет Абсалямов. На данный момент несколько стартапов уже ведут переговоры о получении лицензии, отмечает он.
Вопрос национальной безопасности
Тем временем команда ISSAI не остановилась только на KazLLM. В этом году она представила еще одну разработку — Oylan, мультимодальную модель, способную анализировать не только текст, но и изображения и аудио. «Это следующий уровень. Например, врач может загрузить МРТ-снимок — модель даст предварительную интерпретацию. Или спасатели смогут по спутниковым снимкам предсказывать зоны подтопления», — рассказывает Абсалямов.
И опять же он обращает внимание на важность цифровой независимости. «Когда ты используешь ChatGPT, ты не знаешь, куда уходит информация. Поэтому МЦРИАП и запретил госструктурам использовать иностранные модели. KazLLM и Oylan работают на наших серверах, данные остаются в стране. Это вопрос национальной безопасности», — подчеркивает он.
Взгляд в будущее
В свою очередь, KazLLM доказала, что передовые ИИ-модели могут разрабатываться внутри страны силами местных специалистов и институтов, замечает генеральный директор ISSAI. Это важный сигнал для экосистемы стартапов и академического сообщества: входной порог в сферу ИИ снижается, убежден Атакан Варол.
«В прошлом году, создав KazLLM, Казахстан вошел в топ-20 стран мира, которые своими силами создали собственную национальную большую языковую модель. В этом году, создав Oylan (language vision model), мы вошли в топ-10 стран», — утверждает Абсалямов.
В ближайшем же будущем ISSAI собирается создать модель мультимодального разреженного рассуждения, способную решать более сложные междисциплинарные задачи.
«На сегодняшний день такие модели есть, может быть, у трех-четырех стран в мире», — говорит исполнительны директор ISSAI.
Однако подобного рода разработки требуют не только значительных вычислительных мощностей, но и целевых инвестиций, замечает Атакан Варол. «На данный момент мы сталкиваемся с ограниченными ресурсами и отсутствием стабильного финансирования ИИ-исследований в Казахстане», — вынужден констатировать он.