Цифрлық дәуірдегі қайшылық

Қазақстандықтар технологиялармен қай тілде сөйлеседі?

школа, учеба, искусственный интеллект, ученик
Фото: © Depositphotos.com/pressmaster

Қазақстанда алгоритмдер барлық салаға — білім беруден мемлекеттік қызметке, бизнестен медицинаға дейін енуде. Бес жылда 1 млн адам нейрожелілерді игермек. Тек бір сұрақ: қазақстандықтар технологиялармен қай тілде тілдеседі?

Жасанды интеллект халықтардың өз тілдерін сақтауға технологиялық мүмкіндіктер ашуымен қатар тілдер теңсіздігін тереңдете түсуде. Әлемдегі онлайн-жүйелер 10 жетекші тілді көбірек бағдар тұтады (UNESCO). Ал қазақ тілі секілді цифрлық салада қуаты бәсең (low-resource) тілдер алгоритмдік шешімдерді толыққанды қолдануда шеттетіліп жатады. Оның бірнеше себебі бар.

Қазақ тілінің ғаламтордағы қазіргі үлесі — теңіздегі тамшыдай, веб-сайттардың 0,1%-дан аз бөлігінде ғана пайдаланылатын тілдер қатарында (W3Techs, 2025, қыркүйек). Бұл интернет-контентпен «сусындайтын» тілдік модельдер үшін оны тіпті көрінбейтіндей етеді. Контент аз болған сайын жасанды интеллектінің тілді үйренуі, яғни тілді дұрыс қолдану мүмкіндігі төмендейді.

Нейрожелілер тілді тереңірек меңгеруге қажет қазақ тілінің грамматикалық корпусы (UD Kazakh-KTB) қазір жұтаң, «сандығында» бар-жоғы 9–10 мың токен, яғни мәтіндік бөлшек бар. Айталық, орыс тілі корпусы (UD Russian-SynTagRus) 1,2 млн токеннен тұрады. Цифрлық ортадағы тілдік қорды байыту үшін бірнеше ұлттық жоба жасалуда. Алайда қазақстандықтардың өздері қай тілді таңдайды?

Қазақстан аумағынан ЖИ-ге қойылатын қазақша сұраулар үлесін ChatGPT шамамен 5%-дан, Copilot — 10–15%-дан төмен деп болжайды. Алгоритмдерді «қоректендіретін» 80–90% сұраулар өзге тілде жасалады. Ал қазақша промпт аз жасалған сайын үстем тілдерге қарағанда ЖИ жауаптары әлсіз, дәлдігі төмен шығады.

Биыл мемлекеттік сектордағы ЖИ бойынша тренинг өткізер алдында қатысушылардан дәрісті қай тілде тыңдау қолайлы екенін сұрадық. Сонда олар орысша терминология анығырақ, техникалық мәліметтерді түсіну жеңілірек деді. Яғни, бүгінгі тілдік маргинализация — техникалық ақау салдары ғана емес, терең тарихи және эпистемологиялық себептері бар, кеңестік кезеңнен қалған тілдік иерархия жаңғырығы іспеттес.

Алгоритмдік теңсіздік ЖИ жүйесінде қазақ тілінен бас тартуға итермелейтін когнитивті, экономикалық және әлеуметтік себептер тудыруы мүмкін. Ал оның мемлекеттің цифрлық тәуелсіздігі мен қауіпсіздігіне тікелей қатысы бар. Сондықтан болар, Нидерланд, Финляндия, Эстония сияқты елдер өз тілдерін дамыту бойынша кешенді шараларды қолға алған. Мысалы, әлемде фин тілінде сөйлейтіндер қазақ тіліне (17 млн) қарағанда үш есе аз болса да (5–6 млн), интернеттегі фин контенті қазақшадан озық тұр: алғашқы 25 тілдің қатарында. Олай болса, Қазақстанда да қазіргідей тіл бойынша бірнеше бытыраңқы жобалардың орнына қазақ тілі корпусы мен стандарттарын ілгерілететін бір ғана Ұлттық орталық құруға болады.

Азаматтық қоғам — қазақ тілін цифрландыруда шешуші күш. Қазақша цифрлық тіл қорын қалыптастыруға қоғамды да жұмылдыратын ауқымды бағдарламалар қажет. Мысалы, Еуропадағы ірі цифрлық кітапханалардың бірі — DBNL Нидерланд әдебиет қауымдастығы бастамасымен жасалған.

Мемлекеттік қызметтер мен ірі платформаларға толыққанды қазақ тілі локализациясын міндеттеу мен тіл бойынша KPI енгізу, аудит пен санкция қарастыратын экономикалық тетіктер де қазақ тілі қарқынын жылдамдатар еді. Мемлекет пен бизнес, қоғам мен ғылыми орта жұмылғанда ғана қазақ тілі технология тіліне айнала алады. Ал бұл –мемлекеттің цифрлық дербестігінің кепілі.

Если вы обнаружили ошибку или опечатку, выделите фрагмент текста с ошибкой и нажмите CTRL+Enter
Выбор редактора
Ошибка в тексте