Алгоритмдер қазақты дұрыс танымай жүр
Естеріңізде болса, ChatGPT алғаш шыққан сәтте ол көп адамға түсініксіздеу болды
Бастапқы үш әрпі белгілі бір ұғымды бергенімен, кейінгі үш әрпінің артына жасырылған мағынаға аса бойлай қоймадық. Есесіне жасанды интеллект көмегімен сурет жасау сәнге айналып, «Қазақстанды» бейнелегісі келгендер көп болды. Сонда ЖИ жапан түзде киіз үйдің қасында ұсқыны қазаққа келмейтін бір адамның суретін сызып беретін.
Осыдан келіп, қандай да бір жаңа технология қазақтың тамырын дөп басып келтіре алмайды деген күмән мен қазақ тілі технологияның икеміне көнбейді деген стереотиптер қоюлана түсті. Шындығында бұл мәселенің мәнісі GPT деген үш сөздегі pre-trained, яки бірнеше қайтара «қайнап» шыққан деректердің аздығында еді: жасанды интеллектіге біздің болмысымызды генерациялауға Қазақстан туралы цифрлы деректердің аздығы кедергі келтірді.
Негізі, ЖИ-дің қай түрі болмасын, оған берілген дата, яки «азығы» болмаса, ол әрі қарай білім өндіруге қауқарсыз. Нейрожелінің генератив түрі тілдік модельдер негізінде жұмыс істейді. Бұл модельдердің қайнаркөзі ағылшын тілінен бастау алады. Сондықтан да сурет сызатын, не мәтін құрастыратын жасанды интеллектінің қайсысы болса да қазақша сұранысты аударма арқылы шығарып береді. Қазақстан туралы цифрланған деректердің аздығы салдарынан азғантай ағылшынша ақпаратқа арқа сүйейді. Алгоритмдердің бізді танымай жатуының салдары осы. Бұл алгоритмдердің осалдығын емес, керісінше цифрлы кеңістікті өз болмысымызда сомдауда осал болып тұрғанымызды айғақтайды.
Бұл арада Ұлттық Цифрлы Мұрағат құру жайлы бастама көтерілуі — стратегиялық шешім. Қазақстан бұған дейін ашық деректердің каталогын құрастырып, ашық дата порталын құру тәжірибесін жинақтады. Бұл дата портал төрт мыңға жуық деректердің басын қосып, кез келген адамға еркін қолдануға мүмкіндік береді. Дегенмен ашық дата базасы туралы идея өз қарқынын жоғалтып алды. Кейбір датасеттер уақытылы жаңармайды. Ендігі кезекте мәтін, аудио, видео форматтағы Қазақстан жайлы цифрлы мұрағат та көпшіліктің игілігіне ұсынылса, нейрожеліге бізді тануға қосымша азық болар еді.
Архивтелетін деректердің ашықтығы, лицензиясы мен авторлық құқық мәселелері қалай шешіледі деген сұрақ та ашық қалып отыр. Өйткені Қазақстан көптеген жылдар бойы өзін Ресейдің көзімен танып келді. Жазылған деректер, түсірілген кино, архивтегі мәліметтер арнайы сүзгіден өтіп жатты. Цифрлы кеңістікке де Кеңес одағында қалыптасқан Қазақстанның бейнесі цифрланса, ЖИ танитын Қазақстан мен қазақиланып келе жатқан Қазақстан арасында тағы да айырмашылық пайда болмақ.
Цифрлы мұрағат құру тәжірибесі Оңтүстік Корея, Жапония елдерінде де бар. Бірақ бұл елдер әуелі ұлттық мұрасын зерттеп, зерделеп, өз тамырына бойлаудан бастады, әрі олар бір ұлт мәдениеті негізінде қалыптасқан елдер. Бар болғаны дәстүр-салтын технологиялық шешімдермен икемдеп цифрлы әлемге көшірді.
Қарап отырсақ, уақыт өткен сайын ЖИ технологиялық құрал ғана емес, идеологиялық шешімдерге де әсер ететін тәсілге айналып отыр. Ертеңгі ұрпақ бізді қалай қабылдайды, өзге елдермен қарым-қатынас құруда ел бейнесі қандай болады? Бұл енді біздің осы репрезентациямызға да байланысты болмақ.