Digital • بۇگىن, 12:11

جي داۋىرىندەگى قازاق ءتىلى: كولەمى 10 مىڭ ساعاتتان اساتىن دىبىستىق قور جاساقتالدى

3 مين
وقۋ ءۇشىن

استاناداعى حالىقارالىق «قازاق ءتىلى» قوعامىنىڭ كەڭسەسىندە OpenAI كومپانياسى وكىلدەرىنىڭ قاتىسۋىمەن كەزدەسۋ ءوتىپ, قازاق ءتىلىن تسيفرلىق كەڭىستىكتە دامىتۋعا باعىتتالعان بىرلەسكەن جوبانىڭ ىسكە اسۋ بارىسى مەن العاشقى ناتيجەلەرى تانىستىرىلدى, دەپ حابارلايدى Egemen.kz.

جي داۋىرىندەگى قازاق ءتىلى: كولەمى 10 مىڭ ساعاتتان اساتىن دىبىستىق قور جاساقتالدى

فوتو: istockphoto.com

جوبا اياسىندا كولەمى 10 ميللياردتان استام توكەندى قامتيتىن قازاق ءتىلىنىڭ ماتىندىك كورپۋسى (Kazakh Text Corpus), 10 مىڭ ساعاتتان اساتىن دىبىستىق دەرەكتەر قورى (Speech Corpus) جانە ۇلكەن ءتىل مودەلدەرىن باعالاۋعا ارنالعان AI Evaluation Benchmark Suite ازىرلەنگەن.

اتالعان باستاما 2025 جىلعى 7 قاراشادا ۆاشينگتوندا حالىقارالىق «قازاق ءتىلى» قوعامى مەن OpenAI اراسىندا جاسالعان كەلىسىم نەگىزىندە جۇزەگە اسىپ جاتىر. جوبانىڭ نەگىزگى ماقساتى – ساپالى تسيفرلىق كونتەنت قالىپتاستىرۋ جانە قازاق تىلىندەگى ۇلكەن ءتىل مودەلدەرىنىڭ جۇمىس ساپاسىن ارتتىرۋ.

ماتىندىك كورپۋس تولىقتاي شىنايى دەرەككوزدەردەن جينالىپ, وڭدەۋدەن ءوتىپ, قۇرىلىمدالعان. ونىڭ قۇرامىنا قازاق ءتىلىنىڭ تاريحي مۇراسى, دياسپورا تىلدىك دەرەكتەرى, سونداي-اق ءبىلىم, عىلىم, مەديتسينا, قۇقىق, تاريح جانە مەديا سالالارى قامتىلعان كونتەنت ەنگىزىلگەن. قازىر OCR جۇيەسى قازاق ءماتىنىن 99% دالدىكپەن تانىسا, ال قۇجات قۇرىلىمىن تالداۋ جۇيەسى 99% ناتيجەگە جەتكەن. بۇل تەحنولوگيالار ۇلكەن كولەمدەگى دەرەكتەردى ءتيىمدى وڭدەۋگە مۇمكىندىك بەرەدى.

AI Evaluation Benchmark Suite جۇيەسى قازاق تىلىندەگى مودەلدەردى بىرنەشە باعىت بويىنشا باعالايدى. العاشقى ناتيجەلەر بويىنشا ءماتىندى ءتۇسىنۋ – 76,89%, گرامماتيكا – 72,24%, ماقال-ماتەلدەردى قولدانۋ – 71,90%, ال قازاق ءتىلىنىڭ تابيعيلىعى – 23,08% دەڭگەيىندە تىركەلگەن. اۋدارما ساپاسى جوعارى كورسەتكىشتەر كورسەتىپ وتىر: اكادەميالىق اۋدارما – 85,81%, كوركەم اۋدارما – 86,46%, بالالار ادەبيەتىنىڭ اۋدارماسى – 89,22% دەڭگەيىندە قالىپتاسقان.

جوبانىڭ اۋديوقورى 10 810 ساعاتتان اسا ماتەريالدى قامتيدى. ونىڭ ىشىندە 1000 ساعات «التىن ستاندارت» دەرەك رەتىندە قولمەن تەكسەرىلگەن. قازىرگى تاڭدا قازاق تىلىندەگى سويلەۋدى تانۋ دالدىگى 92%-دان اسادى.

تسيفرلىق كەڭىستىكتەگى قازاق ءتىلى

سونىمەن قاتار كەيبىر جاساندى ينتەللەكت جۇيەلەرىنىڭ قازاق ءتىلىن باسقا تۇركى تىلدەرىمەن شاتاستىرۋ جاعدايلارى انىقتالعان. وسىعان بايلانىستى Automatic Speech Recognition (ASR) باعالاۋ جۇيەسى ازىرلەنىپ جاتىر.

مامانداردىڭ ايتۋىنشا, الداعى ۋاقىتتا قازاق تىلىندەگى سويلەۋدى تانۋ دالدىگىن 99%-عا جەتكىزۋ جوسپارلانىپ وتىر. جوبا قازاق ءتىلىنىڭ تسيفرلىق كەڭىستىكتەگى مۇمكىندىگىن كەڭەيتىپ, ونىڭ جاساندى ينتەللەكت داۋىرىندەگى باسەكەگە قابىلەتتىلىگىن ارتتىرۋعا باعىتتالعان.

ەسكە سالا كەتەيىك, بۇعان دەيىن ۇكىمەت قازاق ءتىلىن بىلمەيتىندەر ءۇشىن قانداس مارتەبەسىن الۋ قيىندايتىنىن مالىمدەگەن بولاتىن. 

سوڭعى جاڭالىقتار

LRT اتاۋى وزگەرەدى

وقيعا • بۇگىن, 12:29