Мазмұнға өту

Үлкен тілдік модель

Уикипедия — ашық энциклопедиясынан алынған мәлімет

Үлкен тілдік модель (ҮТМ — ағылшын тіліндегі large language model, LLM терминінің калькасы) — көптеген параметрлері бар (әдетте миллиардтаған салмақ коэффициенттері мен одан да көп) нейрондық желіден тұратын тілдік модель. Ол үлкен көлемдегі аннотацияланбаған мәтінге өзіндік оқыту (unsupervised learning) әдісі арқылы үйретіледі. ҮТМ шамамен 2018 жылдан бастап пайда болып, әртүрлі тапсырмаларды тиімді орындауға қабілетті екенін көрсетті. Бұл табиғи тілді өңдеу (NLP) саласындағы зерттеулердің бағытын өзгертіп, бұрын арнайы қадағаланатын (supervised learning) үлгілерге негізделген тәсілдерден бас тартуға ықпал етті.

Ерекшеліктері

[өңдеу | қайнарын өңдеу]

Үлкен тілдік модель терминінің нақты анықтамасы жоқ, бірақ ол көбінесе миллиардтаған және одан да көп параметрлері бар терең оқыту модельдерін білдіреді. ҮТМ – бұл кең мақсатқа арналған модельдер, олар белгілі бір жеке тапсырмаларға (мысалы, көңіл-күйді талдау, атаулы объектілерді тану немесе математикалық пайымдау) қарағанда әлдеқайда ауқымды міндеттерді орындай алады.

ҮТМ қарапайым тапсырмаларға, мысалы, сөйлемдегі келесі сөзді болжауға негізделіп үйретілгеніне қарамастан, синтаксис пен семантиканың күрделі заңдылықтарын үйреніп, адам тілі туралы кең көлемде білім ала алады. Сонымен қатар, олар әлем туралы жалпы білімге ие болып, оқу процесінде көптеген фактілерді "есте сақтай" алады.

Үлкен тілдік модельдердің дамуы

2017 жылға дейін қолжетімді есептеу қуатының шектеулі болуына байланысты үлкен тілдік модельдер аз болды. 1990 жылдары IBM компаниясы статистикалық тілдік модельдеуді алғашқылардың бірі болып зерттеді. 2001 жылы 0,3 миллиард сөзден тұратын мәліметтер жиынтығында жаттықтырылған тегістелген n-грамм моделі сол кездегі ең төменгі перплексия деңгейіне (түсініксіздік өлшеміне) жетті.[1]1]

2000-жылдары интернеттің кең таралуымен зерттеушілер ауқымды интернет деректер жиынтығын («web as corpus») құрып, статистикалық тілдік модельдерді оқыту үшін пайдаланды. 2009 жылға қарай, көптеген тіл өңдеу міндеттерінде символдық тілдік модельдерге қарағанда статистикалық модельдер басымдыққа ие болды, өйткені олар үлкен көлемдегі деректерді өңдей алатын болды.

2012 жылдан бастап нейрондық желілер бейнелерді өңдеуде кеңінен қолданылды, ал кейіннен тілдік модельдеуге де енгізілді. 2016 жылы Google компаниясы өз аударма қызметін нейрондық машиналық аударма технологиясына көшірді. Ол кезде трансформер архитектурасы әлі шықпағандықтан, бұл seq2seq терең LSTM желілері арқылы жүзеге асырылды.

Трансформер архитектурасының пайда болуы

2017 жылы NeurIPS конференциясында Google зерттеушілері «Attention Is All You Need» атты мақаласында трансформер архитектурасын ұсынды. Бұл мақала 2014 жылы ұсынылған seq2seq технологиясын жетілдіру мақсатында жазылды және негізінен Bahdanau және әріптестері 2014 жылы әзірлеген назар аудару механизмін қолданды.

2018 жылы BERT моделі таныстырылды және тез танымал болды. Алғашқы трансформер моделі энкодер және декодер блоктарын қамтыса, BERT тек энкодерден тұратын модель болды. Алайда, 2023 жылдан бастап, декодерге негізделген модельдер (мысалы, GPT) тапсырмаларды сұраныс арқылы (prompting) тиімді шешуге қабілетті болуына байланысты, BERT-тің ғылыми және зерттеу саласындағы қолданысы төмендей бастады.

GPT модельдерінің дамуы

Декодерге негізделген GPT-1 моделі 2018 жылы ұсынылды, бірақ 2019 жылы OpenAI GPT-2 моделін шығарғанда, ол үлкен қызығушылық тудырды. OpenAI бұл модельдің қауіпті қолданылуынан қауіптеніп, оны көпшілікке бірден жарияламады. 2020 жылы GPT-3 таныстырылды, ал 2024 жылға дейін ол тек API арқылы қолжетімді болды және жергілікті түрде жүктеп алып, орындауға ұсынылмады.

Алайда, 2022 жылы ChatGPT атты веб-негізіндегі тұтынушыға бағытталған өнім ұсынылғаннан кейін, ол кең таралып, медиа мен интернетте үлкен резонанс тудырды. 2023 жылы шыққан GPT-4 жоғары дәлдігімен және мультимодальдық қабілеттерімен ерекшеленді. OpenAI бұл модельдің архитектурасы мен параметрлер санын жарияламады. ChatGPT-дің шығуы жасанды интеллектті компьютерлік ғылымның түрлі салаларында, соның ішінде робототехника, бағдарламалық жасақтама инженериясы және әлеуметтік әсерді зерттеу бағыттарында кеңінен қолдануға себеп болды.

2024 жылы OpenAI ұзын логикалық тізбектер құра алатын OpenAI o1 атты ойлау моделін шығарды.

Бәсекелес тілдік модельдер және мультимодальды жасанды интеллект

GPT сериясымен бәсекелес модельдердің көпшілігі негізінен параметрлер саны жағынан теңесуге тырысты. 2022 жылдан бастап, ашық қолжетімді модельдер танымал бола бастады. BLOOM және LLaMA сияқты модельдер кейбір қолдану шектеулерімен ұсынылды, ал Mistral AI-дің Mistral 7B және Mixtral 8x7B модельдері Apache лицензиясымен таралды.

2025 жылдың қаңтарында DeepSeek компаниясы 671 миллиард параметрден тұратын DeepSeek R1 моделін таныстырды. Бұл модель OpenAI o1 моделіне тең келетін нәтижелер көрсетіп, бірақ әлдеқайда төмен шығынмен жұмыс істеді.

2023 жылдан бастап көптеген ірі тілдік модельдер (LLM) мультимодальды болып дамып, мәтіннен бөлек суреттер мен дыбыстарды өңдей алатын қабілетке ие болды. Мұндай модельдер «үлкен мультимодальды модельдер» (LMM) деп аталады.

2024 жылға қарай ең қуатты модельдердің барлығы трансформер архитектурасына негізделген. Дегенмен, кейбір жаңа модельдер рекурренттік нейрондық желілердің модификациялары немесе Mamba сияқты жаңа архитектуралар негізінде жасалды.

Архитектурасы және оқыту әдісі

[өңдеу | қайнарын өңдеу]

ҮТМ көбінесе трансформер архитектурасын пайдаланды, ол 2018 жылдан бастап тізбекті деректерге арналған терең оқытудағы стандартқа айналды. Бұрын кең тараған рекуррентті архитектуралар (мысалы, ұзақ мерзімді қысқа жады – LSTM) қолданылған болатын.

ҮТМ өзіндік оқыту тәсілімен аннотацияланбаған мәтінде үйретіледі. Трансформер құрылымы мәтіндерді солдан оңға қарай генерациялау кезінде келесі сөздің ықтималдығын барынша арттыруға бағытталған. Альтернативті түрде, екі бағытты трансформер қолданылады (мысалы, BERT моделінде), ол мәтіндегі сөздерді контексттің екі жағынан да қарастыра алады.

ҮТМ тек келесі сөзді болжау ғана емес, сонымен қатар көмекші тапсырмаларға да үйретілуі мүмкін. Мысалы, келесі сөйлемді болжау (Next Sentence Prediction, NSP) әдісінде модельге сөйлем жұптары беріледі және оның міндеті – олардың мәтін корпусында қатар кездесетін-кездеспейтінін анықтау.

ҮТМ алғашында миллиардтаған сөздерден тұратын корпустарда оқытылды. 2018 жылы GPT моделі 985 миллион сөзден тұратын BookCorpus мәліметтер базасында үйретілді. Сол жылы BERT моделі BookCorpus және ағылшын тіліндегі Уикипедиядан алынған 3,3 миллиард сөзден құралған мәліметтер базасында оқытылды. Кейінірек, оқу мәліметтерінің көлемі жүздеген миллиард, тіпті триллион токендерге дейін ұлғайтылды.

Үлкен тілдік модельдерді оқыту орасан есептеу ресурстарын қажет етеді. 2020 жылғы зерттеулерге сәйкес, 1,5 миллиард параметрі бар модельді оқыту құны 1,6 миллион долларды құраған. Сонымен қатар, модельдің мүмкіндіктері параметрлер саны, үйрету мәліметтерінің көлемі және есептеу қуаты артқан сайын тұрақты түрде жақсаратыны анықталды.

Қолданылуы

2018–2020 жылдар аралығында ҮТМ-ді нақты NLP тапсырмаларына бейімдеудің стандартты әдісі модельді қосымша оқыту (fine-tuning) болды. Кейіннен, қуаттырақ ҮТМ-дер (мысалы, GPT-3) ешқандай қосымша оқытусыз-ақ мәтіндік сыбыр сөз (prompting) арқылы тапсырмаларды орындай алатыны анықталды. Бұл тәсілде модельге шешілуі тиіс тапсырма арнайы мәтіндік сұрау ретінде беріледі.

Қосымша оқыту (Fine-tuning)

Қосымша оқыту — алдын ала оқытылған тілдік модельді белгілі бір нақты тапсырмаға бейімдеу процесі. Бұл әдіс трансферлік оқытуға жатады. Қосымша оқыту кезінде модельдің соңғы қабаты арнайы салмақ коэффициенттерімен қосылады және тек жаңа қабаттың параметрлері оқытылады. Кейбір жағдайларда, бастапқы қабаттардың параметрлері "қатып" (frozen) қалады, ал соңғы қабат қана жаңартылады.

Сыбыр сөз беру (Prompting)

Сыбыр сөз әдісі GPT-3 арқылы кең таралған. Бұл тәсілде модельге тапсырма сұрау түрінде беріледі, ал ол сұрауды толықтырып, дұрыс жауап ұсынуы тиіс.

Мысалы, сентименттік талдау тапсырмасы келесідей берілуі мүмкін:

Шолу: Бұл фильм өте нашар.  
Көңіл-күй: теріс

Шолу: Бұл фильм керемет!  
Көңіл-күй:  

Егер модель "оң" деп жауап берсе, онда ол тапсырманы дұрыс орындады.

Егер мысалдар берілмесе, бұл нөлдік мысал әдісі (zero-shot learning), ал бірнеше мысал берілсе, бірнеше мысал әдісі (few-shot learning) деп аталады.

ҮТМ-дер машиналық аударма, сұрақтарға жауап беру, сөйлемнің логикалық байланысын анықтау, сөзжұмбақтарды шешу және жаңа сөздерді қолдану сияқты NLP тапсырмаларын жоғары деңгейде орындай алады. Сыбыр сөз инженериясы (prompt engineering) – ҮТМ-дерді тиімді басқаруға бағытталған белсенді зерттеу саласы.

Үлкен тілдік модельдердің тізімі

[өңдеу | қайнарын өңдеу]

Тілдік модельдер кестесі

[өңдеу | қайнарын өңдеу]
Атауы Шығарылған уақыты Әзірлеуші Параметр саны Оқу корпусының көлемі Лицензия Ескертпелер
BERT 2018 Google 340 миллион 3,3 миллиард сөз Apache 2.0 Ерте шыққан және ықпалды тілдік модель.[2]
GPT-2 2019 OpenAI 1,5 миллиард 40GB (~10 миллиард токен) MIT Жалпы мақсаттағы трансформер негізіндегі модель.
GPT-3 2020 OpenAI 175 миллиард 499 миллиард токен Веб-API (ашық) GPT-3.5 жетілдірілген нұсқасы 2022 жылы ChatGPT ретінде қолжетімді болды.
GPT-Neo 2021 (Наурыз) EleutherAI 2,7 миллиард 825 GiB MIT GPT-3 баламасы, кейбір тесттерде GPT-3-тің шағын нұсқасын басып озды.
GPT-J 2021 (Маусым) EleutherAI 6 миллиард 825 GiB Apache 2.0 GPT-3 үлгісіндегі тілдік модель.
Megatron-Turing NLG 2021 (Қазан) Microsoft, Nvidia 530 миллиард 338,6 миллиард токен Шектеулі веб-қол жетімділік Суперкомпьютерлік кластерде оқытылған модель.
Claude 2021 (Желтоқсан) Anthropic 52 миллиард 400 миллиард токен Жабық (Proprietary) Әңгіме барысында қажетті мінез-құлыққа бапталған.
GLaM 2021 (Желтоқсан) Google 1,2 триллион 1,6 триллион токен Жабық Сарапшылар қоспасын қолданатын модель.
LaMDA 2022 (Қаңтар) Google 137 миллиард 1,56 триллион сөз Жабық Әңгімелесуге мамандандырылған.
GPT-NeoX 2022 (Ақпан) EleutherAI 20 миллиард 825 GiB Apache 2.0 Megatron негізіндегі модель.
Chinchilla 2022 (Наурыз) DeepMind 70 миллиард 1,3 триллион токен Жабық Кіші параметрлі, бірақ үлкен корпуспен оқытылған.
PaLM 2022 (Сәуір) Google 540 миллиард 768 миллиард токен Жабық Масштабтау мүмкіндіктерін зерттеуге бағытталған.
OPT 2022 (Мамыр) Meta 175 миллиард 180 миллиард токен Зерттеу мақсатында (ашық емес) GPT-3 негізінде жасалған, Megatron элементтері қосылған.
YaLM 100B 2022 (Маусым) Яндекс 100 миллиард 300 миллиард токен Apache 2.0 Оқыту деректерінің 75%-ы орыс тілінде.
BLOOM 2022 (Шілде) Hugging Face басқаруымен 175 миллиард 350 миллиард токен (1,6TB) Responsible AI Көптілді мәтіндік корпус негізінде оқытылған GPT-3 баламасы.
AlexaTM 2022 (Қараша) Amazon 20 миллиард 1,3 триллион Ашық веб-API "Тізбек-тізбекке" (sequence-to-sequence) бағытталған.
LLaMA 2023 (Ақпан) Meta 65 миллиард 1,4 триллион Зерттеу мақсатында (ашық емес) 20 тілдегі үлкен корпус негізінде оқытылған.
GPT-4 2023 (Наурыз) OpenAI Белгісіз Белгісіз Ашық веб-API ChatGPT Plus қолданушылары үшін қолжетімді. Microsoft Bing Chat-та GPT-4 қолданады.
StableLM 2023 (Сәуір) Stability AI 7 миллиард 800 миллиард Apache 2.0 Ашық бастапқы кодты.
GigaChat 2023 (Сәуір) Сбербанк Белгісіз Белгісіз Жабық
YandexGPT 2023 (Мамыр) Яндекс Белгісіз Белгісіз Жабық "Алиса" виртуалды көмекшісінің негізінде жұмыс істейді.

Деректер жиынтығын алдын ала өңдеу

[өңдеу | қайнарын өңдеу]

Машиналық оқыту алгоритмдері мәтінді емес, сандарды өңдейтіндіктен, алдымен мәтінді сандарға айналдыру қажет. Бірінші қадамда сөздік (вокабуляр) анықталады, содан кейін әрбір сөзге бірегей бүтін сан индексі беріледі, әрі қарай бұл индекске эмбеддинг тағайындалады.

токендеу әдістеріне Byte-Pair Encoding (BPE) және WordPiece жатады. Сонымен қатар арнайы басқару токендері де бар. Мысалы, [MASK] – мәтіндегі жасырын токенді білдіреді (BERT моделінде қолданылады), [UNK] – сөздікке кірмейтін белгілерді білдіреді. Сонымен қатар, кейбір арнайы символдар мәтіндік форматтауды көрсету үшін қолданылады. Мысалы, RoBERTa және GPT модельдерінде "Ġ" – алдындағы бос орынды білдіреді, ал BERT моделінде "##" – алдыңғы сөздің жалғасы екенін көрсетеді.[3]

GPT-3 (Legacy) моделінің BPE токенизаторы сөздерді келесі түрде бөлуі мүмкін:

token izer :  texts  -> series  of  numerical  " t ok ens "

токендеу деректерді сығымдайды, өйткені үлкен тіл модельдері (LLM) біркелкі өлшемді массивтерді талап етеді. Сол себепті қысқа мәтіндер ең ұзын мәтіннің өлшеміне сәйкестендіру үшін "толтыру" (padding) әдісімен кеңейтіледі. Орташа есеппен әрбір сөзге қажетті токен саны қолданылатын тілге байланысты өзгереді.

Byte-Pair Encoding (BPE)

[өңдеу | қайнарын өңдеу]

BPE әдісінде алдымен барлық бірегей таңбалар (соның ішінде бос орындар мен тыныс белгілері) униграммалық жиынтық ретінде қарастырылады. Кейіннен ең жиі кездесетін іргелес таңбалар жұбы би-gram ретінде біріктіріледі және барлық осы жұптар жаңа таңба ретінде алмастырылады. Бұл процесс қайталана береді, яғни жиі кездесетін n-gram тіркестері қосылып, үлкен сөздік қалыптасады (мысалы, GPT-3 моделінде сөздік өлшемі 50257 токен). Оқыту аяқталғаннан кейін токенизатор кез келген мәтінді өңдей алады, егер ол бастапқы жиынтықта болмаған таңбаларды қамтымаса.

Токендеу мәселелері

[өңдеу | қайнарын өңдеу]

Егер токенизатор негізінен ағылшын мәтіндерінің жиілігіне негізделсе, онда басқа тілдер үшін тиімсіз болады. Мысалы, GPT-2 токенизаторы кейбір тілдерде бір сөз үшін 15 есе көп токен қолдануы мүмкін (мысалы, Мьянмадағы Шан тілі үшін). Тіпті португал және неміс сияқты кең таралған тілдерде ағылшынмен салыстырғанда 50%-ға артық токен қажет болады.

Сондай-ақ, "ашкөз токендеу" (greedy tokenization) мәтінді аяқтау (text completion) кезінде белгілі бір қателіктер тудыруы мүмкін.

Деректерді тазарту

[өңдеу | қайнарын өңдеу]

Үлкен тіл модельдерін (LLM) үйрету үшін деректер жиынтығы төмен сапалы, қайталанатын немесе зиянды деректерден тазартылады. Дұрыс тазартылған деректер оқыту тиімділігін арттырып, модельдің нәтижелілігін жақсартады.

Болашақта интернетте LLM-дер арқылы жасалған контенттің көбеюіне байланысты деректерді тазарту үдерісі осындай контентті сүзуді қамтуы мүмкін. Егер LLM-генерацияланған мәтін адамның жазуына ұқсас болса, бірақ сапасы төмен болса, онда ол оқытылатын модельдердің өнімділігін нашарлатуы мүмкін.

Синтетикалық деректер

[өңдеу | қайнарын өңдеу]

Кейде үлкен тіл модельдерін (LLM) оқыту үшін табиғи мәтіндік деректер жеткіліксіз болады немесе олардың сапасы төмен болуы мүмкін. Осындай жағдайларда синтетикалық деректер қолданылады. Мысалы, Microsoft-тың Phi сериялы LLM модельдері басқа LLM арқылы жасалған оқулықтарға ұқсас деректермен үйретілген.

Қазақстандағы үлкен тілдік модельдің дамуы

[өңдеу | қайнарын өңдеу]

Назарбаев Университетінің Ақылды жүйелер мен жасанды интеллект институты (ISSAI) қазақ, орыс, ағылшын және түрік тілдерін қолдайтын ISSAI KAZ-LLM атты үлкен тілдік модельді әзірледі.[4]

Бұл модель 150 миллиардтан астам токендер негізінде оқытылып, мәтіндерді аудару, контент жасау және көлемді мәтіндерді өңдеу сияқты тапсырмаларды орындауға қабілетті. Сонымен қатар, ISSAI KAZ-LLM ұлттық мәдениетімізді танытатын әдеби және ғылыми шығармалар арқылы қазақ дүниетанымына бейімделген.[5]

Жобаны әзірлеуге қазақстандық зерттеушілер, IT мамандар және талдаушылар қатысып, негізгі жұмыстар 8 айға созылды. ISSAI KAZ-LLM моделі коммерциялық емес мақсатта Hugging Face платформасында қолжетімді.[6]

Дереккөздер

[өңдеу | қайнарын өңдеу]
  1. Goodman, Joshua (2001-08-09), Тілдік Модельдеудегі Біршама Прогресс . ағылшын тілінде
  2. Manning, Christopher D. (2022). Адам Тілін Түсіну Және Пайымдау.Daedalus.
  3. Kaushal, Ayush; Mahowald, Kyle (2022-06-06), Токендер өздерінің кейіпкерлері туралы не біледі және олар оны қайдан біледі?(ағылшын тілінде) https://arxiv.org/abs/2206.02608
  4. issai.nu.edu.kz
  5. Елде Kaz-LLM тілдік моделі әзірленді. 24.kz
  6. ISSAI KAZ-LLM — қазақ тілінің үлкен тілдік моделі. Назарбаев университетінің Ақылды жүйелер мен жасанды интеллект институты (ISSAI) сайты.

Сілтемелер

[өңдеу | қайнарын өңдеу]
  1. Қазақстанда KazLLM үлкен тілдік моделі әзірленді. Қазақстан Республикасының Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігінің Жасанды интеллект және инновацияларды дамыту комитеті сайты, 13 желтоқсан 2024.
  2. ISSAI KAZ-LLM — қазақ тілінің үлкен тілдік моделі. Назарбаев университеті Ақылды жүйелер мен жасанды интеллект институты (ISSAI) сайты.