Қатысушы:Мөлдір Бақытқызы/зертхана

Уикипедия — ашық энциклопедиясынан алынған мәлімет
Навигацияға өту Іздеуге өту
«Qazcorpora.kz» қазақ тілі ұлттық корпусының публицистикалық мәтіндерінің кіші корпусы – «Ұлттық рухани жаңғыру» ұлттық жобасы шеңберінде іске асырылып жатқан жобалардың бірі. Корпус – белгілі бір тілдегі мәтіндердің электронды түрде жинақталуына негізделген ақпараттық-анықтамалық жүйе. Корпусты құрудың негізгі мақсаты – табиғи тілдік ресурстарды жинау, қалыпқа келтіріп, жүйелендіру, нәтижелерді ұтымды пайдалану үшін тұтынушыларға ұсыну.
Қазақ тілі ұлттық корпустарының кіші корпустары

Ұлттық корпус – бұл қазақ тілінің бір жүйеге кіріктірілген тілдік материалдарының базасы ғана емес, сондай-ақ виртуалды кеңістікте мемлекеттік тілдің қызмет етуін, семантикалық кеңістігін кеңейту, ақпараттық таралу ауқымын кеңейту, тілдік ресурстарға жаппай қол жеткізу тетігі. Цифрландырылған жүйе түріндегі қазақ тіліндегі мәтіндердің базасын көрсететін осы ақпараттық-анықтамалық ашық жүйе ұлттық тіл тіршілігінің белгілі бір кезеңінде (немесе кезеңдерінде) әдеби тіл стилінің, тілдік қолданудың барлық түрлерін жинақтайды және тұтынушыға ұсынады.

Жыл бойғы есеп бойынша талданған сөзқолданыс саны – 2347713 бірлік. Сөз таптарына шаққандағы саны – зат есім - 4927011, етістік – 1554236, сан есім – 1744, сын есім -289935, қалғандарын өзге сөз таптары құрайды.

Корпус көлемі: 5 304 құжат, 309 153 сөйлем, 5 141 248 сөзқолданыс

Іздеу жүйесі[өңдеу | қайнарын өңдеу]

  • Іздеу жүйесі бірнеше фильтрден тұрады:
  • • нақты сөз арқылы іздеу;
  • • морфологиялық іздеу, яғни сөздің жіктелуі бойынша іздеу;
  • • сөз табы бойынша іздеу;
  • • сөздің жіктелуі бойынша іздеу;
  • • сөздің соңындағы тыныс белгілері арқылы іздеу.

https://qazcorpora.kz/

Қолдану бойынша нұсқаулық https://test.qazcorpora.kz/assets/Instructions_kaz.pdf[өңдеу | қайнарын өңдеу]

Жоба жетекшісі – филология ғылымдарының кандидаты, доцент Нұрлыхан Аитова , техникалық сүйемелдеу бойынша жетекшісі – Мөлдір Бақытқызы.

Жоба жұмысына филолог ғалымдар, келесі отандық жоғары оқу орындары мен ғылыми ұйымдардың сала мамандары қатысты:

- А. Байтұрсынов атындағы Тіл білімі институты;

- Қазақ ұлттық университеті Әл-Фараби атындағы ҚазҰУ;

- Л. Н. Гумилев атындағы Еуразиялық ұлттық университеті;

- Назарбаев Университеті;

- Қазақ ұлттық қыздар педагогикалық университеті;

- Қ. Жұбанов атындағы Ақтөбе өңірлік университеті;

- Баишев университет;

- «Minialgo» ЖШС;

- «Qazkitap баспасы» ЖШС.

Публицистикалық мәтіндер корпусына «Егемен Қазақстан», «Ана тілі», «Қазақ әдебиеті», «Түркістан», «Заң» газеттерінде жарияланған мақалалардың электронды көшірмелері енгізілді. Әлемнің негізгі тілдерінің көпшілігінде өздерінің ұлттық корпустары бар, олар бір-бірінен мәтіндерді ғылыми өңдеудегі толықтығы мен деңгейі арқылы ерекшеленеді.

Қазіргі әлем тілдері ішінде мойындалған корпус – «Британдық ұлттық корпус» (BNC), көптеген басқа заманауи корпустар соған бағытталған. Прагадағы Карл университетінде құрылған чех ұлттық корпусы да ерекше орын алады, Орыс тілінің ұлттық корпусы да қарқынды дамуда. Ұлттық корпустың мүмкіндіктері:

- тілді ана тілі немесе шеттілі ретінде үйрету үшін қажет (әлемде оқулықтар мен оқу бағдарламалары қазір Корпусқа бағытталған. Кез келген шетелдік, мектеп оқушысы, мұғалім, журналист, редактор және жазушы корпусты қолдана отырып, бейтаныс сөзді немесе грамматикалық форманың қолдану ерекшеліктерін тез және тиімді тексере алады);

- тілдің лексикасы мен грамматикасын, ондағы жүздеген жылдар бойы болған өзгерістерді ғылыми зерттеу үшін қажет;

- ақпаратты іздеуді оңтайландырады;

- ауқымды материалдарды талдау, өңдеуді, статистикалық мәліметтерді алуды оңайлатады;

- қажетті сөздіктерді корпус базасына негізінде құрастыруға болады;

- корпус базасы үнемі үздіксіз жетілдіріліп, толықтырылып отырады.

Мәтінге 12-20 параметрлік метабелгілер (мәтін авторы, мәтін тақырыбы, мәтін стилі, жанр, мәтін түрі, хронотоп, дереккөз, басылым мерзімі және т.б.) жасалды. Алдағы уақытта публицистикалық стильдің басқа да ішкі жанрларын қамту, сондай-ақ басылым кезеңдері бойынша ұлғайту және дереккөздердің атаулары бойынша кеңейту көзделуде.