Лингвистикалық статистика

Лингвистикалық статистика — 1) кең мағынада тіл ғылымының статистикалық әдістерді қолданатын саласы; 2) тар мағынада тілге байланысты математиканың кейбір мәселелерін, атап айтқанда, мәтіндегі тілдік бірліктердің статистикалық жіктелуін зерттейді. Лингвистикалық статистиканың алғашқы материалы — мәтін және оның грамматикалық бірліктері (әріп, дыбыс, жалғау, жұрнак, сөз, сөзтұлға, сөз тіркестері, сөйлем). Лингвистикалық статистикада олардың тілдік тұлғасына сандық сипаттамалар жасалады, яғни мәтіндегі қолданысы, кездесу жиілігі, үлестірімдік зандылықтары, жалпы табиғи сипаты зерттеледі Лингвистикалық статистикада ең көп тараған әдіс Ципф заңына (АҚШ) негізделген талдау әдісі болып табылады. Ол бойынша F x i-const теңдестігі анықталады, мысалы, Ғ — жиілік сөздігіндегі сөздің жиілігін, i - сөздің раңгісін, яғни жиілігі төмендеуіне қарай реттелетін тізімдегі нөмірін білдіреді.^[1]