Алматы экономика және статистика академиясы пәннің ОҚУ-Әдістемелік кешені



жүктеу 5.88 Kb.

бет3/8
Дата22.04.2017
өлшемі5.88 Kb.
1   2   3   4   5   6   7   8

Жылжымалы орта әдісі.  
Кӛп  жағдайда  динамикалық  мәліметтер  тенденция,  кезеңдік  және 
кездейсоқ  компоненттерден,  ал    кӛбінесе  барлық  3  компоненттен  тұрады. 
Олардың  әр  деңгейі  кезеңдік  ауытқулар  және  кездейсоқ  компоненттер 
әсерімен  қалыптастырылады.  Сондықтан  кӛрсеткіштің  дұрыс  заңдылықпен 
ӛзгеруі  үшін  ӛзгерістің  негізгі  және  кездейсоқ  қысқа  уақытта  туындаған  
ауытқулар  тенденциясын  айыра  білу  керек.  Ол  үшін  динамика  қатарлары 
қайта ӛнделеді.  
Динамика  қатарларын  ӛңдеудің  бірнеше  әдісі  бар,  олар:  интервалды 
ірілендіру әдісі, жылжымалы орта әдісі. Ӛңделген қатар сосын аналитикалық   
әдіспен  математикалық  ӛрнегі  табылады.  Барлық  әдістерде  қатарды  қайта 
ӛңдеу  кезінде  нақты  деңгейдің  орнына  сол  немесе  басқа  әдіс  арқылы 
кездейсоқ  факторлардың  әрекеті    әлсізденеді  және  сонымен  бірге  деңгейдің 
тербелісі  тӛмендейтін  басқа  теңдеулер  есептеледі.  Нәтижесінде  бастапқы 
нақты мәліметтерге қатысты «тегістелген», «ӛңделген» қатар болады. Қайта 
ӛңдеу динамика қатарларын ӛңдеу немесе тегістеу әдістері деп аталады.  
Интервалдарды  ірілендіру  әдісі.    Қатардың  деңгейлерін  ӛңдеудің  ең 
қарапайым  түрі  –  зерттеліп  отырған  кӛрсеткіштің  уақыт  интервалдарын 
ірілендіру.  Бұл  әдісте  уақыт  периоды  қысқа  мерзімдерді  кӛрсеткенде  ғана  
ыңғайлы  болады.    Мысалы,  егер  әр  күндік  немесе  әр  айлық  сауда  немесе 
тауардың  ӛндірілуі  туралы  мәліметтер  болса,  қатардағы    деңгейлердің 
тербеліс    периоды    аз  шама  болғанына  байланысты  оларға  әсер  ететін 
кездейсоқ факторлардың да кӛп болуы мүмкін. Мұндай әсердің болуына жол 
бермес үшін уақыттың аралығын ірілендіру ұсынылады, мысалы, күнделікті 
мәліметті 5-ке немесе 10 күнге дейін, әр айды тоқсанға және т.с.с. 
Мысал  1.  Ӛнеркәсіптің  2  жылдық  әр  айдағы  ӛнім  ӛндірілуі  туралы 
мәліметтер  бар  (кесте  18).  Кестеде  екінші  графада  жиырма  тӛрт  айдың 
динамикалық  мәліметтері  берілген.  Берілген  мәліметтердің  графигін  салсақ  
(сурет  7),  ауытқулардың  кӛп  екендігін  кӛреміз.  Оның  тренд  теңдеуінің 
детерминация коэффициенті R
2
=0,68, ӛте үлкен емес.  
 
 
 
 
 
 
 
 
 
 
Сурет 7. Айлық мәліметтердің графигі 
 
 
 
y = 0,1297x + 2,0746
R
2
 = 0,6848
0
2
4
6
8
1
3
5
7
9
11 13 15 17 19 21 23
Ум


Линейный (Yм)
Линейный (Yм)

32 
 
Кесте 18-Мәліметтерді ӛңдеу 
 
№ Yай Утоқс Уорт,ай  Утоқс Уай.орт 
1  2 




1  2,3   
 
6,8 
2,267 
2  2,7   
 
7,8 
2,6 
3  1,8  6,8 
2,267 
9,5 
3,167 
4  2,4   
 
10,8  3,6 
5  2,6   
 
12,1  4,033 
6  2,8  7,8 
2,6 
13,3  4,433 
7  3,4   
 
13,9  4,633 
8  2,9   
 
14,5  4,833 
9  3,2  9,5 
3,167 
 
 
10 4,1   
 
 
 
11 2,9   
 
 
 
12 3,8  10,8  3,6 
 
 
13 3,9   
 
 
 
14 4,8   
 
 
 
15 3,4  12,1  4,033 
 
 
16 4,5   
 
 
 
17 3,6   
 
 
 
18 5,2  13,3  4,433 
 
 
19 2,9   
 
 
 
20 4,9   
 
 
 
21 6,1  13,9  4,633 
 
 
22 4,5   
 
 
 
23 4,8   
 
 
 
24 5,2  14,5  4,833 
 
 
 
Динамикалық  қатардың  мәліметтеріне  адекватты  болатын    тренд 
теңдеуін табу  үшін мәліметтерді ӛңдеу керек.  Ол  үшін  айлық мәліметтерді 
тоқсандыққа  келтіру  үшін,  әр  үш  айдың  мәліметтерін  қосамыз.  Тоқсандық 
есептеулерді  Exceл  кестесінде  орындап  үшінші  графаға  орналастырып, 
график  сызуға  ыңғайлы  болу  үшін  бесінші  графаға  реттеп  орналастырып 
графигін тұрғызып, тренд теңдеуін анықтаймыз (сурет 8).   
Осы  мәліметтер  бойынша  тренд  теңдеуінің  адекваттылығы  жоғары, 
R
2
=0,98.  Алынған  тренд  теңдеуі  бойынша  анализ  және  болжам  жасауға 
болады. Бірақ болжам келесі  тоқсанға  жасалады. Мысалы: 
У=5,8857+1,156t 
Мұнда t =1,2,3…8 –тең. Болжам t=9 болғанда табуға  болады. 
 
У=5,8857+1,156t= 5,8857+1,156*9= 16,29 
 
 

33 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Сурет 8  Тоқсандық мәліметтердің графигі 
 
Егер  болжам  айларға  жасау    керек  болса,  онда  әр  тоқсан  бойынша 
орташа  айлық  мәндерін  табамыз.  Тоқсандық  мәндерді  үшке  бӛліп  есептеп, 
тӛртінші графаға жазамыз. График салуға ыңғайлы болу үшін 6-шы графаға 
орналастырып, графигі бойынша тренд теңдеуін анықтаймыз (сурет  9) 
 
 
 
 
 
 
 
 
 
 
 
Сурет  9 -Тоқсандағы орташа айлық мәліметтердің графигі 
 
Тренді  теңдеуі  У=1,9214+0,3869t,      R
2
=0,9795.  Мұндада  теңдеудің 
адекваттылығы жоғары.  
Осы теңдеу бойынша болжам  
У=1,9214+0,3869t= У=1,9214+0,3869*9= 5,4 болады. 
Бұл  келесі  тоқсанның  орташа  айлық  болжамы.  Болжау  периодының 
орта  мәні  анықталғаннан  кейін,  ай  сайынғы  мәліметтердің  ӛзгеру 
тенденциясын ескеріп, периодтың әр айына болжамның шамасы ӛңделеді.  
Жылжымалы орта әдісі. Бұл әдіс уақыт периоды ірілендіруге келмеген 
жағдайда,  немесе  мәліметтер  саны  жеткіліксіз  болғанда  пайдаланған 
ыңғайлы.  Мұнда  нақты  деңгейлер  қатардың  m  деңгейлерін  топтастырып  
жылжымалы  түрде  ірілендірілген  интервалдар  үшін  есептелген  орта 
деңгейлермен алмастырылады. Мысалы, m=3 деп қабылдасақ, онда алғашқы 
y = 0,386x + 1,921
R² = 0,979
0
1
2
3
4
5
6
1
2
3
4
5
6
7
8
Укв

р
Ряд1
Линейная (Ряд1)
y = 1,156x + 5,885
R² = 0,98
0
2
4
6
8
10
12
14
16
1
2
3
4
5
6
7
8
У
кв
Ряд1
Линейная (Ряд1)

34 
 
3 деңгейлердің  орта шамасы есептеледі, одан соң бір деңгей жылжып келесі 
үшеуінің  орта  шамасы  табылады,  сӛйтіп,  жылжый  отырып,  әр  кезді  3 
деңгейдің сомасында жаңадан бір деңгей  пайда болады (кесте 17, сурет 10).  
Берілген  жылжымалы  орта    әдісін  алдыңғы  мысалдан  қарастырайық. 
Мұнда жылжымалы орта әдісі 3 және 4 деңгей бойынша орындаймыз. 
 
 
 
 
 
 
 
 
 
 
 
 
 
Сурет 10-  У және  У(3) , У(4) мәндері бойынша  графиктер 
 
   Кесте  19-   Мәліметтерді ӛңдеу   

Yайлық  У(3) 
У(3)орт 
У(4)  У(4)орт 







2,3 
 
 
 
 

2,7 
6,8 
2,2667 
9,2 
2,3 

1,8 
6,9 
2,3 
9,5 
2,375 

2,4 
6,8 
2,2667 
9,6 
2,4 

2,6 
7,8 
2,6 
11,2 
2,8 

2,8 
8,8 
2,9333 
11,7 
2,925 

3,4 
9,1 
3,0333 
12,3 
3,075 

2,9 
9,5 
3,1667 
13,6 
3,4 

3,2 
10,2 
3,4 
13,1 
3,275 
10  4,1 
10,2 
3,4 
14 
3,5 
11  2,9 
10,8 
3,6 
14,7 
3,675 
12  3,8 
10,6 
3,5333 
15,4 
3,85 
13  3,9 
12,5 
4,1667 
15,9 
3,975 
14  4,8 
12,1 
4,0333 
16,6 
4,15 
15  3,4 
12,7 
4,2333 
16,3 
4,075 
16  4,5 
11,5 
3,8333 
16,7 
4,175 
17  3,6 
13,3 
4,4333 
16,2 
4,05 
18  5,2 
11,7 
3,9 
16,6 
4,15 
19  2,9 
13 
4,3333 
19,1 
4,775 
20  4,9 
13,9 
4,6333 
18,4 
4,6 
0
5
10
15
20
25
1
3
5
7
9
11
13
15
17
19
21
23
Ряд1
Ряд2
Ряд3

35 
 
21  6,1 
15,5 
5,1667 
20,3 
5,075 
22  4,5 
15,4 
5,1333 
20,6 
5,15 
23  4,8 
14,5 
4,8333 
 
 
24  5,2 
 
 
 
 
 
Берілген  мәліметтерді  үштен  және  тӛрттен  топтастырып  бір  мәнге 
жылжу арқылы есептелген мәндердің графигі тегістелгенін  байқауға болады. 
Қаншадан  топтастыруды  алдын  ала  анықтау  қиын,  есептеп  графигін 
салыстыру арқылы шешім қабылдауға болады.   
    Енді 
үштен 
топтастырған 
мәліметтердің 
тренді 
теңдеуі  
Y=6,4792+0,3994t адекватты, R
2
=0,93 (сурет  11 )  
 
 
 
 
 
 
 
 
 
 
 
 
 
Сурет  11- Үштен топтасқан мәліметтердің тренді теңдеуі 
 
y = 0,399x + 6,479
R² = 0,935
0
5
10
15
20
1
3
5
7
9
11
13
15
17
19
21
Укв
Ряд1
Линейная (Ряд1)

36 
 
Тӛрттен топтастырып тренді теңдеуін анықтасақ үштен топтастырғанға 
қарағанда теңдеудің адекваттылығы жоғары екенін кӛреміз (сурет 12 ).  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
Сурет 12 - Тӛрттен  топтасқан мәліметтердің тренді теңдеуі 
 
№7  дәріс.  Кластерлік  талдаудың  негізгі  тҥсініктемелері.  Хемминг 
арақашықтығы. Иерархиялық кластер-процедуралар 
 
Объектілерді 
классификациялаудың 
 
бірнеше 
әдістері 
бар. 
Аналитикалық  зерттеуді  қажет  етпейтін  ең  оңай  әдістердің  бірі  бір  немесе 
бірнеше белгілеріне байланысты топтастыру болып табылады. 
Топтастырудың  мақсаты  мынадай  болып  табылады:    зерттеушінің 
кӛзқарасына  сәйкес  берілген  белгілердің  ішінен  бірі  таңдалып,  осы  белгіге 
байланысты мәліметтерді топтастыру. Егер мәліметтерді бірнеше белгілеріне 
байланысты  топтастыру  керек  болса,  белгілердің  сол  объектілер  үшін 
маңыздылығына  сәйкес  алдымен  маңыздылығы  жоғары  белгі  бойынша,  ал 
кейін екінші белгі бойынша топтастырады. 
Классификациялық  белгілерді  берілген  әдіспен  топтастыру    мүмкін 
болмаса,  онда  факторлық  немесе  компоненттік  талдау  негізінде  топтастыру 
жүргізіледі.  Атап ӛту керек, топтастыруды қолданғанда нәтижелерді бӛлудің  
талдау жасаушыға тікелей байланысты  екендігі. 
         Шешім  қабылдау  үшін  объективті  ақпараттық  қолдау  беретін   
автоматты классификациялауға кластерлік талдауды жатқызуға болады.  
         Келесі  есепті  қарастырайық.  Х  белгілері  бойынша  N  объектінің   
мәліметтері берілген. Осы мәліметтерді біртекті белгілері бойынша топтарға 
немесе кластарға бӛлу қажет.   
       Бӛлінген  мәліметтер    нәтижесінде  алынған  топтар  кластер  деп 
аталады, оны кластерлік талдау әдісін пайдаланып топтастырамыз. 
       Айнымалылар 
кеңістігінде 
кластерлер 
әртүрлі 
нүктелер 
жиынтығын құрайды                                   
y = 0,537x + 8,892
R² = 0,962
0
5
10
15
20
25
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21
Ряд1
Линейная (Ряд1)

37 
 
 
                             Шар тәріздес                                           Элиипс тәріздес 
 
 Банан тәріздес                                                   Конус тәріздес 
 
                                 1 сурет. Кластер түрлері  
 
Кластерлі  талдауда  мәліметтер  бастапқыда  тікбұрышты  үшбұрыш 
ретінде кӛрінеді, әр бағаны бір немесе бірнеше белгісі бойынша нәтижелерді 
анықтайды. 
 

38 
 



















nk
nj
n
ik
ij
i
k
j
x
x
x
x
x
x
x
x
x
X
...
...
...
...
...
...
...
...
...
...
...
...
...
..
.
...
...
1
1
1
1
11
 
 
Кейбір  жағдайда    объектілерді  сонымен  қатар  белгілерді  де 
топтастыруға  болады.    Х  матрицасы  берілген.  Бұл  матрица  кластерлік 
талдаудағы  мәліметтердің  берілуінің  жалғаз  ғана  түрі  емес.    Кейбір  кезде 
мәліметтер квадраттық матрица түрінде де берілуі мүмкін.  
n
j
i
d
D
ij
,...,
2
,
1
,
),
(


 
2. 
Объектілер 
(кластерлер) 
арасындағы 
арақашықтық 
және 
жақындылық шамасы 
    Классификацияны  шешуде  барынша  қиын  және  барынша  аз 
қалыптасқан болып біртекті объектілер түсінігін анықтау табылады.  
    Жалпы  жағдайда  біртекті  объектілер  түсінігі  не  кез  келген 
зерттелініп  жатқан  объектілер 
)
,
(
j
i
x
x
d
 арасындағы  қашықтықты  есептеу 
ережелерін  енгізу,  не  i  және  j  объектілердің  жақындық  дәрежесін 
сипаттайтын 
)
,
(
j
i
x
x
f
 кейбір  функцияларын  енгізуден  байқалады.  Егер 
)
,
(
j
i
x
x
f
 функциясы  берілетін  болса,  онда  осы  метрика  тұрғысынан  жақын 
объектілер бір класқа жататын біртекті болып есептеледі. Кӛріп отырғандай, 
осы кезде 
)
,
(
j
i
x
x
f
-ті кейбір нақты жағдайда ӛзіндік анықталатын мәндермен 
салыстырып қарау қажет. 
    Дәл  осылай  ең  жақын  ара  қашықтық  шамасын  да 
)
,
(
j
i
x
x
d
 
қолданылады, оны есептеу кезінде біз келесідей шарттардың орындалуының 
қажеттілігін  есте  сақтауымыз  қажет:  симметрия 
)
,
(
)
,
(
i
j
j
i
x
x
d
x
x
d


)
,
(
max
)
,
(
j
i
ij
j
i
x
x
d
x
x
d

 1≤i,  j≤n  кезінде  және 
)
,
(
j
i
x
x
f
-тің  ұлғаю  шамасы 
бойынша 
)
,
(
j
i
x
x
d
-тің  монотонды  кемуі  кезінде  объектінің  ӛз-ӛзімен 
максималды  ұқсастығы  орындалуы  қажет;  яғни 
)
,
(
)
,
(
j
i
l
k
x
x
f
x
x
f

 осыдан  
)
,
(
)
,
(
j
i
l
k
x
x
d
x
x
d

теңсіздігі. 
    Метриканы  немесе  жақындылық  шамасын  таңдау  бұл  зерттеудің 
жиынтық  жағдайы  болып  табылады,  оған  негізінде  берілген  алгоритмдер 
шамасында  объектілерді  кластарға  бӛлудің  соңғы  нұсқасы  тәуелді.  Кез 
келген нақты жағдайда бұл таңдау зерттеу мақсатына байланысты Х зерттеу 
векторының  физикалық  және  статистикалық  табиғатына  тәуелді  ӛзіндік 
жүргізілуі қажет.  
    Кластерлік  талдауда  барынша  кең  қолданылатын  арақашықтық  пен 
жақындылық шамаларын қарастырайық. 
Махаланобис арақашықтығы 








1
0
)
(
)
(
)
,
(
J
i
j
i
j
i
X
X
X
X
x
x
d
 

39 
 
  Мұндағы  ∑-  бас  жиынның  ковариациялық  матрицасы,  одан  Хі 
бақылауы  алынады;    ал  Λ  –  кейбір  симметриалы  теріс  емес  анықталған 
«салмақталған» коэффициенттерінің 
mg

, ол әдетте диагоналды таңдалады. 
Қарапайым евклидті қашықтық 




k
e
jl
il
j
i
x
x
x
x
d
1
2
)
(
)
,
(

                 (1) 
Мұндағы  xil,xjl  –  i-ші  (j-ші)  объектінің  компоненттерінің  (l=1,2 
….,k,I,j= l,2, ….,n) l-ші мӛлшері 
    Бұл қашықтықты қолдану келесі жағдайларда анықталған: 
Бақылау  бас  жиыннан  алынуы  мүмкін, 
k
E
2

 түріндегі  ковариациялық 
матрицамен  кӛп  ӛлшемді  бір  қалыпты  үлестірімді,  яғни    Х  компоненттері 
ӛзара  тәуелсіз  және 
k
E
 –  к-ші  ретті  бірлік  матрицасы  болып  табылатын 
бірдей дисперсиясы бар; 
Х  бақылауының  векторының  компоненттері  физикалық  мағынасы 
тұрғысынан қарағанда біртекті және классификация үшін бірдей маңызды; 
Құбылыстық кеңістік геометриялық кеңістікпен сәйкес келеді. 
    Әрине  геометриялық  кеңістік  тұрғысынан  евклидті  кеңістік  мәнсіз 
болуы  мүмкін  (мазмұнды  интерпретация  тұрғысынан),  егер  құбылыстар  әр 
түрлі ӛлшемде ӛлшенген болса. Жағдайды түзеу үшін, әрбір құбылысты орта 
квадраттық ауытқудың орталықтандырылған шамасын  бӛліп шығу жолымен 
және Хк матрицасынан тӛмендегідей элементтері бар нормаланған матрицаға 
кӛшеді: 
l
l
il
il
s
x
x
t


 
мұндағы 
il
x
 i  объектісінің  l-  белгісінің  мәні, 
l
x
   l-  белгісінің  орташа 
мәні.  




n
i
il
il
l
x
x
n
s
1
2
)
(
1
 l- белгісінің орташа квадраттық ауытқуы.  
    Алайда  бұл  операция  жағымсыз  салдарға  әкеп  соғуы  мүмкін.  Егер 
кластерлер бір құбылыс бойынша жаксы бӛлінген болса және басқа бойынша 
бӛлінбеген  болса,  онда  қалыптастырудан  кейін  бірінші  құбылыстың 
дискриминантты мүмкіндіктері екіншінің «шуылдақ» әсерінен азаюы мүмкін. 
 
 
Салмақталған евклидтік кеңістік 
 




k
e
jl
il
e
l
i
BE
x
x
x
x
d
1
2
)
(
)
,
(

(2) 
 кез  келген  х
l
  компонентінің  Х  бақылау  векторы  болған  жағдайда    w
l
 
қосымша  салмақты  жазу  керек,  ол    дәл  осы  жағдайда  қолданылады.  Әдетте 
оны 0<═w
l
 , l=1,2,…,k болған кезде қолданылады. 

40 
 
   Салмақты  анықтау,  ереже  бойынша,  қосымша  зерттеулермен 
байланысты.  Мысалға:    ұйым  сарапшыларын  ұйымдастыру  мен  және 
олардың  ойын  ӛңдеумен  салмақты  анықтау.  w
l   
таңдауының  берілгені 
бойынша қате қорытындыларға алып келуі мүмкін.   
 
Хемминг арақашықтығы 
Дихотомитикалық  қасиеттермен  тапсырылған  объектілерді  бӛліп 
қарастыру  ӛлшемі  ретінде  қолданылады.  Бұл  тӛмендегі  формуламен 
анықталады: 




k
e
jl
il
j
i
H
x
x
x
x
d
1
)
,
(
                                (3) 
 
Және қарастырылып жатқан i және j объектілерінің  сәйкес мәндерінің 
сәйкессіздік мәніне тең болады. 
Объектілерді  кейбір  топтастыру  тапсырмаларында  объектілер 
жақындығы бойынша кейбір функционалдық мәнді параметрлерді қолдануға 
болады, сол немесе басқа да объектілер арасындағы байланысты сипаттайды. 
Мысалға:  топтастыру  тапсырмасын  халық  шаруашылық  салаларында 
агрегаттық  мақсатымен  сала  аралық  баланс  матрицасының  негізінде 
шығарады.  Берілген  тапсырмада  топтастыру  объектісі  болып  халық 
шаруашылық саласы табылады.Салааралық баланс матрицасы s
ij
  элементінің 
жылдық  қойылым  сомасын  сипаттайтын  і-нші  саланың  j-салаға  ақшалай 
мәндері болады. 
 
Жақындық  ӛлшем    бірлігі  ретінде  (d
ij
)  cимметриялық 
нормаланған салааралық баланс матрицасы болып табылады. Нормаландыру 
мақсатында і саланың j салаға  қойылуының ақшалай мәні бұл қойылымның 
і-нші саласына қатысты үлесін ауыстырады. 
 
Нормаланған матрицаның нормасын салааралық баланстың d
ij
=d
ji
 
болған жайдайындағы і-нші саланың j-салаға орташа мәнін келтіруге болады.  
 
Ереже 
бойынша, 
кӛпфакторлы 
берілгендердің 
топтастырылуының  шешімі  әдістерді  жүзеге  асырудың  алдын  ала  зерттелуі 
ретінде  болады  да  зерттелінетін    х1,х2……..xk    векторларының 
салыстырмалы  үлкен  емес  санын  ақпараттық  яғни  зерттелетін  кеңістіктің 
кӛлемін  кішірейтуге  бағытталады.  Топтастыру  процедурасының  қатарын 
(процедура-кластері)  объектілер  топтары  арасындағы  түсінік  ретінде 
қолданылады  және  объектінің  екі  тобының  жақындық  шарты  бойынша 
анықтайды. 
 S

-i-нші топ байланысын (класс, кластер)  n

ші объектіден тұратын; 
 x

-орта  арифметикалық  мәндер  векторы  S

үшін  яғниi-нші  топтың 
орташа салмақталған әдісі
d(s
l
,s
m
) -s

 және s

 топтары арасындағы арақашықтық. 
 
Объектілерді 
топтастыру 
кластарының 
арақашықтықтарының  
арасында ең кӛп қолданылатындары болып тӛмендегілер табылады: 

41 
 
«Жақын кӛршілес» қағидасы бойынша ӛлшенетін ара қашықтық
)
,
(
min
)
,
(
,
min
j
i
S
x
S
x
m
i
X
X
d
S
S
d
m
j
e
i



 (4) 
«Алыс кӛршілес» қағидасы бойынша ӛлшенетін арақашықтық; 
)
,
(
max
)
,
(
,
max
j
i
S
x
S
x
m
i
X
X
d
S
S
d
m
j
e
i



 (5) 
«Орташа салмақталған» ӛлшем бойынша ӛлшенетін арақашықтық; 
)
,
(
)
,
(
m
l
m
i
ОС
X
Х
d
S
S
d

                   (6) 
«Орташа  байланыс»  әдісі  бойынша  ӛлшенетін  арақашықтық  барлық 
жұп арақашықтықтардың барлығын біріктіру арқылы анықталады:  
)
,
(
1
)
,
(
j
i
S
x
S
x
m
e
m
i
орт
X
X
d
n
n
S
S
d
l
i
m
j
 



                               (7) 
Академик  А.Н.Колмогоров  кластар  арасындағы  жеке  жағдай  ретінде 
жоғарыда  айтылған  әдістердің    «жалпыланған  арақашық»  қағидасын  
ұсынған. 
Элементтер  топтарының  арақашықтығы  алгомеративтік  иерархиялық 
кластер  процедураларында  алгоритмдардың  жұмыс  қағидасы  біріктіруші 
элементтерден, сосын тұтас топтардан, алдымен ең жақын кейін алыстайтын 
топтар үшін  маңызды. 
Осымен  s
l
  және  s 
mq
  кластарды  біріктірушілер  болатын,  s 
m   
және  s 

 
топтарын келесі формуламен анықтаймыз: 
)
(
)
,
(
)
,
(
)
,
(
,
lq
lm
mq
lq
lm
q
m
l
q
m
d
d
d
d
d
S
S
d
d
l










                    (8) 
 
Мұнда, d 
lm 
=  d  (s
l
  , s 
m
);  d 
lq 
= d  (s
l
  , s 
q
);және d 
mq
=  (s 
m ,


  )  -  кластар 
арасындағы  қашықтық  s
l
  ,  s 
m   
және  s 

  ға  тең.  α,β,δ,γ  ─  процедураның 
спецификасы мен алгоритмін анықтайтын сандық кӛрсеткіштер. 
Мысалға,  α═β=─δ═1/2  және  γ═0  болса,  жақын  кӛршілес  қағидасына 
келеміз. Егер α═β=δ═1/2 және γ═0 болса, алыс кӛршілес қағидасына келеміз. 
     Және сонымен,  
0
;
;










q
m
q
q
m
m
n
n
n
n
n
n
 
(8)  қатынасы  кластар  арасында  dорт  арақашықтығына  әкеледі, 
арақашықтықтардың ішінен барлық жұптық элементтер арасынан орташасын 
табу, солардың бірі бір кластан, екіншісі басқасынан. 
         К-means  әдісі  (К-орташа)  –  бұл  кластерлеудің  итерациялық  әдісі. 
Бұл  әдіс  кӛптеген  объектілерді  аналитиктің  қойған  кластерлер(К)  санына 
бӛледі. Объектілерді бір кластерге біріктіру ұқсас белгілерін анықтау арқылы 
жүргізіледі.  Бірінші  кластерді  анықтағаннан  кейін,  ұқсас  белгілері  қайта 
анықталады  және  объектілерді  бір  кластерден  екінші  кластерге  кӛшіру 
жүргізіледі.  Итерациялық    әдіс  объектілерді  кластерге  бӛлудегі  ең  жақсы 
бӛлу пайда болғанша немесе итерацияның максималды саны пайда болғанша 
жалғасады. 
 
 

42 
 
Функционалды сапалық бӛліну 
Элементтердің  кластарға  бӛлудің  кӛптеген  әртүрлі  әдістері  бар. 
Сондықтан  осы  бӛліну  кезіндегі  әдістердің  Q(S)  талдау  сапасына  қӛңіл 
бӛлінеді. 
         Сонда  ең  жақсы  бӛліну  S*  деп,  таңдалған  экстремум 
функционалды сапаға жетуді айтамыз. Функционалды сапаның бірін таңдау 
эмпирикалық  ой-қабілетке  жүгінеді.  Кең  тараған  функционалды  сапалық 
бӛлінудің кейбіреуін қарастырайық. 
         Зерттеу  метрикасы  болып  р  Х  ауданында  алынсың,  және 
S=(S1,S2,…,Sp)  болса-кейбір  тұрақты  бӛліну  қарастырып  жатқан  Х1,...,Хn 
белгіленген р кластер саны S1,S2,…,Sp. 
         Функционалды  сапаға  жиі  кластерішілік  дисперсия  суммасын 
(«ӛлшенген») алады: 
 



p
l
S
x
j
i
l
i
X
X
d
S
Q
1
2
1
)
,
(
)
(
                                                 (9) 
 
Иерархиялық кластер-процедуралар 
        Иерархиялық  процедуралар  –  кластерлік  талдау  алгоритмінде  ең  кең 
таралған  әдіс  болып  есептелінеді.  Олар  екі  типте  болады:  агломеративтік 
және дивизимдік. 
Агломеративтік  процедураларда  бірінші  бӛліну  жүргізіледі,  n  бір 
элементтік  кластан  құралады,  ал  соңында-бір  кластан;  дивизимдікте-
керісінше. 
Иерахиялық  агломеративтік  (дивизимдік)  процедуралар  жұмысының 
принципі топ элементтерінің  кезектік бірігуінен (бӛлінуінен) тұрады, бірінші 
ең  жақын  (алыс),  ал  содан  кейін  бір-бірінен  алысырақ  (жақынырақ).  Осы 
алгоритмдердің кӛбі матрица арақашықтығынан шығады (ұқсас). 
Иерархиялық  процедуралардың  кемшілігіне  есептеу  кезіндегі  кӛп 
кӛлемді есептеуді қажет ететіндігін жатқызуға болады. Алгоритмдер матрица 
арақашықтығының  әр  қадамында  есептеуді  қажет  етеді,  сондықтан 
машинаның  кең  кӛлемді    сақтау  қабілеті  және  кӛп  уақыт  қажет.  Осындай 
алгоритмдердің  санын  есептеу,  үлкен  бірнеше  жүз,  мақсатқа  сай  емес, 
кӛптеген жағдайда мүмкін емес. 
Мысал ретінде агломеративтік иерархиялық алгоритмді қарастырайық. 
Алгоритмнің  бірінші  қадамында  әрбір  зерттеу  Хі(і=1,2,...,n)  жеке  кластер 
ретінде қарастырылады. Осыдан кейін алгоритммен жұмыстың әр қадамында 
екі  ең  жақын  кластерлерді  біріктіру  жүргізіледі.  Тұрақты  арақашықтықты 
ескере отырып, матрица арақашықтығы формула бойынша есептеледі, оның 
ӛлшемі  бірлікке  дейін  тӛмендейді.  Зерттеу  объектілері  бір  кластерге 
біріктірілгенде, алгоритмнің жұмысы бітеді. 
        Иерахиялық  алгоритм  классификациясын  жүргізетін  кӛптеген 
программалар,  графикалық  кӛріністегі  шешімдер  классификациясын 
дендрограмма түрінде кӛрсетеді. 
 

43 
 

1   2   3   4   5   6   7   8


©emirb.org 2017
әкімшілігінің қараңыз

войти | регистрация
    Басты бет


загрузить материал