4. Proses mengorganisasikan objek-objek ke dalam
kelompok-kelompok (cluster) yang anggota
kelompoknya memiliki kemiripan di beberapa
karakteristiknya.
5. Perbedaan Clustering dengan Classification
Classification Clustering
Data Supervised Unsupersived
Label Ada label Tidak ada label
HasilAnalisis Error Ratio Variance
10. 0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
0
1
2
3
4
5
6
7
8
9
10
0 1 2 3 4 5 6 7 8 9 10
K=2
Arbitrarily choose K
object as initial
cluster center
Assign
each
objects
to most
similar
center
Update
the
cluster
means
Update
the
cluster
means
reassignreassign
Sumber: Jiawei Han, Data Mining Concepts
Ide Dasar k-Means
11. No Nama Tinggi (cm) Berat(kg)
1 Adin 179 79
2 Bima 170 70
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
10 Diego 178 78
Contoh Kasus Clustering
12. Langkah 1:
Tentukan jumlah cluster yang akan dibentuk
(nilai k) dan Centroid dari masing-masing
cluster secara acak.
13. No Nama Tinggi (cm) Berat(kg)
1 Adin 179 79
2 Bima 170 70
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
10 Diego 178 78
Ditentukan k = 3 dan centroid awal = data nomor 2, 6, dan 8
C1(170;70), C2(175;75), dan C3(182,80)
14. Langkah 2:
Hitung jarak data lain terhadap centroid yang
dipilih menggunakan rumus ecludian distance
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2
17. Jarak data dengan masing-masing centroid
No Nama Tinggi (cm) Berat(kg) C1 C2 C3 Terdekat
1 Adin 179 79 12,728 5,657 3,162 C3
2 Bima 170 70 0 7,071 15,620 C1
3 Dodi 175 79 10,296 4 7,071 C2
4 David 178 78 11,314 4,243 4,472 C2
5 Lena 175 77 8,602 2 7,616 C2
6 Ziko 175 75 7,071 0 8,602 C2
7 Zidane 180 80 14,142 7,071 2 C3
8 Andrea 182 80 15,620 8,602 0 C3
9 Anas 179 89 21,024 14,560 9,487 C3
10 Diego 178 78 11,314 4,243 4,472 C2
Dari tabel di atas diperoleh keanggotaan
C1 = {Bima}
C2 = {Dodi,David,Lena,Ziko,Diego}
C3 = {Adin,Zidane,Andrea,Anas}
18. Langkah 4:
Hitung nilai ratio sebagai bahan perbandingan
untuk stop iterasi dengan rumus:
𝑅𝑎𝑡𝑖𝑜 = 𝑏𝑐𝑣/𝑤𝑐𝑣
19. Rumus bcv
(ecludian distance):
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2
Nilai bcv (between cluster variation) menyatakan jarak antar centroid
terpilih dan untuk menghitungnya masih menggunakan rumus Ecludian
Distance.
20. Rumus wcv :
𝑤𝑐𝑣 =
𝑖=1
𝑗
(𝑗𝑎𝑟𝑎𝑘 𝑡𝑒𝑟𝑑𝑒𝑘𝑎𝑡 𝑠𝑒𝑡𝑖𝑎𝑝 𝑑𝑎𝑡𝑎 𝑖)2
Nilai wcv (within cluster variation) merupakan jumlah kuadrat jarak terdekat
dari setiap data.
22. No Nama Tinggi (cm) Berat(kg) Jarak Terdekat Nilai Kuadrat
1 Adin 179 79 3,162 10
2 Bima 170 70 0 0
3 Dodi 175 79 4 16
4 David 178 78 4,243 18
5 Lena 175 77 2 4
6 Ziko 175 75 0 0
7 Zidane 180 80 2 4
8 Andrea 182 80 0 0
9 Anas 179 89 9,487 90
10 Diego 178 78 4,243 18
Nilai WCV (Within Cluster Variation)
Jumlahkan nilai kuadrat untuk masing-masing data, maka
diperoleh nilai WCV = 160
23. Nilai Ratio Pada Iterasi ke-1
𝑅𝑎𝑡𝑖𝑜 = Τ𝐵𝐶𝑉 𝑊𝐶𝑉 = Τ31,294 160 = 0,196
Karena perhitungan ini merupakan hasil iterasi ke-1,
perbandingan rasio dengan iterasi sebelumnya belum
dapat dilakukan dan proses perhitungan dilanjutkan ke
iterasi selanjutnya (iterasi ke-2)
24. Langkah 5:
Cari nilai centroid baru dengan memanfaatkan
rata-rata nilai dari setiap member cluster dan
ulangi langkah 1 s.d. 5 sampai anggota cluster
tidak ada yang berpindah cluster atau nilai ratio
baru <= nilai ratio lama.
25. Pembaharuan nilai centroid
No Nama Tinggi
(cm)
Berat(kg)
2 Bima 170 70
Rata-Rata 170 70
C1
C2
No Nama Tinggi
(cm)
Berat(kg)
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
10 Diego 178 78
Rata-Rata 176,2 77,4
No Nama Tinggi
(cm)
Berat(kg)
1 Adin 179 79
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
Rata-Rata 180 82
C3
Dari data di atas kita peroleh nilai centroid
yang baru yaitu
C1(170,70), C2(176.2,77.5), C3(180,82)
26. Jarak data dengan masing-masing centroid (iterasi ke-2)
No Nama Tinggi (cm) Berat(kg) C1 C2 C3 ClusterTerdekat
1 Adin 179 79 12,728 3,225 3,162 C3
2 Bima 170 70 0,000 9,654 15,620 C1
3 Dodi 175 79 10,296 2,000 5,831 C2
4 David 178 78 11,314 1,897 4,472 C2
5 Lena 175 77 8,602 1,265 7,071 C2
6 Ziko 175 75 7,071 2,683 8,602 C2
7 Zidane 180 80 14,142 4,604 2,000 C3
8 Andrea 182 80 15,620 6,356 2,828 C3
9 Anas 179 89 21,024 11,933 7,071 C3
10 Diego 178 78 11,314 1,897 4,472 C2
Dari tabel di atas diperoleh keanggotaan
C1 = {Bima}
C2 = {Dodi,David,Lena,Ziko,Diego}
C3 = {Adin,Zidane,Andrea,Anas}
28. No Nama Tinggi (cm) Berat(kg) Terdekat NilaiKuadrat
1 Adin 179 79 3,162 10
2 Bima 170 70 0 0
3 Dodi 175 79 2 4
4 David 178 78 1,897 4
5 Lena 175 77 1,265 2
6 Ziko 175 75 2,683 7
7 Zidane 180 80 2 4
8 Andrea 182 80 2,828 8
9 Anas 179 89 7,071 50
10 Diego 178 78 1,897 4
Nilai WCV (Within Cluster Variation) Iterasi 2
Jumlahkan nilai kuadrat untuk masing-masing data, maka
diperoleh nilai WCV = 92
29. Nilai Ratio Pada Iterasi Ke-2
𝑅𝑎𝑡𝑖𝑜 = Τ𝐵𝐶𝑉 𝑊𝐶𝑉 = Τ31,241 92 = 0,340
Bandingkan dengan nilai ratio pada iterasi sebelumnya
Ratio sebelumnya (iterasi ke-1) = 0,196
Ratio sekarang (iterasi ke-2) = 0,340
Dikarenakan nilai ratio pada iterasi ke-2 lebih besar dari
iterasi ke-1, maka proses dilanjutkan kembali ke iterasi
selanjutnya (iterasi ke-3)
30. Pembaharuan nilai centroid (Iterasi 3)
No Nama Tinggi (cm) Berat(kg)
2 Bima 170 70
Rata-Rata 170 70
C1
C2
No Nama Tinggi (cm) Berat(kg)
3 Dodi 175 79
4 David 178 78
5 Lena 175 77
6 Ziko 175 75
10 Diego 178 78
Rata-Rata 176,2 77,4
No Nama Tinggi (cm) Berat(kg)
1 Adin 179 79
7 Zidane 180 80
8 Andrea 182 80
9 Anas 179 89
Rata-Rata 180 82
C3
Dari data di atas kita peroleh nilai centroid
yang baru yaitu
C1(170,70), C2(176.2, 77.5), C3(180,82)
31. Jarak data dengan masing-masing centroid (iterasi ke-3)
No Nama Tinggi (cm) Berat(kg) C1 C2 C3 ClusterTerdekat
1 Adin 179 79 12,728 3,225 3,162 C3
2 Bima 170 70 0,000 9,654 15,620 C1
3 Dodi 175 79 10,296 2,000 5,831 C2
4 David 178 78 11,314 1,897 4,472 C2
5 Lena 175 77 8,602 1,265 7,071 C2
6 Ziko 175 75 7,071 2,683 8,602 C2
7 Zidane 180 80 14,142 4,604 2,000 C3
8 Andrea 182 80 15,620 6,356 2,828 C3
9 Anas 179 89 21,024 11,933 7,071 C3
10 Diego 178 78 11,314 1,897 4,472 C2
Dari tabel di atas diperoleh keanggotaan
C1 = {Bima}
C2 = {Dodi,David,Lena,Ziko,Diego}
C3 = {Adin,Zidane,Andrea,Anas}
33. No Nama Tinggi (cm) Berat(kg) Terdekat NilaiKuadrat
1 Adin 179 79 3,162 10
2 Bima 170 70 0 0
3 Dodi 175 79 2 4
4 David 178 78 1,897 4
5 Lena 175 77 1,265 2
6 Ziko 175 75 2,683 7
7 Zidane 180 80 2 4
8 Andrea 182 80 2,828 8
9 Anas 179 89 7,071 50
10 Diego 178 78 1,897 4
Nilai WCV (Within Cluster Variation) Iterasi 3
Jumlahkan nilai kuadrat untuk masing-masing data, maka
diperoleh nilai WCV = 92
34. Nilai Ratio Pada Iterasi ke-3
𝑅𝑎𝑡𝑖𝑜 = Τ𝐵𝐶𝑉 𝑊𝐶𝑉 = Τ31,241 92 = 0,340
Bandingkan dengan nilai ratio pada iterasi sebelumnya
Ratio sebelumnya (iterasi ke-2) = 0,340
Ratio sekarang (iterasi ke-3) = 0,340
Dikarenakan nilai ratio pada iterasi ke-3 sama dengan nilai
ratio pada iterasi ke-2 dan tidak ada perubahan pada
anggota untuk masing-masing cluster, maka proses
perhitungan dapat dihentikan.