SlideShare une entreprise Scribd logo
1  sur  64
Manajemen
DATA
Adam Mukharil Bachtiar,
M.T.
Data Mining Klasifikasi
Pemahaman Awal Data Mining Klasifikasi
apa itu Data Mining
Klasifikasi?
Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari
sebuah atribut/variabel berdasarkan nilai dari atribut/variabel lainnya
(Supervised Learning)
Gambaran Umum Data Mining Klasifikasi
Gambaran Umum Data Mining Klasifikasi (2)
Data mining klasifikasi bisa
digunakan untuk memprediksi
kelas data dari data yang baru
berdasarkan predetermined class
dari data yang sudah ada
Pada proses klasifikasi akan dikenal
dua jenis data yaitu data latih
(training data) dan data uji (testing
data)
Data latih adalah data yang sudah
ada sebelumnya berdasarkan fakta
yang sudah terjadi (predefined
class)
Data uji adalah data yang sudah
berkelas/berlabel yang digunakan
untuk menghitung akurasi model
klasifikasi yang dibentuk
Bagaimana proses untuk melakukan
Data Mining Klasifikasi?
1. Model Construction:
Merepresentasikan rule klasifikasi,
decision tree, atau pun formula
matematika berdasarkan data latih
2. Model Usage:
Mengestimasi akurasi dari model
menggunakan data uji kemudian apabila
akurasi dapat diterima maka berikutnya
melabelkan data baru yang belum
berlabel
Terdapat beberapa algoritma
yang bisa digunakan untuk
klasifikasi di antaranya
algoritma naïve bayes, K-NN,
dan ID3
Penjelasan Algoritma Klasifikasi
Section 1:
Algoritma Naïve Bayes
Metode Naïve Bayes
menggunakan konsep
teorema Bayesian dalam
melakukan proses
klasifikasi
Contoh Kasus Klasifikasi
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair ?X
:
Langkah 1:
Cari P(Ci) dimana i adalah kelas data
yang ada pada data latih
•P(buys_computer = “yes”) = 9/14 = 0.643
•P(buys_computer = “no”) = 5/14= 0.357
buys_computer
no
no
yes
yes
yes
no
yes
no
yes
yes
yes
yes
yes
no
Langkah 2:
Hitung P(X|Ci) dimana X dengan persamaan:
)|(...)|()|(
1
)|()|(
21
CixPCixPCixP
n
k
CixPCiP
n
k



X
1. Hitung P(x|Ci) untuk “buys_computer” = yes
• P(age = “youth” | buys_computer = “yes”) = 3/9 = 0.333
• P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444
• P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667
• P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667
P(X|Ci) :
P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066
age income student credit_rating buys_computer
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
middle_age low yes excellent yes
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
youth medium yes fair ?
2. Compute P(X|Ci) for “buy_computer” = no
• P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6
• P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4
• P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2
• P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4
P(X|Ci) :
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
youth medium yes fair ?
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
senior low yes excellent no
youth medium no fair no
middle_age medium no excellent no
Langkah 3:
Hitung P(Ci|X) dengan persamaan:
)()|()|(
i
CP
i
CP
i
CP XX 
1. P(X|Ci) :
P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066
P(X|Ci)*P(Ci) :
P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.042
2. P(X|Ci) :
P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci) :
P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007
Langkah 4:
Pilih kelas berdasarkan aturan:
X termasuk dalam class Ci jika
𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌 𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊
X merupakan anggota class (“buys_computer = yes”)
karena P(X|C=yes) > P(X|C=no)
age income student credit_rating buys_computer
youth high no fair no
youth high no excellent no
middle_age high no fair yes
senior medium no fair yes
senior low yes fair yes
senior low yes excellent no
middle_age low yes excellent yes
youth medium no fair no
youth low yes fair yes
youth medium yes fair yes
senior medium yes excellent yes
youth medium no excellent yes
middle_age high yes fair yes
middle_age medium no excellent no
youth medium yes fair yesX
Section 2:
Algoritma k-NN
metode untuk melakukan
klasifikasi terhadap objek
berdasarkan pembelajaran data
yang jaraknya paling dekat
dengan objek tersebut.
Contoh Kasus
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh
4 2 4 Tidak
7 1 3 Ya
10 5 2 Tidak
8 5 4 Tidak
7 5 2 Ya
4 2 4 Ya
6 5 1 Tidak
6 2 5 Ya
8 2 5 Tidak
5 5 3 Ya
7 3 4 ?
Langkah 1:
Tentukan nilai parameter k
(jumlah tetangga pembanding).
Dalam kasus ini kita tentukan 3.
Nilai K disarankan ganjil agar
hasil rasio perbandingan antar
kelas tidak berimbang.
Langkah 2:
Menghitung kuadrat jarak euclidean
data yang mau diklasifikasi terhadap
data training yang diberikan
menggunakan rumus:
𝑑𝑖𝑠𝑡 𝑥, 𝑦 =
𝑖=1
𝑛
(𝑥𝑖 − 𝑦𝑖)2
Cara menghitung jarak eucliden objek
Jarak Tiang Kedalaman
Pondasi
Lama Pembangunan
4 2 4
7 3 4
Jarak eucliden data uji terhadap data latih ke-1
Perhitungan jarak eucliden data ke 1 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Pada perhitungan jarak euclide antara data uji dengan data latih ke-1 diperoleh nilai 3,162.
Lakukan proses perhitungan jarak untuk setiap data latih yang ada.
Hasil perhitungan jarak eucliden untuk setiap data latih:
Perhitungan jarak eucliden data ke 2 = (7 − 7)2+(3 − 1)2+(4 − 3)2= 2,236
Perhitungan jarak eucliden data ke 3 = (7 − 10)2+(3 − 5)2+(4 − 2)2= 4,123
Perhitungan jarak eucliden data ke 4 = (7 − 8)2+(3 − 5)2+(4 − 4)2= 2,236
Perhitungan jarak eucliden data ke 5 = (7 − 7)2+(3 − 5)2+(4 − 2)2= 2,828
Perhitungan jarak eucliden data ke 6 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162
Perhitungan jarak eucliden data ke 7 = (7 − 6)2+(3 − 5)2+(4 − 1)2= 3,742
Perhitungan jarak eucliden data ke 8 = (7 − 6)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 9 = (7 − 8)2+(3 − 2)2+(4 − 5)2= 1,732
Perhitungan jarak eucliden data ke 10 = (7 − 5)2+(3 − 5)2+(4 − 3)2= 3
Sehingga diperoleh perhitungan jarak Euclidean:
Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden
4 2 4 Tidak 3,162
7 1 3 Ya 2,236
10 5 2 Tidak 4,123
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
5 5 3 Ya 3
Langkah 3:
Mengurutkan hasil perhitungan jarak
euclidean objek terhadap data training
yang diberikan
(berurut dari nilai terkecil ke tertinggi)
Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
Langkah 4:
Mengumpulkan baris data latih yang
termasuk tetangga berdasarkan nilai k
Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
8 5 4 Tidak 2,236
7 5 2 Ya 2,828
5 5 3 Ya 3
4 2 4 Tidak 3,162
4 2 4 Ya 3,162
6 5 1 Tidak 3,742
10 5 2 Tidak 4,123
Nilai k yang kita tentukan adalah 3
Langkah 5:
Lihat klasifikasi nearest neighbor yang
paling mayoritas
Jarak Tiang Kedalaman
Pondasi
Lama
Pembangunan
Cepat Roboh Jarak Eucliden
6 2 5 Ya 1,732
8 2 5 Tidak 1,732
7 1 3 Ya 2,236
Nilai k yang kita tentukan adalah 3
Kesimpulan:
Dengan mengurutkan jarak terkecil, semisal diambil k=3, maka
perbandingannya adalah 2(Ya) > 1(Tidak) untuk kelas cepat roboh.
Maka dapat disimpulkan apabila jarak tiang 7, kedalaman pondasi 3, dan lama
pembangunan 4 maka dia masuk ke dalam kelas cepat roboh “Ya”
Section 3:
Algoritma ID3
Iterative Dichotomicer 3
(ID3) adalah algoritma
decision tree learning yang
paling dasar.
Algoritma ini melakukan
pencarian secara menyeluruh
pada semua kemungkinan
pohon keputusan.
Ide dasar:
Memanfaatkan nilai entropy (S) dan
Information Gain untuk membentuk
pohon keputusan
Pemilihan node ditentukan
gain masing-masing atribut.
Value dari atribut Outlook
Keputusan
Langkah 1:
Cari A dimana A merupakan atribut
keputusan terbaik untuk node
berikutnya.
Langkah 2:
Jadikan A sebagai node atribut
keputusan.
Langkah 3:
Untuk setiap jenis nilai A, buat node
descedant
Langkah 4:
Urutkan training examples menjadi leaf
node
Langkah 5:
if training examples diklasifikasikan
secara sempurna, then STOP, else
lanjut membentuk leaf node
Rumus Entropy:
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 =
𝑗=1
𝑘
−𝑝𝑗 log2 𝑝𝑗
Dimana:
• S adalah himpunan (dataset) kasus
• K adalah jumlah kelas data S
• 𝑝𝑗adalah probabilitas kelas data j terhadap total S
Catatan:
Entropy(S) akan bernilai 1 jika antar kelas data di S berjumlah sama dan
bernilai 0 jika hanya ada 1 kelas di S.
Rumus Information Gain:
𝐺𝑎𝑖𝑛 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 −
𝑖=1
𝑘
𝑆𝑖
𝑆
𝑥 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
Dimana:
• S adalah ruang (data) training
• A adalah atribut
• |𝑆𝑖| adalah jumlah sample untuk nilai V
• |𝑆| adalah jumlah seluruh sample data
• 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) adalah entropy untuk sample yang memiliki nilai i
Contoh Kasus 1
Humidity
S: [9+, 5-]
E = 0.940
High Normal
[3+, 4-]
E = 0.985
[6+, 1-]
E = 0.592
Wind
S: [9+, 5-]
E = 0.940
Weak Strong
[6+, 2-]
E = 0.811
[3+, 3-]
E = 1
Gain(S, Humidity)
= .940 - (7/14).985- (7/14).592
= .151
Gain(S, Wind)
= .940 - (8/14).811 - (6/14).1
= .048
Outlook
S: [9+, 5-]
E = 0.940
Sunny Rain
[3+, 2-]
E = 0.971
Gain(S, Outlook)
= .940 - (5/14).971 - (4/14).971 - 0
= .246
[2+, 3-]
E = 0.971
Overcast
Yes
[4+, 0-]
E = 0
Gain Terbesar
Temperature
S: [9+, 5-]
E = 0.940
Hot Cool
[3+, 1-]
E = 0.811
Gain(S, Temperature)
= .940 - (4/14)1 - (6/14).918 - (4/14).811
= .029
[2+, 2-]
E = 1
Mild
Yes
[4+, 2-]
E = 0.918
Outlook
{D1, D2, D3, .., D14}
S: [9+, 5-]
E = 0.940
Sunny Rain
Overcast
Yes
? ?
[2+, 3-]
{D1, D2, D8, D9, D11}
[4+, 0-]
{D3, D7, D12, D13}
[3+, 2-]
{D4, D5, D6, D10, D14}
Humidity
Day Outlook Temperature Humidity Wind Playing Tennis?
D1 Sunny Hot High Weak No
D2 Sunny Hot High Strong No
D8 Sunny Mild High Weak No
D9 Sunny Cool Normal Weak Yes
D11 Sunny Mild Normal Strong Yes
Outlook
Yes
?Humidity
Sunny Rain
Overcast
High Normal
No Yes
[0+, 3-]
{D1, D2, D8}
[2+, 0-]
{D9, D11}
Lanjutkan!
Contoh Kasus 2
Peserta SPMB Nilai SPMB UAN Psikotest Diterima
P1 Tinggi Bagus Baik Ya
P2 Tinggi Cukup Baik Ya
P3 Tinggi Cukup Buruk Ya
P4 Tinggi Kurang Buruk Tidak
P5 Sedang Bagus Baik Ya
P6 Sedang Cukup Baik Ya
P7 Sedang Cukup Buruk Ya
P8 Sedang Kurang Buruk Tidak
P9 Rendah Bagus Baik Ya
P10 Rendah Cukup Buruk Tidak
P11 Rendah Kurang Baik Ya
Nilai SPMB
S: [8+, 3-]
E = 0.845
Tinggi Rendah
[3+, 1-]
E = 0.811
[2+, 1-]
E = 0.918
Gain(S, Nilai SPMB)
= .845 - (4/11).811- (4/11).811 - (3/11).0.918
= .0049
Psikotest
S: [8+, 3-]
E = 0.845
Baik Buruk
[2+, 3-]
E = 0.672
Gain(S, Psikotest)
= .845 - 0 - (5/11).672
= .540
[6+, 0-]
E = 0
Gain Terbesar
Sedang
[3+, 1-]
E = 0.811
UAN
S: [8+, 3-]
E = 0.845
Bagus Kurang
[3+, 0-]
E = 0
[1+, 2-]
E = 0.918
Gain(S, UAN)
= .845 - 0 - (5/11).722 - (3/11).0.918
= .267
Cukup
[4+, 1-]
E = 0.722
Ya
Ya
Psikotest
{P1, P2, P3, .., P11}
S: [8+, 3-]
E = 0.845
Baik Buruk
?
[6+, 0-]
{P1, P2, P5, P6, P9, P11}
[2+, 3-]
{P3, P4, P7, P8, P10}
Ya
Psikotest
Baik Buruk
Ya
UAN
Bagus Kurang
Cukup
Tidak
Nilai SPMB
Tinggi Rendah
Sedang
Tidak
Ya TidakYa
Silakan lakukan
perhitungan dan
iterasi sampai bertemu
hasil seperti ini!
Exercise Time
Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?
1 Menengah Ke Atas Pria Tetap Ya
2 Menengah Ke Atas Pria Tetap Tidak
3 Menengah Ke Atas Pria Tetap Ya
4 Menengah Ke Bawah Pria Tetap Tidak
5 Menengah Ke Bawah Pria Honorer Ya
6 Menengah Ke Bawah Wanita Honorer Tidak
7 Menengah Ke Bawah Wanita Honorer Ya
8 Menengah Ke Bawah Wanita Tetap Tidak
9 Menengah Ke Atas Wanita Honorer Tidak
10 Menengah Ke Atas Pria Honorer Ya
X Menengah Ke Atas Pria Tetap ?

Contenu connexe

Tendances

5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17ArdianDwiPraba
 
UML Aplikasi Rental Mobil
UML Aplikasi Rental MobilUML Aplikasi Rental Mobil
UML Aplikasi Rental MobilDwi Mardianti
 
Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Adam Mukharil Bachtiar
 
6 data-understanding-v2
6 data-understanding-v26 data-understanding-v2
6 data-understanding-v2ArdianDwiPraba
 
Matematika Diskrit - 10 pohon - 04
Matematika Diskrit - 10 pohon - 04Matematika Diskrit - 10 pohon - 04
Matematika Diskrit - 10 pohon - 04KuliahKita
 
Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)eka pandu cynthia
 
Basis Data : Pemodelan Erd
Basis Data : Pemodelan ErdBasis Data : Pemodelan Erd
Basis Data : Pemodelan Erdamalianuryamin
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Miningdedidarwis
 
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"Derina Ellya R
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarmaArdianDwiPraba
 
Jenis Layanan & Macam Sistem Operasi Jaringan
Jenis Layanan & Macam Sistem Operasi JaringanJenis Layanan & Macam Sistem Operasi Jaringan
Jenis Layanan & Macam Sistem Operasi JaringanA Sisdianto Sumarna
 
[PBO] Pertemuan 10 - Generic Programming & Collection
[PBO] Pertemuan 10 - Generic Programming & Collection[PBO] Pertemuan 10 - Generic Programming & Collection
[PBO] Pertemuan 10 - Generic Programming & Collectionrizki adam kurniawan
 
Tugas normalisasi imaika penjualan komputer
Tugas normalisasi   imaika penjualan komputerTugas normalisasi   imaika penjualan komputer
Tugas normalisasi imaika penjualan komputerHamdi Hamdi
 
K-Means Clustering.ppt
K-Means Clustering.pptK-Means Clustering.ppt
K-Means Clustering.pptAdam Superman
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Elvi Rahmi
 

Tendances (20)

Kisi kisi sbp
Kisi kisi sbpKisi kisi sbp
Kisi kisi sbp
 
3475 16 decision tree
3475 16 decision tree3475 16 decision tree
3475 16 decision tree
 
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-175 ta-2021-05-business-understanding-modul-ariw-2021-07-17
5 ta-2021-05-business-understanding-modul-ariw-2021-07-17
 
UML Aplikasi Rental Mobil
UML Aplikasi Rental MobilUML Aplikasi Rental Mobil
UML Aplikasi Rental Mobil
 
Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)Data Management (Enhanced ERD and Mapping ERD)
Data Management (Enhanced ERD and Mapping ERD)
 
6 data-understanding-v2
6 data-understanding-v26 data-understanding-v2
6 data-understanding-v2
 
Matematika Diskrit - 10 pohon - 04
Matematika Diskrit - 10 pohon - 04Matematika Diskrit - 10 pohon - 04
Matematika Diskrit - 10 pohon - 04
 
Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)Materi : Struktur Data (1 Pengantar)
Materi : Struktur Data (1 Pengantar)
 
Basis Data : Pemodelan Erd
Basis Data : Pemodelan ErdBasis Data : Pemodelan Erd
Basis Data : Pemodelan Erd
 
Proses Data Mining
Proses Data MiningProses Data Mining
Proses Data Mining
 
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"
Algoritma pemrograman 2 - Contoh program"Struct Data Karyawan"
 
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
8 modul 8-dts-fitur dan cleaning data-univ-gunadarma
 
Jenis Layanan & Macam Sistem Operasi Jaringan
Jenis Layanan & Macam Sistem Operasi JaringanJenis Layanan & Macam Sistem Operasi Jaringan
Jenis Layanan & Macam Sistem Operasi Jaringan
 
[PBO] Pertemuan 10 - Generic Programming & Collection
[PBO] Pertemuan 10 - Generic Programming & Collection[PBO] Pertemuan 10 - Generic Programming & Collection
[PBO] Pertemuan 10 - Generic Programming & Collection
 
Modul clustering data mining modul clustering
Modul clustering data mining modul clusteringModul clustering data mining modul clustering
Modul clustering data mining modul clustering
 
Model Driven Software Development
Model Driven Software DevelopmentModel Driven Software Development
Model Driven Software Development
 
Tugas normalisasi imaika penjualan komputer
Tugas normalisasi   imaika penjualan komputerTugas normalisasi   imaika penjualan komputer
Tugas normalisasi imaika penjualan komputer
 
K-Means Clustering.ppt
K-Means Clustering.pptK-Means Clustering.ppt
K-Means Clustering.ppt
 
Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes Klasifikasi - Algoritma Naive Bayes
Klasifikasi - Algoritma Naive Bayes
 
Data Management (Relational Database)
Data Management (Relational Database)Data Management (Relational Database)
Data Management (Relational Database)
 

Similaire à DATA MINING KLASIFIKASI

Data Management (Data Mining Klasifikasi)
Data Management (Data Mining Klasifikasi)Data Management (Data Mining Klasifikasi)
Data Management (Data Mining Klasifikasi)Adam Mukharil Bachtiar
 
Media statistika coba2(^ ^)),,,
Media statistika coba2(^ ^)),,,Media statistika coba2(^ ^)),,,
Media statistika coba2(^ ^)),,,Mita Artaningsih
 
KMeans.pdf
KMeans.pdfKMeans.pdf
KMeans.pdfKimnur1
 
Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Maysy Maysy
 
DM_P9_Supervised Learning (KNN) - v2021.pptx
DM_P9_Supervised Learning (KNN) - v2021.pptxDM_P9_Supervised Learning (KNN) - v2021.pptx
DM_P9_Supervised Learning (KNN) - v2021.pptxIgoNasution
 
Statistik pengukuran instrumen validitas
Statistik  pengukuran instrumen validitasStatistik  pengukuran instrumen validitas
Statistik pengukuran instrumen validitasHafiza .h
 
materi-statistika.pptx
materi-statistika.pptxmateri-statistika.pptx
materi-statistika.pptxAryNugroho17
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistikaRizki Novaldi
 
PROBABILITAS DAN STATISTIK materi 2.ppt
PROBABILITAS DAN STATISTIK materi 2.pptPROBABILITAS DAN STATISTIK materi 2.ppt
PROBABILITAS DAN STATISTIK materi 2.pptSollyLubis
 
03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdfElvi Rahmi
 
E-Modul Bilangan Berpangkat.docx
E-Modul Bilangan Berpangkat.docxE-Modul Bilangan Berpangkat.docx
E-Modul Bilangan Berpangkat.docxKhairunnasRunnas1
 
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...Shofyan Sky
 
x-statistika2-160516023145.pdf
x-statistika2-160516023145.pdfx-statistika2-160516023145.pdf
x-statistika2-160516023145.pdfazizahsiti6
 

Similaire à DATA MINING KLASIFIKASI (20)

Data Management (Data Mining Klasifikasi)
Data Management (Data Mining Klasifikasi)Data Management (Data Mining Klasifikasi)
Data Management (Data Mining Klasifikasi)
 
Media statistika coba2(^ ^)),,,
Media statistika coba2(^ ^)),,,Media statistika coba2(^ ^)),,,
Media statistika coba2(^ ^)),,,
 
KMeans.pdf
KMeans.pdfKMeans.pdf
KMeans.pdf
 
Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]Ppt makalah konsep dasar_matematika[1]
Ppt makalah konsep dasar_matematika[1]
 
DM_P9_Supervised Learning (KNN) - v2021.pptx
DM_P9_Supervised Learning (KNN) - v2021.pptxDM_P9_Supervised Learning (KNN) - v2021.pptx
DM_P9_Supervised Learning (KNN) - v2021.pptx
 
Statistik pengukuran instrumen validitas
Statistik  pengukuran instrumen validitasStatistik  pengukuran instrumen validitas
Statistik pengukuran instrumen validitas
 
Ukuran penyebaran-data
Ukuran penyebaran-dataUkuran penyebaran-data
Ukuran penyebaran-data
 
materi-statistika.pptx
materi-statistika.pptxmateri-statistika.pptx
materi-statistika.pptx
 
Statistika kelas 11
Statistika kelas 11Statistika kelas 11
Statistika kelas 11
 
Temu 3 distribusi_frekuensi
Temu 3 distribusi_frekuensiTemu 3 distribusi_frekuensi
Temu 3 distribusi_frekuensi
 
Ppt singkat pengantar statistika
Ppt singkat pengantar statistikaPpt singkat pengantar statistika
Ppt singkat pengantar statistika
 
Statistika2
Statistika2Statistika2
Statistika2
 
Cara pemakaian weka
Cara pemakaian wekaCara pemakaian weka
Cara pemakaian weka
 
materi-statistika-1.pptx
materi-statistika-1.pptxmateri-statistika-1.pptx
materi-statistika-1.pptx
 
PROBABILITAS DAN STATISTIK materi 2.ppt
PROBABILITAS DAN STATISTIK materi 2.pptPROBABILITAS DAN STATISTIK materi 2.ppt
PROBABILITAS DAN STATISTIK materi 2.ppt
 
03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf03 - Ukuran Lokasi dan Dispersi.pdf
03 - Ukuran Lokasi dan Dispersi.pdf
 
E-Modul Bilangan Berpangkat.docx
E-Modul Bilangan Berpangkat.docxE-Modul Bilangan Berpangkat.docx
E-Modul Bilangan Berpangkat.docx
 
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...
Deteksi Pencilan Data Titik panas di Provinsi Riau Menggunakan Algoritme Loca...
 
Materi statistika
Materi statistikaMateri statistika
Materi statistika
 
x-statistika2-160516023145.pdf
x-statistika2-160516023145.pdfx-statistika2-160516023145.pdf
x-statistika2-160516023145.pdf
 

Plus de Adam Mukharil Bachtiar

Materi 8 - Data Mining Association Rule.pdf
Materi 8 - Data Mining Association Rule.pdfMateri 8 - Data Mining Association Rule.pdf
Materi 8 - Data Mining Association Rule.pdfAdam Mukharil Bachtiar
 
Clean Code and Design Pattern - Meaningful Names
Clean Code and Design Pattern - Meaningful NamesClean Code and Design Pattern - Meaningful Names
Clean Code and Design Pattern - Meaningful NamesAdam Mukharil Bachtiar
 
Analisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic ProgrammingAnalisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic ProgrammingAdam Mukharil Bachtiar
 
Analisis Algoritma - Strategi Algoritma Divide and Conquer
Analisis Algoritma - Strategi Algoritma Divide and ConquerAnalisis Algoritma - Strategi Algoritma Divide and Conquer
Analisis Algoritma - Strategi Algoritma Divide and ConquerAdam Mukharil Bachtiar
 
Analisis Algoritma - Strategi Algoritma Greedy
Analisis Algoritma - Strategi Algoritma GreedyAnalisis Algoritma - Strategi Algoritma Greedy
Analisis Algoritma - Strategi Algoritma GreedyAdam Mukharil Bachtiar
 
Analisis Algoritma - Penerapan Strategi Algoritma Brute Force
Analisis Algoritma - Penerapan Strategi Algoritma Brute ForceAnalisis Algoritma - Penerapan Strategi Algoritma Brute Force
Analisis Algoritma - Penerapan Strategi Algoritma Brute ForceAdam Mukharil Bachtiar
 
Analisis Algoritma - Strategi Algoritma Brute Force
Analisis Algoritma - Strategi Algoritma Brute ForceAnalisis Algoritma - Strategi Algoritma Brute Force
Analisis Algoritma - Strategi Algoritma Brute ForceAdam Mukharil Bachtiar
 
Analisis Algoritma - Kelas-kelas Dasar Efisiensi Algoritma
Analisis Algoritma - Kelas-kelas Dasar Efisiensi AlgoritmaAnalisis Algoritma - Kelas-kelas Dasar Efisiensi Algoritma
Analisis Algoritma - Kelas-kelas Dasar Efisiensi AlgoritmaAdam Mukharil Bachtiar
 
Analisis Algoritma - Teorema Notasi Asimptotik
Analisis Algoritma - Teorema Notasi AsimptotikAnalisis Algoritma - Teorema Notasi Asimptotik
Analisis Algoritma - Teorema Notasi AsimptotikAdam Mukharil Bachtiar
 
Analisis Algoritma - Notasi Asimptotik
Analisis Algoritma - Notasi AsimptotikAnalisis Algoritma - Notasi Asimptotik
Analisis Algoritma - Notasi AsimptotikAdam Mukharil Bachtiar
 
Analisis Algoritma - Langkah Desain Algoritma
Analisis Algoritma - Langkah Desain AlgoritmaAnalisis Algoritma - Langkah Desain Algoritma
Analisis Algoritma - Langkah Desain AlgoritmaAdam Mukharil Bachtiar
 
Validasi ide Menggunakan Javelin Board (Idea Validation)
Validasi ide Menggunakan Javelin Board (Idea Validation)Validasi ide Menggunakan Javelin Board (Idea Validation)
Validasi ide Menggunakan Javelin Board (Idea Validation)Adam Mukharil Bachtiar
 

Plus de Adam Mukharil Bachtiar (20)

Materi 8 - Data Mining Association Rule.pdf
Materi 8 - Data Mining Association Rule.pdfMateri 8 - Data Mining Association Rule.pdf
Materi 8 - Data Mining Association Rule.pdf
 
Clean Code - Formatting Code
Clean Code - Formatting CodeClean Code - Formatting Code
Clean Code - Formatting Code
 
Clean Code - Clean Comments
Clean Code - Clean CommentsClean Code - Clean Comments
Clean Code - Clean Comments
 
Clean Method
Clean MethodClean Method
Clean Method
 
Clean Code and Design Pattern - Meaningful Names
Clean Code and Design Pattern - Meaningful NamesClean Code and Design Pattern - Meaningful Names
Clean Code and Design Pattern - Meaningful Names
 
Scrum: How to Implement
Scrum: How to ImplementScrum: How to Implement
Scrum: How to Implement
 
Pengujian Perangkat Lunak
Pengujian Perangkat LunakPengujian Perangkat Lunak
Pengujian Perangkat Lunak
 
Data Mining Clustering
Data Mining ClusteringData Mining Clustering
Data Mining Clustering
 
Analisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic ProgrammingAnalisis Algoritma - Strategi Algoritma Dynamic Programming
Analisis Algoritma - Strategi Algoritma Dynamic Programming
 
Analisis Algoritma - Strategi Algoritma Divide and Conquer
Analisis Algoritma - Strategi Algoritma Divide and ConquerAnalisis Algoritma - Strategi Algoritma Divide and Conquer
Analisis Algoritma - Strategi Algoritma Divide and Conquer
 
Analisis Algoritma - Strategi Algoritma Greedy
Analisis Algoritma - Strategi Algoritma GreedyAnalisis Algoritma - Strategi Algoritma Greedy
Analisis Algoritma - Strategi Algoritma Greedy
 
Analisis Algoritma - Penerapan Strategi Algoritma Brute Force
Analisis Algoritma - Penerapan Strategi Algoritma Brute ForceAnalisis Algoritma - Penerapan Strategi Algoritma Brute Force
Analisis Algoritma - Penerapan Strategi Algoritma Brute Force
 
Analisis Algoritma - Strategi Algoritma Brute Force
Analisis Algoritma - Strategi Algoritma Brute ForceAnalisis Algoritma - Strategi Algoritma Brute Force
Analisis Algoritma - Strategi Algoritma Brute Force
 
Analisis Algoritma - Kelas-kelas Dasar Efisiensi Algoritma
Analisis Algoritma - Kelas-kelas Dasar Efisiensi AlgoritmaAnalisis Algoritma - Kelas-kelas Dasar Efisiensi Algoritma
Analisis Algoritma - Kelas-kelas Dasar Efisiensi Algoritma
 
Analisis Algoritma - Teorema Notasi Asimptotik
Analisis Algoritma - Teorema Notasi AsimptotikAnalisis Algoritma - Teorema Notasi Asimptotik
Analisis Algoritma - Teorema Notasi Asimptotik
 
Analisis Algoritma - Notasi Asimptotik
Analisis Algoritma - Notasi AsimptotikAnalisis Algoritma - Notasi Asimptotik
Analisis Algoritma - Notasi Asimptotik
 
Activity Diagram
Activity DiagramActivity Diagram
Activity Diagram
 
UML dan Use Case View
UML dan Use Case ViewUML dan Use Case View
UML dan Use Case View
 
Analisis Algoritma - Langkah Desain Algoritma
Analisis Algoritma - Langkah Desain AlgoritmaAnalisis Algoritma - Langkah Desain Algoritma
Analisis Algoritma - Langkah Desain Algoritma
 
Validasi ide Menggunakan Javelin Board (Idea Validation)
Validasi ide Menggunakan Javelin Board (Idea Validation)Validasi ide Menggunakan Javelin Board (Idea Validation)
Validasi ide Menggunakan Javelin Board (Idea Validation)
 

DATA MINING KLASIFIKASI

  • 2. Pemahaman Awal Data Mining Klasifikasi
  • 3. apa itu Data Mining Klasifikasi?
  • 4. Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari sebuah atribut/variabel berdasarkan nilai dari atribut/variabel lainnya (Supervised Learning)
  • 5. Gambaran Umum Data Mining Klasifikasi
  • 6. Gambaran Umum Data Mining Klasifikasi (2)
  • 7. Data mining klasifikasi bisa digunakan untuk memprediksi kelas data dari data yang baru berdasarkan predetermined class dari data yang sudah ada
  • 8. Pada proses klasifikasi akan dikenal dua jenis data yaitu data latih (training data) dan data uji (testing data)
  • 9. Data latih adalah data yang sudah ada sebelumnya berdasarkan fakta yang sudah terjadi (predefined class)
  • 10. Data uji adalah data yang sudah berkelas/berlabel yang digunakan untuk menghitung akurasi model klasifikasi yang dibentuk
  • 11. Bagaimana proses untuk melakukan Data Mining Klasifikasi?
  • 12. 1. Model Construction: Merepresentasikan rule klasifikasi, decision tree, atau pun formula matematika berdasarkan data latih
  • 13. 2. Model Usage: Mengestimasi akurasi dari model menggunakan data uji kemudian apabila akurasi dapat diterima maka berikutnya melabelkan data baru yang belum berlabel
  • 14. Terdapat beberapa algoritma yang bisa digunakan untuk klasifikasi di antaranya algoritma naïve bayes, K-NN, dan ID3
  • 17. Metode Naïve Bayes menggunakan konsep teorema Bayesian dalam melakukan proses klasifikasi
  • 18. Contoh Kasus Klasifikasi age income student credit_rating buys_computer youth high no fair no youth high no excellent no middle_age high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_age low yes excellent yes youth medium no fair no youth low yes fair yes youth medium yes fair yes senior medium yes excellent yes youth medium no excellent yes middle_age high yes fair yes middle_age medium no excellent no youth medium yes fair ?X :
  • 19. Langkah 1: Cari P(Ci) dimana i adalah kelas data yang ada pada data latih
  • 20. •P(buys_computer = “yes”) = 9/14 = 0.643 •P(buys_computer = “no”) = 5/14= 0.357 buys_computer no no yes yes yes no yes no yes yes yes yes yes no
  • 21. Langkah 2: Hitung P(X|Ci) dimana X dengan persamaan: )|(...)|()|( 1 )|()|( 21 CixPCixPCixP n k CixPCiP n k    X
  • 22. 1. Hitung P(x|Ci) untuk “buys_computer” = yes • P(age = “youth” | buys_computer = “yes”) = 3/9 = 0.333 • P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444 • P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667 • P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667 P(X|Ci) : P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066 age income student credit_rating buys_computer middle_age high no fair yes senior medium no fair yes senior low yes fair yes middle_age low yes excellent yes youth low yes fair yes youth medium yes fair yes senior medium yes excellent yes youth medium no excellent yes middle_age high yes fair yes youth medium yes fair ?
  • 23. 2. Compute P(X|Ci) for “buy_computer” = no • P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6 • P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4 • P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2 • P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4 P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 youth medium yes fair ? age income student credit_rating buys_computer youth high no fair no youth high no excellent no senior low yes excellent no youth medium no fair no middle_age medium no excellent no
  • 24. Langkah 3: Hitung P(Ci|X) dengan persamaan: )()|()|( i CP i CP i CP XX 
  • 25. 1. P(X|Ci) : P(X|buys_computer = “yes”) = 0.333 x 0.444 x 0.667 x 0.667 = 0.066 P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.042 2. P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X|Ci)*P(Ci) : P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007
  • 26. Langkah 4: Pilih kelas berdasarkan aturan: X termasuk dalam class Ci jika 𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌 𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊
  • 27. X merupakan anggota class (“buys_computer = yes”) karena P(X|C=yes) > P(X|C=no) age income student credit_rating buys_computer youth high no fair no youth high no excellent no middle_age high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_age low yes excellent yes youth medium no fair no youth low yes fair yes youth medium yes fair yes senior medium yes excellent yes youth medium no excellent yes middle_age high yes fair yes middle_age medium no excellent no youth medium yes fair yesX
  • 29. metode untuk melakukan klasifikasi terhadap objek berdasarkan pembelajaran data yang jaraknya paling dekat dengan objek tersebut.
  • 30. Contoh Kasus Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh 4 2 4 Tidak 7 1 3 Ya 10 5 2 Tidak 8 5 4 Tidak 7 5 2 Ya 4 2 4 Ya 6 5 1 Tidak 6 2 5 Ya 8 2 5 Tidak 5 5 3 Ya 7 3 4 ?
  • 31. Langkah 1: Tentukan nilai parameter k (jumlah tetangga pembanding). Dalam kasus ini kita tentukan 3.
  • 32. Nilai K disarankan ganjil agar hasil rasio perbandingan antar kelas tidak berimbang.
  • 33. Langkah 2: Menghitung kuadrat jarak euclidean data yang mau diklasifikasi terhadap data training yang diberikan menggunakan rumus: 𝑑𝑖𝑠𝑡 𝑥, 𝑦 = 𝑖=1 𝑛 (𝑥𝑖 − 𝑦𝑖)2
  • 34. Cara menghitung jarak eucliden objek Jarak Tiang Kedalaman Pondasi Lama Pembangunan 4 2 4 7 3 4 Jarak eucliden data uji terhadap data latih ke-1 Perhitungan jarak eucliden data ke 1 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162 Pada perhitungan jarak euclide antara data uji dengan data latih ke-1 diperoleh nilai 3,162. Lakukan proses perhitungan jarak untuk setiap data latih yang ada.
  • 35. Hasil perhitungan jarak eucliden untuk setiap data latih: Perhitungan jarak eucliden data ke 2 = (7 − 7)2+(3 − 1)2+(4 − 3)2= 2,236 Perhitungan jarak eucliden data ke 3 = (7 − 10)2+(3 − 5)2+(4 − 2)2= 4,123 Perhitungan jarak eucliden data ke 4 = (7 − 8)2+(3 − 5)2+(4 − 4)2= 2,236 Perhitungan jarak eucliden data ke 5 = (7 − 7)2+(3 − 5)2+(4 − 2)2= 2,828 Perhitungan jarak eucliden data ke 6 = (7 − 4)2+(3 − 2)2+(4 − 4)2= 3,162 Perhitungan jarak eucliden data ke 7 = (7 − 6)2+(3 − 5)2+(4 − 1)2= 3,742 Perhitungan jarak eucliden data ke 8 = (7 − 6)2+(3 − 2)2+(4 − 5)2= 1,732 Perhitungan jarak eucliden data ke 9 = (7 − 8)2+(3 − 2)2+(4 − 5)2= 1,732 Perhitungan jarak eucliden data ke 10 = (7 − 5)2+(3 − 5)2+(4 − 3)2= 3
  • 36. Sehingga diperoleh perhitungan jarak Euclidean: Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden 4 2 4 Tidak 3,162 7 1 3 Ya 2,236 10 5 2 Tidak 4,123 8 5 4 Tidak 2,236 7 5 2 Ya 2,828 4 2 4 Ya 3,162 6 5 1 Tidak 3,742 6 2 5 Ya 1,732 8 2 5 Tidak 1,732 5 5 3 Ya 3
  • 37. Langkah 3: Mengurutkan hasil perhitungan jarak euclidean objek terhadap data training yang diberikan (berurut dari nilai terkecil ke tertinggi)
  • 38. Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden 6 2 5 Ya 1,732 8 2 5 Tidak 1,732 7 1 3 Ya 2,236 8 5 4 Tidak 2,236 7 5 2 Ya 2,828 5 5 3 Ya 3 4 2 4 Tidak 3,162 4 2 4 Ya 3,162 6 5 1 Tidak 3,742 10 5 2 Tidak 4,123
  • 39. Langkah 4: Mengumpulkan baris data latih yang termasuk tetangga berdasarkan nilai k
  • 40. Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden 6 2 5 Ya 1,732 8 2 5 Tidak 1,732 7 1 3 Ya 2,236 8 5 4 Tidak 2,236 7 5 2 Ya 2,828 5 5 3 Ya 3 4 2 4 Tidak 3,162 4 2 4 Ya 3,162 6 5 1 Tidak 3,742 10 5 2 Tidak 4,123 Nilai k yang kita tentukan adalah 3
  • 41. Langkah 5: Lihat klasifikasi nearest neighbor yang paling mayoritas
  • 42. Jarak Tiang Kedalaman Pondasi Lama Pembangunan Cepat Roboh Jarak Eucliden 6 2 5 Ya 1,732 8 2 5 Tidak 1,732 7 1 3 Ya 2,236 Nilai k yang kita tentukan adalah 3 Kesimpulan: Dengan mengurutkan jarak terkecil, semisal diambil k=3, maka perbandingannya adalah 2(Ya) > 1(Tidak) untuk kelas cepat roboh. Maka dapat disimpulkan apabila jarak tiang 7, kedalaman pondasi 3, dan lama pembangunan 4 maka dia masuk ke dalam kelas cepat roboh “Ya”
  • 44. Iterative Dichotomicer 3 (ID3) adalah algoritma decision tree learning yang paling dasar.
  • 45. Algoritma ini melakukan pencarian secara menyeluruh pada semua kemungkinan pohon keputusan.
  • 46. Ide dasar: Memanfaatkan nilai entropy (S) dan Information Gain untuk membentuk pohon keputusan
  • 47. Pemilihan node ditentukan gain masing-masing atribut. Value dari atribut Outlook Keputusan
  • 48. Langkah 1: Cari A dimana A merupakan atribut keputusan terbaik untuk node berikutnya.
  • 49. Langkah 2: Jadikan A sebagai node atribut keputusan.
  • 50. Langkah 3: Untuk setiap jenis nilai A, buat node descedant
  • 51. Langkah 4: Urutkan training examples menjadi leaf node
  • 52. Langkah 5: if training examples diklasifikasikan secara sempurna, then STOP, else lanjut membentuk leaf node
  • 53. Rumus Entropy: 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = 𝑗=1 𝑘 −𝑝𝑗 log2 𝑝𝑗 Dimana: • S adalah himpunan (dataset) kasus • K adalah jumlah kelas data S • 𝑝𝑗adalah probabilitas kelas data j terhadap total S Catatan: Entropy(S) akan bernilai 1 jika antar kelas data di S berjumlah sama dan bernilai 0 jika hanya ada 1 kelas di S.
  • 54. Rumus Information Gain: 𝐺𝑎𝑖𝑛 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − 𝑖=1 𝑘 𝑆𝑖 𝑆 𝑥 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) Dimana: • S adalah ruang (data) training • A adalah atribut • |𝑆𝑖| adalah jumlah sample untuk nilai V • |𝑆| adalah jumlah seluruh sample data • 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖) adalah entropy untuk sample yang memiliki nilai i
  • 56. Humidity S: [9+, 5-] E = 0.940 High Normal [3+, 4-] E = 0.985 [6+, 1-] E = 0.592 Wind S: [9+, 5-] E = 0.940 Weak Strong [6+, 2-] E = 0.811 [3+, 3-] E = 1 Gain(S, Humidity) = .940 - (7/14).985- (7/14).592 = .151 Gain(S, Wind) = .940 - (8/14).811 - (6/14).1 = .048 Outlook S: [9+, 5-] E = 0.940 Sunny Rain [3+, 2-] E = 0.971 Gain(S, Outlook) = .940 - (5/14).971 - (4/14).971 - 0 = .246 [2+, 3-] E = 0.971 Overcast Yes [4+, 0-] E = 0 Gain Terbesar Temperature S: [9+, 5-] E = 0.940 Hot Cool [3+, 1-] E = 0.811 Gain(S, Temperature) = .940 - (4/14)1 - (6/14).918 - (4/14).811 = .029 [2+, 2-] E = 1 Mild Yes [4+, 2-] E = 0.918
  • 57. Outlook {D1, D2, D3, .., D14} S: [9+, 5-] E = 0.940 Sunny Rain Overcast Yes ? ? [2+, 3-] {D1, D2, D8, D9, D11} [4+, 0-] {D3, D7, D12, D13} [3+, 2-] {D4, D5, D6, D10, D14} Humidity Day Outlook Temperature Humidity Wind Playing Tennis? D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D11 Sunny Mild Normal Strong Yes
  • 58. Outlook Yes ?Humidity Sunny Rain Overcast High Normal No Yes [0+, 3-] {D1, D2, D8} [2+, 0-] {D9, D11} Lanjutkan!
  • 59. Contoh Kasus 2 Peserta SPMB Nilai SPMB UAN Psikotest Diterima P1 Tinggi Bagus Baik Ya P2 Tinggi Cukup Baik Ya P3 Tinggi Cukup Buruk Ya P4 Tinggi Kurang Buruk Tidak P5 Sedang Bagus Baik Ya P6 Sedang Cukup Baik Ya P7 Sedang Cukup Buruk Ya P8 Sedang Kurang Buruk Tidak P9 Rendah Bagus Baik Ya P10 Rendah Cukup Buruk Tidak P11 Rendah Kurang Baik Ya
  • 60. Nilai SPMB S: [8+, 3-] E = 0.845 Tinggi Rendah [3+, 1-] E = 0.811 [2+, 1-] E = 0.918 Gain(S, Nilai SPMB) = .845 - (4/11).811- (4/11).811 - (3/11).0.918 = .0049 Psikotest S: [8+, 3-] E = 0.845 Baik Buruk [2+, 3-] E = 0.672 Gain(S, Psikotest) = .845 - 0 - (5/11).672 = .540 [6+, 0-] E = 0 Gain Terbesar Sedang [3+, 1-] E = 0.811 UAN S: [8+, 3-] E = 0.845 Bagus Kurang [3+, 0-] E = 0 [1+, 2-] E = 0.918 Gain(S, UAN) = .845 - 0 - (5/11).722 - (3/11).0.918 = .267 Cukup [4+, 1-] E = 0.722 Ya Ya
  • 61. Psikotest {P1, P2, P3, .., P11} S: [8+, 3-] E = 0.845 Baik Buruk ? [6+, 0-] {P1, P2, P5, P6, P9, P11} [2+, 3-] {P3, P4, P7, P8, P10} Ya
  • 62. Psikotest Baik Buruk Ya UAN Bagus Kurang Cukup Tidak Nilai SPMB Tinggi Rendah Sedang Tidak Ya TidakYa Silakan lakukan perhitungan dan iterasi sampai bertemu hasil seperti ini!
  • 64. Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito? 1 Menengah Ke Atas Pria Tetap Ya 2 Menengah Ke Atas Pria Tetap Tidak 3 Menengah Ke Atas Pria Tetap Ya 4 Menengah Ke Bawah Pria Tetap Tidak 5 Menengah Ke Bawah Pria Honorer Ya 6 Menengah Ke Bawah Wanita Honorer Tidak 7 Menengah Ke Bawah Wanita Honorer Ya 8 Menengah Ke Bawah Wanita Tetap Tidak 9 Menengah Ke Atas Wanita Honorer Tidak 10 Menengah Ke Atas Pria Honorer Ya X Menengah Ke Atas Pria Tetap ?