Algoritma ID3
Iterative  Dichotomicer 3 (ID3) adalah algoritma
decision tree learning (algoritma pembelajaran pohon keputusan) yang  paling dasar. Algoritma ini melakukan   pencarian secara   rakus /menyeluruh   (greedy)   
pada semua kemungkinan pohon keputusan. 
Salah   satu  
algoritma   induksi   pohon keputusan yaitu ID3 (Iterative
Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat
diimplementasikan menggunakan   fungsi
rekursif (fungsi  yang memanggil   dirinya  
sendiri).  Algoritma   ID3 berusaha 
membangun decision  tree  (pohon keputusan)  secara top-down (dari atas ke bawah),  mulai 
dengan  pertanyaan: “atribut mana
yang pertama kali  harus  dicek 
dan diletakkan  pada root?” pertanyaan  ini 
dijawab dengan mengevaluasi semua atribut yang ada dengan  menggunakan 
suatu  ukuran  statistik (yang  banyak 
digunakan  adalah information gain)  untuk 
mengukur  efektivitas  suatu 
atribut dalam  
mengklasifikasikan   kumpulan   sampel data. 
Decision  Tree adalah sebuah struktur pohon, dimana
setiap node pohon merepresentasikan  
atribut   yang   telah  
diuji, setiap  cabang  merupakan 
suatu  pembagian hasil uji, dan
node daun (leaf) merepresentasikankelompok 
kelas  tertentu.Level  node 
teratas  dari  sebuah 
decision  treeadalah node akar
(root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada
suatu kelas tertentu.    
Entropy
dan Information Gain 
Sebuah  obyek 
yang  diklasifikasikan  dalam pohon 
harus  dites  nilai 
entropinya. Entropyadalah 
ukuran  dari  teori 
informasi  yang  dapat mengetahui   karakteristik   dari impuryt   ,dan homogenity   dari  
kumpulan   data.   Dari  
nilai entropy    tersebut    kemudiandihitung    nilai information gain (IG) masing-masing
atribut. 
Entropy(S) = - p+ log2p +
-p -log2p-
dimana :
·        
S 
adalah  ruang  (data) 
sample  yang digunakan untuk
training. 
·     P+  adalah   jumlah   
yang   bersolusi positif
(mendukung) pada data sample untuk kriteria tertentu. 
·     P+  adalah   jumlah  yang  bersolusi negatif  (tidak 
mendukung)  pada  data sample untuk kriteria tertentu.Dari
rumus entropy diatas dapat disimpulkan bahwa definisi entropy (S) adalah  jumlah 
bit  yang  diperkirakan dibutuhkan  untuk 
dapat  mengekstrak suatu  kelas 
(+  atau  -) 
dari  sejumlah data acak pada suatu
ruang sampel S. Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan
suatu kelas.   
Semakin  kecil 
nilai  entropy maka  semakin 
baik  digunakan  dalam mengekstraksi suatu kelas.  Panjang  kode  untuk 
menyatakan informasi secara optimal 
adalah  –log2p  bits untuk messages yang mempunyai
probabilitas p. Sehingga jumlah bit yang diperkirakan untuk mengekstraksi  S 
ke  dalam  kelas 
adalah  :  - p+log2 p+ - p- log2 p- 
Information
Gain  
setelah  mendapat 
nilai  entropy  untuk 
suatu kumpulan  data,  maka 
kita  dapat  mengukur efektivitas suatu atribut dalam
mengklasifikasikan data. Ukuran 
efektifitas  ini disebut  information 
gain.  Secara  matematis, infomation  gain 
dari  suatu  atribut 
A, dituliskan sebagai berikut :
dimana : 
A : atribut 
V : suatu nilai yang
mungkin untuk atribut A 
Values  (A) 
:  himpunan  yang 
mungkin  untuk  atribut A 
|Sv| : jumlah sampel
untuk nilai v 
|S|
: jumlah seluruh sampel data Entropy
(Sv):   entropy  
untuk   sampel-sampel yang memilki
nilai v
Sumber:
Wahyudin, Desember 2009, "Metode Iterative Dichotomizer 3 (
ID3 ) Untuk Penyeleksian Penerimaan Mahasiswa Baru". Jurnal Pendidikan Teknologi Informasi dan Komunikasi. Volume 2, No.2, http://file.upi.edu/Direktori/JURNAL/PENDIDIKAN_TIK/Jurnal_Pend_TIK_Vol_2_No_2/Metode_Iterative_Dichotomizer_3_(_ID3_)_Untuk_Penyeleksian_Penerimaan_Mahasiswa_Baru.PDF, Januari 2017.
Tidak ada komentar:
Posting Komentar
Catatan: Hanya anggota dari blog ini yang dapat mengirim komentar.