perbandingan metode naive bayes dan decision tree pada weka.pdf

  • View
    448

  • Download
    176

Embed Size (px)

Transcript

  • Nama : Juliano Christian Bae Buro Nama Dosen : Sulidar Fitri, M.sc NIM : 2011.01878.11.0220 Semester 7 Pagi - S1 Teknik Informatika Matakul : Data Warehouse & Data Mining Jawaban Soal UTS DWDM

    1

    Soal Ujian :

    1. Gunakan Dataset penentuan kualitas buah berikut ini:

    a. Tentukan Kelas dari data baru di bawah menggunakan algoritma Naive Bayesian

    Classifier! Sertakan perhitungannya

    No Kelas Kulit Buah Warna Ukuran Bau

    1 ????? Kasar Hijau Kecil Keras

    Jawab :

    P(kelas : Aman) = 10/16 = 0,625

    P(kelas : Berbahaya) = 6/16 = 0,375

    P(kulit buah : kasar | kelas : aman) = 6/10 = 0,6

    P(kulit buah : kasar | kelas : berbahaya) = 2/6 = 0,3

    P(warna : hijau | kelas : aman) = 2/10 = 0,2

    P(warna : hijau | kelas : berbahaya) = 4/6 = 0,7

    P(ukuran : kecil | kelas : aman) = 5/10 = 0,5

    P(ukuran : kecil | kelas : berbahaya) = 4/6 = 0,7

    P(bau : keras | kelas : aman) = 7/10 = 0,7

    P(bau : keras | kelas : berbahaya) = 4/6 = 0,7

  • 2

    P(x | kelas = aman)

    (kulit buah : kasar | kelas : aman) = 0,6

    (warna : hijau | kelas : aman) = 0,2

    (ukuran : kecil | kelas : aman) = 0,5

    (bau : keras | kelas : aman) = 0,7

    - 0,6 x 0,2 x 0,5 x 0,7 = 0,042

    P(x | kelas = berbahaya)

    (kulit buah : kasar | kelas : berbahaya) = 0,3

    (warna : hijau | kelas : berbahaya) = 0,7

    (ukuran : kecil | kelas : berbahaya) = 0,7

    (bau : keras | kelas : berbahaya) = 0,7

    - 0,3 x 0,7 x 0,7 x 0,7 = 0,103

    P(x | kelas : aman)P(kelas : aman) =

    - 0,042 x 0,625 = 0,026

    P(x | kelas : berbahaya)P(kelas : berbahaya) =

    - 0,103 x 0,375 = 0,039 Nilai paling besar

    Jadi, kesimpulannya : Hasil dari prediksi data baru menggunakan algoritma naive bayesian

    classifier yaitu : kelas Berbahaya = 0,039.

    b. Buatlah Pohon keputusan berdasarkan data tersebut. Sertakan perhitungan dan

    gambar pohonnya!

    Jawab :

    Class P : kelas = aman (10)

    Class N : kelas = berbahaya (6)

    - Info (D) = I (10,6) = - 10/16 log2 (10/16) 6/16 log2 (6/16) = 0,954

    Warna P1 N1 (P1,N1)

    Coklat 3 0 0

    Hijau 2 4 0,918

    Merah 5 2 0,863

    - Info warna (D) = 3/16 I (3,0) + 6/16 I (2,4) + 7/16 I (5,2) = 0,722

    - Gain ( Warna) = Info (D) Info warna (D)

    = 0,954 0,722

    = 0,232

    Kulit Buah P1 N1 (P1,N1)

    Kasar 6 2 0,811

    Halus 4 4 1

  • 3

    - Info buah (D) = 8/16 I (6,2) + 8/16 I (4,4) = 0,906

    - Gain buah (D) = Info (D) Info buah (D)

    = 0,954 0,906

    = 0,048

    Ukuran P1 N1 (P1,N1)

    Besar 5 2 0,863

    Kecil 5 4 0,991

    - Info ukuran (D) = 7/16 I (5,2) + 9/16 I (5,4) = 0,935

    - Gain ukuran = Info (D) Info ukuran (D)

    = 0,954 0,935

    = 0,019

    Bau P1 N1 (P1,N1)

    Keras 7 4 0,946

    Lunak 3 2 0,971

    - Info bau (D) = 11/16 I (7,4) + 5/16 I (3,2) = 0,954

    - Gain bau (D) = Info (D) Info bau (D)

    = 0,954 0,954

    = 0

    Gain (Warna) = 0,232 Warna yang paling besar

    Gain (Kulit buah) = 0,048

    Gain (Ukuran) = 0,019

    Gain (Bau) = 0

    Hasil pohon keputusannya :

    Warna

    Coklat MerahHijau

    Aman ( yes )

    (3,0)

  • 4

    a. Proses data warna Hijau

    Kelas Kulit buah Warna Ukuran Bau

    Aman Kasar Hijau Besar Keras

    Aman Kasar Hijau Besar Lunak

    Berbahaya Kasar Hijau Kecil Lunak

    Berbahaya Halus Hijau Kecil Keras

    Berbahaya Halus Hijau Kecil Keras

    Berbahaya Kasar Hijau Kecil Keras

    - Info (D) = I (2,4) = - 2/6 log2 (2/6) 4/6 log2 (4/6) = 0,918

    Informasi : Gain warna tidak perlu dihitung lagi, yang dihitung adalah gain

    kulit buah, ukuran dan bau.

    Kulit Buah P1 N1 (P1,N1)

    Kasar 2 2 1

    Halus 0 2 0

    - Info kulit buah (D) = 4/6 I (2,2) + 2/6 I (0,2) = 0,667

    - Gain (kulit buah) = Info (D) Info kulit buah (D)

    = 0,918 0,667

    = 0,251

    Ukuran P1 N1 (P1,N1)

    Besar 2 0 0

    Kecil 0 4 0

    - Info ukuran (D) = 2/6 I (2,0) + 4/6 I (0,4) = 0

    - Gain (ukuran) = Info (D) Info ukuran (D)

    = 0,918 0

    = 0,918

    Bau P1 N1 (P1,N1)

    Keras 1 3 0,811

    Lunak 1 1 1

    - Info bau (D) = 4/6 I (1,3) + 2/6 I (1,1) = 0,874

    - Gain (bau) = Info (D) Info bau (D)

    = 0,918 0,874

    = 0,044

  • 5

    Gain (kulit buah) = 0,251

    Gain (ukuran) = 0,918 Ukuran yang paling besar

    Gain (bau) = 0,044

    Kesimpulannya : Dari hasil perhitungan data warna hijau ditemukan bahwa Gain ukuran

    = 0,918 nilanya lebih besar.

    b. Proses data warna Merah

    Kelas Kulit buah Warna Ukuran Bau

    Berbahaya Halus Merah Besar Lunak

    Aman Kasar Merah Kecil Keras

    Aman Halus Merah Kecil Keras

    Aman Kasar Merah Besar Keras

    Aman Kasar Merah Kecil Lunak

    Berbahaya Halus Merah Besar Keras

    Aman Halus Merah Kecil Keras

    - Info (D) = I (5,2) = - 5/7 log2 (5/7) 2/7 log2 (2/7) = 0,863

    Informasinya : Gain warna coklat tidak perlu dihitung lagi, yang harus

    dihitung adalah kulit buah, ukuran dan bau dari warna merah.

    Kulit Buah P1 N1 (P1,N1)

    Kasar 3 0 0

    Halus 2 2 1

    - Info kulit buah (D) = 3/7 I (3,0) + 4/7 I (2,2) = 0,571

    - Gain (Kulit buah) = Info (D) Info kulit buah (D)

    = 0,863 0,571

    = 0,292

    Ukuran P1 N1 (P1,N1)

    Besar 1 2 0,918

    Kecil 4 0 0

    - Info ukuran (D) = 3/7 I (1,2) + 4/7 I (4,0) = 0,393

    - Gain (ukuran) = Info (D) Info ukuran (D)

    = 0,863 0,393

    = 0,470

    Bau P1 N1 (P1,N1)

    Keras 4 1 0,722

    Lunak 1 1 1

  • 6

    - Info bau (D) = 5/7 I (4,1) + 2/7 I (1,1) = 0,801

    - Gain (bau) = Info (D) Info bau (D)

    = 0,863 0,801

    = 0,062

    Gain (kulit buah) = 0,292

    Gain (ukuran) = 0,470 Ukuran yang paling besar

    Gain (bau) = 0,062

    Hasil pohon keputusannya :

    Warna

    Coklat MerahHijau

    Aman ( yes )

    (3,0)

    Ukuran Ukuran

    Besar BesarKecil Kecil

    Aman( yes ) Berbahaya( no ) Berbahaya( no ) Aman( yes )

    (2,0) (0,4) (1,2) (4,0)

  • 7

    2. Gunakan software weka dan lakukanlah pengolahan data untuk beberapa dataset yang

    sudah disediakan berdasarkan ketentuan : (sesuaikan dataset dengan data mahasiswa

    pada presensi.xlsx)

    a. Laporkan langkah / teknik yang kalian lakukan pada proses pengolahan data dalam

    weka. Sertakan juga langkar pembuatan file *.arff

    Jawab :

    Langkah pertama : Menyiapkan file dataset mahasiswa (file monks),

    sebelum melakukan proses pengolahan data pada weka, hal pertama yang

    harus dilakukan yaitu merubah file dataset tersebut ke dalam bentuk *.arff

    sehingga proses pengolahan dataset presensi mahasiswa dapat berjalan

    sebagaimana mestinya (file monks).

    Gambar 1. file dataset yang harus disediakan

    Langkah kedua : sebelum mengubah file *.arff, terlebih dahulu dilakukan

    yaitu melakukan konversi data monk-2.train. Cara yang dilakukan sebagai

    berikut : membuka file dataset tersebut menggunakan excel, yang kemudian

    mengubah tipe file ke dalam tipe file *.csv.

    Gambar 2. Hasil data yang dibuka menggunakan excel

    File Dataset

  • 8

    Kemudian lakukan save as file tersebut di atas, lalu simpan dengan tipe *.csv.

    Gambar 3. Mengganti format file nya ke dalam bentuk *.csv

    Setelah di simpan, berarti file dataset nya sudah menjadi file baru dengan tipe

    *.csv yang nanti nya akan dipakai dan dimasukan ke dalam weka untuk di

    jadikan file *.arff. Tapi perlu diketahui bahwa weka menggunakan standar

    pemisahan pada itu menggunakan tanda , sedangkan file csv yang baru dibuat

    menggunakan dua standar pemisahan yaitu ; dan ,. Sebelum dimasukan ke

    dalam weka, terlebih dahulu mengubah nya secara manual tanda pemisahan

    tersebuh menggunakan notepad. Karna weka hanya akan menerima data

    pemisahannya menggunakan ,. Gunakan teknik replace all untuk mengubah

    semua data.

    Gambar 4. Edit dataset

    1. Ganti format

    menjadi csv.

    2. Klik Save.

    1. Klik edit Gunakan teknik

    replace all.

    2. Setelah diubah lakukan save

    as dgn tipe *.csv

    3. Data di samping adalah hasil

    dari edit data pada langkah

    pertama.

  • 9

    data di atas sudah diubah tanda pemisahnya, yang sebelumnya menggunakan

    tanda ; sekarang telah menjadi ,. Kemudian lakukan save as simpan

    dengan tipe yang sama yaitu *.csv.

    Langkah ketiga : semua data yang telah siap, kemudian dimasukkan ke dalam

    weka untuk melihat data tersebut berhasil di terima atau tidak oleh weka.

    - Buka Software weka, kemudian klik pada menu kotak dialog

    explorer untuk membuka dataset.

    - Hasil dari pemanggilan menu explorer pada software weka.

    - File yang dimasukkan pada langkah diatas masih file *.csv yang telah

    terbaca oleh weka. Dengan mengklik menu save dataset akan

    diubah ke dalam format .arff yang menjadi tujuan awal.

    1. Klik open file

    untk memanggil

    dataset nya

    2. Table dataset yang

    berhasil di panggil weka

    menggunakan file *csv.

    3. Data Visualize - >

    4. Klik menu save untuk

    menyimpan data yg akan

    menjadi file *.arff

  • 10

    Gambar 5. Dataset monks-train telah menjadi file *.arff

    - Tampilan File dataset *.arff monks yang berhasil diubah. Dari

    tampilan dibawah dapat di lihat bahwa ada pemisahan bagian-bagian

    data. Struktur file *.arff pada weka terda