Definisi Pohon Keputusan, Konsep Dasar, dan Prosedur Pembentukan
Definisi Pohon Keputusan, Konsep Dasar, dan Prosedur Pembentukan - Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembuyi antara sejumlah calon variabel input dengan sebuah variabel target. Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, dan sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain (Kusrini, 2009).
Dasar - Dasar Decision Tree
Secara konsep decision tree adalah salah satu dari teknik decision analysis. Tries sendiri pertama kali diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau digital tree berasal dari kata retrival (pengambilan kembali) sesuai dengan fungsinya. Secara etimologi kata ini diucapkan sebagai tree. Meskipun mirip dengan kata try, tetapi hal ini bertujuan untuk membedakannya dari general tree. dalam ilmu komputer, trie atau prefix tree adalah sebuah struktur data dengan representasi ordered tree yang digunakan untuk menyimpan associative array yang berupa string. Berbeda dengan binary search tree (BST) yang tidak ada node di tree yang menyimpan elemen yang berhubungan dengan node sebelumnya dan posisi setiap elemen di tree sangat menentukan. Semua keturunan dari suatu node mempunyai prefix string yang mengandung elemen dari node itu, dengan root merupakan string kosong. Values biasanya tidak terkandung di setiap node, hanya di daun dan beberapa node di tengah yang cocok dengan elemen tertentu.
Secara singkat bahwa decision tree merupakan salah satu metode klasifikasi pada text mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu (Jianwei Han, 2001). Pohon keputusan dikembangkan untuk membantu pengambil keputusan membuat serangkaian keputusan yang melibatkan peristiwa ketidakpastian. Pohon keputusan adalah suatu peralatan yang mengambarkan secara grafik berbagai kegiatan yang dapat diambil dan dihubungkan dengan kegiatan ini dengan berbagai peristiwa di waktu mendatang yang dapat terjadi. Seperti dalam teknik riset operasi, pohon keputusan tidak akan membuat keputusan bagi pengambil keputusan, kebijakan masih akan diperlukan. Bagaimanapun dalam berbagai situasi yang tepat, penggunaan pohon keputusan akan mengurangi kekacauan potensial dalam suatu masalah kompleks dan memungkinkan pengambil keputusan menganalisis masalah secara rasional (Sutabri, 2005).
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan-aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linnof, 2004).
Prosedur Pembentukan Decision Tree
Decision tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya decision tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
Sebuah model keputusan terdiri dari sekumpulan aturan untuk membagi jumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah model keputusan mungkin dibangun dengan saksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi (Kusrini, 2009).
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probabilitas dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalm pembentukan pohon keputusan. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan (Basuki dan Syarif, 2003). Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).
Dalam membangun decision tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Ros Quinlan yang merupakan singkatan dari Iteractive Dichotomiser 3 atau Induction of Decision 3. algoritma ID3 membentuk pohon keputusan dengan metode divide and conquer data secara rekursif dari atas ke bawah.
Strategi pembentukan decision tree dengan algoritma ID3 adalah:
Sekian artikel tentang Definisi Pohon Keputusan, Konsep Dasar, dan Prosedur Pembentukan. Semoga bermanfaat.
Daftar Pustaka
Dasar - Dasar Decision Tree
Secara konsep decision tree adalah salah satu dari teknik decision analysis. Tries sendiri pertama kali diperkenalkan pada tahun 1960-an oleh Fredkin. Trie atau digital tree berasal dari kata retrival (pengambilan kembali) sesuai dengan fungsinya. Secara etimologi kata ini diucapkan sebagai tree. Meskipun mirip dengan kata try, tetapi hal ini bertujuan untuk membedakannya dari general tree. dalam ilmu komputer, trie atau prefix tree adalah sebuah struktur data dengan representasi ordered tree yang digunakan untuk menyimpan associative array yang berupa string. Berbeda dengan binary search tree (BST) yang tidak ada node di tree yang menyimpan elemen yang berhubungan dengan node sebelumnya dan posisi setiap elemen di tree sangat menentukan. Semua keturunan dari suatu node mempunyai prefix string yang mengandung elemen dari node itu, dengan root merupakan string kosong. Values biasanya tidak terkandung di setiap node, hanya di daun dan beberapa node di tengah yang cocok dengan elemen tertentu.
image source: blog.bigml.com |
baca juga:
Secara singkat bahwa decision tree merupakan salah satu metode klasifikasi pada text mining. Klasifikasi adalah proses menemukan kumpulan pola atau fungsi-fungsi yang mendeskripsikan dan memisahkan kelas data satu dengan lainnya, untuk dapat digunakan untuk memprediksi data yang belum memiliki kelas data tertentu (Jianwei Han, 2001). Pohon keputusan dikembangkan untuk membantu pengambil keputusan membuat serangkaian keputusan yang melibatkan peristiwa ketidakpastian. Pohon keputusan adalah suatu peralatan yang mengambarkan secara grafik berbagai kegiatan yang dapat diambil dan dihubungkan dengan kegiatan ini dengan berbagai peristiwa di waktu mendatang yang dapat terjadi. Seperti dalam teknik riset operasi, pohon keputusan tidak akan membuat keputusan bagi pengambil keputusan, kebijakan masih akan diperlukan. Bagaimanapun dalam berbagai situasi yang tepat, penggunaan pohon keputusan akan mengurangi kekacauan potensial dalam suatu masalah kompleks dan memungkinkan pengambil keputusan menganalisis masalah secara rasional (Sutabri, 2005).
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan-aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry dan Linnof, 2004).
Prosedur Pembentukan Decision Tree
Decision tree adalah sebuah struktur pohon, dimana setiap node pohon merepresentasikan atribut yang telah diuji, setiap cabang merupakan suatu pembagian hasil uji, dan node daun (leaf) merepresentasikan kelompok kelas tertentu. Level node teratas dari sebuah decision tree adalah node akar (root) yang biasanya berupa atribut yang paling memiliki pengaruh terbesar pada suatu kelas tertentu. Pada umumnya decision tree melakukan strategi pencarian secara top-down untuk solusinya. Pada proses mengklasifikasi data yang tidak diketahui, nilai atribut akan diuji dengan cara melacak jalur dari node akar (root) sampai node akhir (daun) dan kemudian akan diprediksi kelas yang dimiliki oleh suatu data baru tertentu.
Sebuah model keputusan terdiri dari sekumpulan aturan untuk membagi jumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah model keputusan mungkin dibangun dengan saksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi (Kusrini, 2009).
Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probabilitas dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalm pembentukan pohon keputusan. Misalkan untuk menentukan main tenis, kriteria yang diperhatikan adalah cuaca, angin, dan temperatur. Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memliki nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan dan hujan (Basuki dan Syarif, 2003). Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule (Basuki dan Syarif, 2003).
Dalam membangun decision tree menggunakan algoritma ID3 atau C4.5, yang diperkenalkan dan dikembangkan pertama kali oleh Ros Quinlan yang merupakan singkatan dari Iteractive Dichotomiser 3 atau Induction of Decision 3. algoritma ID3 membentuk pohon keputusan dengan metode divide and conquer data secara rekursif dari atas ke bawah.
Strategi pembentukan decision tree dengan algoritma ID3 adalah:
- Pohon dimulai sebagai node tunggal (akar/root ) yang merepresentasikan semua data.
- Sesudah node root dibentuk, maka data pada node akar akan diukur dengan information gain untuk dipilih atribut mana yang akan dijadikan atribut pembaginya.
- Sebuah cabang dibentuk dari atribut yang dipilih menjadi pembagi dan data akan didistribusikan ke dalam cabang masing-masing.
- Algoritma ini akan terus menggunakan proses yang sama atau bersifat rekursif untuk dapat membentuk sebuah decision tree. ketika sebuah atribut telah dipilih menjadi node pembagi atau cabang, maka atribut tersebut tidak diikutkan lagi dalam penghitungan nilai information gain.
- Proses pembagian rekursif akan berhenti jika salah satu dari kondisi di bawah ini terpenuhi:
- Semua data dari anak cabang telah termasuk dalam kelas yang sama.
- Semua atribut telah dipakai, tetapi masih tersisa data dalam kelas yang berbeda. Dalam kasus ini, diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
- Tidak terdapat data pada anak cabang yang baru. Dalam kasus ini, node daun akan dipilih pada cabang sebelumnya dan diambil data yang mewakili kelas terbanyak untuk dijadikan label kelas.
- Semua data dari anak cabang telah termasuk dalam kelas yang sama.
Sekian artikel tentang Definisi Pohon Keputusan, Konsep Dasar, dan Prosedur Pembentukan. Semoga bermanfaat.
Daftar Pustaka
- Turban, Efraim, Decision Support Systems and Intellegents System, 9th Edition, Pearson/Prentice Hall, 2011.
Posting Komentar untuk "Definisi Pohon Keputusan, Konsep Dasar, dan Prosedur Pembentukan"
Tata tertib berkomentar
1. Komentar harus relevan dengan konten yang dibaca
2. Gunakan bahasa yang sopan
3. Tidak mengandung unsur SARA or Bullying.
4. Dilarang SPAM.
5. Dilarang menyisipkan link aktif pada isi komentar.
Berlakulah dengan bijak dalam menggunakan sarana publik ini. Baca dan pahami isinya terlebih dahulu, barulah Berkomentar. Terimakasih.