Persimpangan antara Interpretasi dan Ketepatan Prediksi

Pemilihan model antara yang memiliki kemudahan interpretasi dan yang memiliki keakuratan tinggi sering menjadi dilema. Data scientist perlu menimbang dengan baik pilihan mana yang digunakan.

Info Komputer - - Business Analytics - BAGUS SARTONO Dosen di Departemen Statistika Institut Pertanian Bogor YUNANTO PUTRANTO Business Analyst di Hassad Qatar

REGRESI linear dan regresi logistik saat ini masih menjadi pilihan di banyak organisasi dan perusahaan dalam melakukan pemodelan hubungan antara sekelompok variabel prediktor dengan variabel target (respons). Perkembangan modelmodel machine learning yang memiliki ketepatan prediksi yang menjanjikan, memunculkan banyak pemikiran untuk menggantikan pemodelan yang lama. Seberapa baik pilihan ini?

Ada dua hal yang menjadi tujuan akhir dari pembuatan model statistika prediktif. Pertama adalah memberikan penjelasan yang sederhana mengenai bagaimana variabel prediktor berhubungan dengan variabel respons. Sementara yang kedua adalah melakukan prediksi terhadap nilai variabel target berdasarkan karakteristik yang dinyatakan dalam bentuk nilainilai variabel prediktor.

Model Sederhana, Mudah Dinterpretasikan

Ketika analisis terhadap model digunakan untuk merumuskan kebijakan dan berbagai hal strategis bagi organisasi dan bisnis, muncul tuntutan terhadap penginterpretasian dari model yang dihasilkan. Interpretasi tidaklah terlalu sulit untuk dilakukan pada saat model yang digunakan bersifat sederhana. Yang dimaksud adalah ketika hubungan antara prediktor dan target dinyatakan dalam bentuk linear, fungsi yang digunakan bersifat aditif, serta variabel prediktor yang dilibatkan tidak sangat banyak. Model statistika semacam regresi linear dan regresi logistik termasuk dalam kategori ini.

Regresi logistik misalnya, banyak diimplementasikan oleh bank dan lembaga pembiayaan lainnya dalam membangun model scoring mereka, baik untuk keperluan seleksi penerima pembiayaan maupun untuk keperluan penagihan.

Bentuk model umum yang linear dan aditif memudahkan mereka tidak hanya dalam hal interpretasi, tetapi juga dalam hal implementasi. Pasalnya skor akhir di masing-masing variabel prediktor tinggal dijumlahkan secara sederhana untuk menghasilkan skor akhir keseluruhan.

Regresi linear sangat luas digunakan oleh para analis dan data scientist di berbagai bidang, seperti bioscience , sosial, keteknikan, dan terutama ekonomi. Koefisien dari model dapat dipahami untuk membaca bagaimana perubahan pada variabel prediktor dapat mempengaruhi arah dan besaran perubahan variabel target. Tidak hanya itu, koefisien bisa juga, dengan beberapa proses tertentu, digunakan untuk melihat variabel prediktor mana yang kontribusi pengaruhnya besar dan mana yang kecil.

Model Rumit, Akurasi Memuaskan

Sayangnya model yang sederhana umumnya terkalahkan oleh model-model machine

learning dalam hal ketepatan prediksi. Model machine

learning yang lebih kompleks mampu memberikan akurasi atau ketepatan prediksi yang lebih baik karena menangkap dan mengakomodasi pola tak linear dalam data, bisa melibatkan banyak variabel, serta memasukkan komponen interaksi antara variabel prediktor. Pemodelan semacam CLAssIfiCAtIon trEE, rEGrEssIon trEE, nEurAL nEtworK, support vECtor mACHInE, serta berbagai pemodelan ensemble tergolong dalam kategori ini.

Namun tentu saja kerumitan dari model machine learning tersebut kemudian berimplikasi pada kesulitan dalam membaca dan menginterpretasikan model. Pemahaman pola-pola hubungan yang terjadi antara variabel prediktor dan variabel target menjadi tidak mudah dikerjakan, atau setidaknya tidak dapat langsung dipahami dengan baik.

CLAssIfiCAtIon trEE dan regression tree merupakan model yang tergolong dalam kategori nonparametrik karena hasil akhir dari bentuk modelnya tidak ditentukan oleh analis. Dengan algoritma yang ada, metode ini mampu menangkap keberadaan interaksi antara variabel prediktor. Pengaruh suatu variabel bisa berbedabeda tergantung nilai dari variabel prediktor lainnya. Untuk variabel prediktor yang sedikit, tree (pohon) yang dihasilkan tidak sangat besar sehingga masih relatif tidak sulit diinterpretasikan. Namun dengan pohon yang makin besar hal ini menjadi tidak mudah lagi. Support vECtor mACHInE yang melibatkan transformasitransformasi kernel dan nEurAL

nEtworK melibatkan polapola yang tidak linear yang dalam banyak implementasi tidak memungkinkan untuk diinterpretasikan. Dalam banyak hal, bahkan kemudian orang mengenalnya sebagai proses yang bersifat black bo . Apapun bentuknya yang penting kalau input berupa nilai prediktor dimasukkan, dihasilkan output berupa prediksi variabel target yang akurasinya sangat baik.

Ada di Persimpangan

Adanya keinginan untuk berpindah dari menggunakan model sederhana ke model yang rumit untuk menghasilkan performa prediksi yang lebih baik tentu saja dapat dipahami. Namun kebutuhan untuk hal-hal yang terkait dengan interpretasi perlu disiasati.

Pertama yang perlu dikerjakan adalah membandingkan performa prediksi dari model yang sederhana dengan model yang rumit. Apakah dengan menggunakan model black bo mampu memberikan akurasi yang jauh lebih besar? Jangan-jangan hanya sedikit saja peningkatan akurasinya dibandingkan model regresi. Jika memang cukup besar selisihnya, jadikan akurasi model

black bo itu sebagai patokan, dan lihat apakah kita bisa mendekati itu dengan memasukkan beberapa komponen interaksi dalam model regresi. Dengan menggunakan regresi plus interaksi di dalamnya, kita masih akan memiliki model yang mudah dibaca dengan akurasi yang baik.

Jika kemudian cara di atas gagal, menggunakan model black

bo bisa saja menjadi pilihan agar dicapai ketepatan prediksi yang baik, tetapi kemudian lanjutkan dengan mengidentifikasi variabel prediktor apa yang kontribusinya besar. Teknik yang digunakan oleh random forest bisa diterapkan, yaitu dengan membandingkan performa dua model black bo , satu yang di dalamnya ada variabel prediktor tertentu dan yang satunya tidak ada. Jika selisihnya besar maka kita setidaknya bisa mengatakan bahwa variabel itu kontribusinya signifikan.

Pilihan antara model yang mudah interpretasinya dengan model yang tinggi akurasinya memang sering menjadi dilema. Analis dan data scientist perlu menimbang-nimbang dengan baik pilihan mana yang digunakan, dan kriteria mana yang lebih diutamakan.

Newspapers in Indonesian

Newspapers from Indonesia

© PressReader. All rights reserved.