5 Langkah Mudah Machine Learning Sederhana

Berbicara tentang Data Science tentu tidak dapat terlepas dari yang namanya Machine Learning. Namun, apa sebetulnya Machine Learning itu?
Mitchell (1997) mengatakan bahwa Machine Learning adalah suatu studi tentang algoritma komputer yang memungkinkan program komputer mempelajari suatu hal secara otomatis dan meningkat kemampuannya.
Machine Learning sendiri terbagi menjadi empat jenis:
- Supervised Machine Learning
- Unsupervised Machine Learning
- Semi-Supervised Machine Learning
- Reinforcement Machine Learning
Pada kesempatan kali ini, saya menggunakan Supervised Machine Learning. Pada Supervised Machine Learning terdapat metode Regression dan Classification. Secara umum, metode Regression digunakan untuk hasil akhir yang berhubungan dengan continous number seperti prediksi harga rumah. Sedangkan untuk metode Classification digunakan untuk hasil akhir yang bersifat biner seperti prediksi antara sakit atau sehat.
Lalu bagaimana cara penerapannya? Nah bisa di simak di bawah.
1. Permulaan
Sebelumnya, download dataset yang akan digunakan terlebih dahulu disini.
- Import Library

- Import Data

2. Data Cleaning
Setelah data di import pada notebook maka selanjutnya:
- Cek Duplikasi & Kesesuaian Kode
Duplikasi bisa terjadi karena double entry atau karena bercampurnya data lama dengan data baru.
Dalam kolom ‘customerID’ berisi kode tertentu, hilangkan yang tidak sesuai dengan ketentuan.

- Cek Null
Sering kali data hadir dengan tidak sempurna, seperti dengan adanya null pada kolom tertentu yang dapat menganggu proses selanjutnya.

Cara mengatasi null dapat dilakukan beberapa cara seperti menghilangkan, mengisi dengan mean/median, mengkatagorisasikan sebagai ‘None’. Pada artikel ini, akan dilakukan metode drop atau menghilangkan baris yang ada nilai null-nya.
- Cek Jenis Data
Guna dari mengecek jenis data adalah mempermudah untuk mengelompokkan data.

- Penyesuaian Value
Tidak jarang pada suatu kolom terdapat value yang sama namun ditulis bebeda seperti ‘Laki-Laki’ dan ‘Male’.

Terlihat pada kolom ‘gender’ terdapat berbagai value, untuk itu perlu disamakan dengan replace. Disini saya juga menyederhanakan pilihan menjadi ‘Yes’ dan ‘No’.
3. Pre-processing
- Outliers
Outliers merupakan nilai yang ‘berbeda sendiri’ yang terlalu jauh menyimpang. Outliers terdapat pada kolom numerik, untuk itu perlu dibersihkan. Cara mengatasinya bisa menggunakan Z-score atau IQR (Interquartile Range). Di artikel ini, kita menggunakan IQR.


- Pre-processing Lanjutan
Karena Machine Learning hanya mengerti biner, maka kita harus merubah kolom kategori menjadi numerik.

Pada ‘A_features’ dilakukan LabelEncoder karena memiliki dua values. Pada ‘B_features’ dilakukan StandardScaler karena terjadi perbedaan range pada tiap kolom numerik. Pada ‘C_features’ dilakukan OneHotEncoder karena memliki lebih dari dua values.
4. Model Fit
Akhirnya sampai pada proses terakhir sebelum deploy Machine Learning.
- Setting Target Variable
Dependent variable dari dataset ini adalah ‘Churn’, untuk itu perlu dipisahkan.

- Setting Training Set & Test Set
Training set akan dipelajari oleh Machine Learning lalu diterapkan pada Test Set.

Setelah training dan test set telah ditetapkan, maka dilakukan transformasi untuk X_train, y_train, X_test, y_test.
5. Machine Learning Process
Setelah seluruh rangkaian telah dilakukan, maka saatnya untuk proses Machine Learning.
- Metode Machine Learning
Ada bermacam-macam metode yang dapat digunakan, kali ini akan digunakan lima jenis untuk mencari yang terbaik.

Konklusi
Setelah menyelesaikan seluruh tahapan, dapat terlihat bahwa model dapat memprediksi dengan akurasi sebesar 81.2%.
Kita dapat meningkatkan, baik data set maupun metode Machine Learning yang digunakan untuk hasil yang lebih baik seperti:
- Menggunakan hyperparameter untuk proses Machine Learning
- Melakukan Explanatory Data Analysis
- Melakukan Feature Engineering
- Mengeliminasi variable yang tidak perlu dengan Feature Importance