5 Langkah Mudah Machine Learning Sederhana

Photo by Mario Caruso via Unsplash

Berbicara tentang Data Science tentu tidak dapat terlepas dari yang namanya Machine Learning. Namun, apa sebetulnya Machine Learning itu?

Mitchell (1997) mengatakan bahwa Machine Learning adalah suatu studi tentang algoritma komputer yang memungkinkan program komputer mempelajari suatu hal secara otomatis dan meningkat kemampuannya.

Machine Learning sendiri terbagi menjadi empat jenis:

  1. Supervised Machine Learning
  2. Unsupervised Machine Learning
  3. Semi-Supervised Machine Learning
  4. Reinforcement Machine Learning

Pada kesempatan kali ini, saya menggunakan Supervised Machine Learning. Pada Supervised Machine Learning terdapat metode Regression dan Classification. Secara umum, metode Regression digunakan untuk hasil akhir yang berhubungan dengan continous number seperti prediksi harga rumah. Sedangkan untuk metode Classification digunakan untuk hasil akhir yang bersifat biner seperti prediksi antara sakit atau sehat.

Lalu bagaimana cara penerapannya? Nah bisa di simak di bawah.

1. Permulaan

Sebelumnya, download dataset yang akan digunakan terlebih dahulu disini.

  • Import Library
  • Import Data

2. Data Cleaning

Setelah data di import pada notebook maka selanjutnya:

  • Cek Duplikasi & Kesesuaian Kode

Duplikasi bisa terjadi karena double entry atau karena bercampurnya data lama dengan data baru.

Dalam kolom ‘customerID’ berisi kode tertentu, hilangkan yang tidak sesuai dengan ketentuan.

Setelah Duplikasi dan Validasi
  • Cek Null

Sering kali data hadir dengan tidak sempurna, seperti dengan adanya null pada kolom tertentu yang dapat menganggu proses selanjutnya.

Total Null

Cara mengatasi null dapat dilakukan beberapa cara seperti menghilangkan, mengisi dengan mean/median, mengkatagorisasikan sebagai ‘None’. Pada artikel ini, akan dilakukan metode drop atau menghilangkan baris yang ada nilai null-nya.

  • Cek Jenis Data

Guna dari mengecek jenis data adalah mempermudah untuk mengelompokkan data.

Kolom dan Jenis Data
  • Penyesuaian Value

Tidak jarang pada suatu kolom terdapat value yang sama namun ditulis bebeda seperti ‘Laki-Laki’ dan ‘Male’.

Value Tiap Kolom

Terlihat pada kolom ‘gender’ terdapat berbagai value, untuk itu perlu disamakan dengan replace. Disini saya juga menyederhanakan pilihan menjadi ‘Yes’ dan ‘No’.

3. Pre-processing

  • Outliers

Outliers merupakan nilai yang ‘berbeda sendiri’ yang terlalu jauh menyimpang. Outliers terdapat pada kolom numerik, untuk itu perlu dibersihkan. Cara mengatasinya bisa menggunakan Z-score atau IQR (Interquartile Range). Di artikel ini, kita menggunakan IQR.

Outliers
Mengatasi Outliers dengan IQR
  • Pre-processing Lanjutan

Karena Machine Learning hanya mengerti biner, maka kita harus merubah kolom kategori menjadi numerik.

Grouping

Pada ‘A_features’ dilakukan LabelEncoder karena memiliki dua values. Pada ‘B_features’ dilakukan StandardScaler karena terjadi perbedaan range pada tiap kolom numerik. Pada ‘C_features’ dilakukan OneHotEncoder karena memliki lebih dari dua values.

4. Model Fit

Akhirnya sampai pada proses terakhir sebelum deploy Machine Learning.

  • Setting Target Variable

Dependent variable dari dataset ini adalah ‘Churn’, untuk itu perlu dipisahkan.

Target Variable
  • Setting Training Set & Test Set

Training set akan dipelajari oleh Machine Learning lalu diterapkan pada Test Set.

Setelah training dan test set telah ditetapkan, maka dilakukan transformasi untuk X_train, y_train, X_test, y_test.

5. Machine Learning Process

Setelah seluruh rangkaian telah dilakukan, maka saatnya untuk proses Machine Learning.

  • Metode Machine Learning

Ada bermacam-macam metode yang dapat digunakan, kali ini akan digunakan lima jenis untuk mencari yang terbaik.

Hasil Machine Learning

Konklusi

Setelah menyelesaikan seluruh tahapan, dapat terlihat bahwa model dapat memprediksi dengan akurasi sebesar 81.2%.

Kita dapat meningkatkan, baik data set maupun metode Machine Learning yang digunakan untuk hasil yang lebih baik seperti:

  • Menggunakan hyperparameter untuk proses Machine Learning
  • Melakukan Explanatory Data Analysis
  • Melakukan Feature Engineering
  • Mengeliminasi variable yang tidak perlu dengan Feature Importance

--

--

--

A Data Science learner || Jakarta, ID

Love podcasts or audiobooks? Learn on the go with our new app.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Smurpratomo

Smurpratomo

A Data Science learner || Jakarta, ID

More from Medium

How to Start a Career in Data Science With No Experience in 2022?

HDSC Winter ’22 Premiere Project Presentation: Air Quality in Madrid (2001–2018)

Spotify: predicting popularity of a track

Starbucks Capstone Challenge — Predicting Offer Success