sebagai metode belajar supervisi, maka terdapat fitur prediktor dan target/label dalam suatu dataset. supervised learning memiliki tiga tugas yaitu klasifikasi, prediksi dan estimasi. Estimasi nilai atau yang lebih dikenal dengan regresi yaitu melakukan perkiraan nilai terhadap suatu kasus.
Regresi merupakan salah satu machine learning tradisional yang banyak digunakan untuk memodelkan hubungan antara satu atau lebih variabel independen (sering disebut sebagai fitur atau prediktor) dan variabel dependen (sering disebut sebagai respons atau target). Tujuan utama regresi adalah untuk memahami dan mengukur sejauh mana variabel independen berkontribusi terhadap perubahan dalam variabel dependen.
- regresi adalah analisis statistika yang digunakan untuk analisi dan memahami hubungan antara dua variable atau lebih.
- perbedaan dengan klasifikasi terletak pada variable target/label yang digunakan bertipe data numerik, sementara klasifikasi bertipe kategorik
- variable pada regresi terbagi menjadi dua yaitu variable independen (prediktor) dan variable dependen (target)
- umumnya regresi memiliki satu variable target dan satu atau lebih variable prediktor
Sebagai contoh, pertimbangkan dua bola yang ditarik secara acak dari sebuah keranjang. Jika kita ingin mengetahui hubungan antara warna bola pertama yang ditarik (X) dan warna bola kedua yang ditarik (Y), maka hubungan tersebut bersifat statistik karena warna bola pertama tidak menentukan secara pasti warna bola kedua. Namun, jika kita mempertimbangkan hubungan antara suhu dalam Celsius (X) dan suhu dalam Fahrenheit (Y) dengan persamaan tertentu, maka hubungan tersebut bersifat deterministik karena nilai Y dapat dihitung secara pasti berdasarkan nilai X yang diberikan.
Secara singkat, perbedaan utama antara hubungan statistik dan deterministik terletak pada ketidakpastian dan unsur acak dalam hubungan statistik, sementara hubungan deterministik memiliki keterkaitan yang pasti dan dapat diprediksi antara variabel-variabel tersebut.
Kinerja Regresi dapat diukur melalui
- MAE
- MAPE
- MSE
- RMSE
- R-Squared
- Adjusted R-Squared
- Simple Linear Regression
- Multiple Linear Regression
- mudah diterapkan dan dijelaskan koefisiennya
- menjadi algoritma terbaik pada data linear karena kompleksitasnya yang lebih sedikit
- rentan terhadap outlier, namun dapat diatasi dengan standardisasi, dimensionality reduction, regularisasi atau cross validation
- jika gagal deteksi outlier maka sangat mempengaruhi model
- algoritma ini tidak dapat menangkap seluruh variable prediktor yang mempengaruhi target