Tiga Cara Teratas Untuk Memanfaatkan Proyek Machine Learning Anda – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Bipin Biddappa PK

Pembelajaran Mesin, Opini

Dan inilah mengapa Anda harus segera melakukannya

Foto oleh tim Icons8 di Unsplash

pengantar

Model pembelajaran mesin belajar dari data yang diberikannya untuk membuat keputusan yang lebih baik dan lebih baik dari waktu ke waktu, tetapi terkadang kita mungkin menghadapi skenario di mana seseorang menuntut kinerja yang lebih baik dari model tersebut.

Mungkin juga seseorang menghadapi beberapa kesulitan yang mungkin menghalangi mereka untuk meningkatkan model mereka lebih jauh, seperti kurangnya data, kurangnya pengetahuan, atau dalam beberapa kasus yang jarang terjadi bahkan kurangnya waktu.

Di sinilah para Data Scientist amatir menyerah, dan seorang ahli Data Scientist membuktikan nilainya dengan mendorong model lebih jauh untuk membuktikan nilainya.

Apakah Anda juga ingin menjadi Ilmuwan Data master? maka artikel ini akan membantu model Anda meningkatkan permainannya agar Anda mendapatkan kinerja yang lebih baik darinya dan membantu Anda membedakan diri Anda dari Ilmuwan Data amatir tersebut.

Pertama, pastikan data Anda tidak berbohong!

Ya, Anda membacanya dengan benar, seringkali data Anda mungkin dicurangi dengan data yang tidak diketahui atau nilai yang hilang, yang perlu ditangani terlebih dahulu, jika bukan data yang hilang atau tidak dikenal ini cenderung menyesatkan model Anda sehingga mengurangi efisiensinya.

Skenario ini mungkin membuat model Anda bias terhadap hasil tertentu di antara semua kemungkinan hasil lainnya, ini adalah sesuatu yang ingin Anda hindari agar model memberi Anda kinerja yang lebih baik.

tetapi, apa sajakah cara Anda menangani ini?

Tebakan acak: Ya, metode arbitrer ini biasanya tidak disarankan dan hanya digunakan ketika Anda yakin tentang apa datanya. Rata-rata: Yang Anda lakukan hanyalah mengambil rata-rata data yang ada dalam fitur itu dan menggunakannya, sebagai ganti data yang hilang, metode ini juga tidak disarankan karena dapat secara drastis mengurangi variabilitas data. Penghapusan listwise: Hapus semua data dari setiap entitas dengan data yang hilang, tetapi pastikan bahwa Anda tidak memiliki terlalu banyak entri data dengan data yang hilang sebelum menggunakan metode ini sehingga Anda tidak kehilangan data signifikan yang mungkin berguna untuk model untuk membuat prediksi yang lebih baik.

Jika satu model tidak berhasil untuk Anda, maka gunakan sekumpulan model!

Selalu ada sesuatu yang ajaib tentang persatuan, nah model Anda juga dapat menggunakan sihir ini, Ilmuwan Data mana pun yang sepadan dengan garam mereka pasti pernah mendengar tentang metode Ensemble, itu adalah gagasan bahwa keputusan kolektif beberapa model akan lebih baik daripada keputusan satu pun model.

Izinkan saya menjelaskan lebih baik, apa yang terjadi dalam metode Ensemble adalah beberapa pelajar yang lemah dilatih pada kumpulan data yang sama yang kita miliki, untuk mencapai keputusan, dan menggunakan pelajar yang lemah ini, satu pelajar yang kuat dibangun yang mempertimbangkan pendapat dari semua pelajar yang lemah itu untuk menghasilkan keputusannya sendiri.

Ambil RandomForestClassifier sebagai contoh, ia menggunakan beberapa pohon keputusan untuk memberikan satu keluaran yang didasarkan pada hasil dari beberapa pohon keputusan tersebut, Yang merupakan contoh sempurna dari metode Ensemble.

Sekarang, mengapa Anda melakukan itu yang Anda minta?

Metode Ensemble semacam itu mencegah masalah overfitting, yang merupakan skenario di mana model Anda memusatkan perhatian pada data daripada mempelajarinya, sebagai akibatnya meskipun model memiliki akurasi tinggi pada data pelatihan, model tersebut berkinerja buruk dengan data pengujian. Metode Ensemble meningkatkan kinerja model karena bergantung pada beberapa pelajar yang lemah untuk membuat keputusan.

Ini adalah beberapa alasan mengapa metode Ensemble banyak digunakan dalam kompetisi Kaggle untuk mengekstrak hasil yang lebih baik dari model Anda.

Jangan malu, bermainlah dengan Hyper-Parameter model

Hyper-parameter adalah setelan dalam model Anda yang berubah saat model menjalani fase pelatihan, hyper-parameter ini membantu model berperforma lebih baik dalam fase pengujiannya.

Meskipun seseorang dapat langsung menetapkan parameter yang tepat untuk model, hal itu akan membutuhkan pengetahuan dan pengalaman domain yang signifikan untuk menghasilkan Wawasan tersebut. Untuk artikel ini, saya akan menganggap Anda tidak memiliki wawasan tersebut untuk menetapkan parameter yang tepat pada awalnya.

Jadi apa hal terbaik berikutnya yang bisa Anda tanyakan?

Seseorang dapat menggunakan GridSearchCv untuk mencari parameter yang tepat untuk digunakan untuk membuat model yang disetel secara optimal.

Baca lebih lanjut tentang GridSearchCV di sini

Ini dia tip bonus!

Rekayasa fitur adalah teman Anda, jangan abaikan!

Apa yang terjadi dalam rekayasa fitur adalah Anda memilih fitur yang tepat untuk melatih model Anda, pada saat Anda menggunakan metode seperti enkode-hot-hot, Anda bahkan akhirnya membuat fitur baru untuk melatih model Anda, itu juga mungkin untuk menghilangkan beberapa fitur yang mungkin tidak terlalu penting untuk keluaran model Anda, misalnya, kolom ID sering ditemukan dalam kumpulan data, yang hanya digunakan untuk melacak jumlah titik data dalam kumpulan data dan tidak menambahkan signifikansi model, fitur ini selalu dapat dihilangkan sehingga mengurangi beban pada model Anda.

Tiga Cara Teratas Untuk Memanfaatkan Proyek Machine Learning Anda awalnya diterbitkan di Towards AI on Medium, tempat orang-orang melanjutkan percakapan dengan menyorot dan menanggapi artikel ini.

Diterbitkan melalui Towards AI

Leave a Reply