ML & AI

15 Metrik Pembelajaran Mesin Popular Untuk Saintis Data

15 Metrik Pembelajaran Mesin Popular Untuk Saintis Data

Pembelajaran mesin adalah salah satu subjek yang paling banyak diteliti dalam dua dekad yang lalu. Tidak ada akhir dari keperluan manusia. Tetapi kemampuan pengeluaran dan kerja mereka terhad. Itulah sebabnya dunia bergerak ke arah automasi. Pembelajaran Mesin mempunyai peranan besar dalam revolusi industri ini. Pembangun membina model dan algoritma ML yang lebih mantap setiap hari. Tetapi anda tidak boleh memasukkan model anda ke dalam pengeluaran tanpa menilai. Di situlah metrik pembelajaran mesin masuk. Para saintis data menggunakan metrik ini untuk mengukur seberapa baik model meramalkan. Anda mesti mempunyai idea yang baik tentang mereka. Untuk memudahkan perjalanan ML anda, kami akan menyenaraikan metrik pembelajaran mesin paling popular yang boleh anda pelajari untuk menjadi saintis data yang lebih baik.

Metrik Pembelajaran Mesin Paling Popular


Kami menganggap bahawa anda sudah mengetahui algoritma Pembelajaran Mesin. Sekiranya tidak, anda boleh menyemak artikel kami mengenai algoritma ML. Sekarang mari kita teliti 15 metrik Pembelajaran Mesin yang paling popular yang harus anda ketahui sebagai saintis data.

01. Matriks Kekeliruan


Saintis data menggunakan matriks kekeliruan untuk menilai prestasi model klasifikasi. Ia sebenarnya meja. Baris menggambarkan nilai sebenar, sedangkan lajur menunjukkan nilai yang diramalkan. Oleh kerana proses penilaian digunakan untuk masalah klasifikasi, matriks dapat menjadi sebesar mungkin. Mari kita ambil contoh untuk memahaminya dengan lebih jelas.

Katakan terdapat sejumlah 100 gambar kucing dan anjing. Model itu meramalkan bahawa 60 daripadanya adalah kucing, dan 40 daripadanya bukan kucing. Namun, pada hakikatnya, 55 daripadanya adalah kucing, dan selebihnya 45 adalah anjing. Dengan mengandaikan kucing sebagai positif dan anjing sebagai negatif, kita dapat menentukan beberapa istilah penting.

02. Ketepatan klasifikasi


Ini adalah proses termudah untuk menilai model. Kita boleh menentukannya sebagai jumlah ramalan yang betul dibahagikan dengan jumlah nilai input. Dalam kes matriks klasifikasi, dapat dikatakan sebagai nisbah jumlah TP dan TN dengan jumlah input.

Oleh itu, ketepatan dalam contoh di atas adalah (50 + 35/100), i.e., 85%. Tetapi prosesnya tidak selalu berkesan. Ia sering memberi maklumat yang salah. Metrik paling berkesan apabila sampel dalam setiap kategori hampir sama.

03. Ketepatan dan Ingat semula


Ketepatan tidak selalu berfungsi dengan baik. Mungkin memberikan maklumat yang salah apabila terdapat taburan sampel yang tidak sama. Oleh itu, kami memerlukan lebih banyak metrik untuk menilai model kami dengan betul. Di situlah ketepatan dan ingatan masuk. Ketepatan adalah positif sebenarnya bagi jumlah positif. Kami dapat mengetahui sejauh mana tindak balas model kami dalam mengetahui data sebenar.

Ketepatan contoh di atas adalah 50/60, i.e., 83.33%. Model ini berjaya dalam meramalkan kucing. Sebaliknya, ingat adalah nisbah positif benar dengan jumlah positif benar dan negatif palsu. Ingat menunjukkan kepada kita berapa kerap model itu meramalkan kucing dalam contoh berikut.

Penarikan semula dalam contoh di atas adalah 50/55, i.e., 90%. Dalam 90% kes, model sebenarnya betul.

04. Skor F1


Tidak ada akhir kesempurnaan. Penarikan semula dan ketepatan dapat digabungkan untuk mendapatkan penilaian yang lebih baik. Ini adalah skor F1. Metrik pada asasnya adalah makna harmonik ketepatan dan penarikan semula. Secara matematik ia boleh ditulis sebagai:

Dari contoh kucing-anjing, Skor F1 adalah 2 *.9 *.8 / (.9+.8), i.e., 86%. Ini jauh lebih tepat daripada ketepatan klasifikasi dan salah satu metrik Pembelajaran Mesin yang paling popular. Walau bagaimanapun, terdapat versi umum dari persamaan ini.

Dengan menggunakan beta, anda boleh memberikan penekanan yang lebih penting untuk mengingat semula atau ketepatan; dalam kes klasifikasi binari, beta = 1.

05. Keluk ROC


Keluk ROC atau kurva ciri operator penerima hanya menunjukkan kepada kita bagaimana model kita berfungsi untuk ambang yang berbeza. Dalam masalah klasifikasi, model meramalkan beberapa kebarangkalian. Ambang kemudian ditetapkan. Sebarang output yang lebih besar daripada ambang adalah 1 dan lebih kecil daripada 0. Sebagai contoh, .2, .4,.6, .8 adalah empat output. Untuk ambang .5 output akan menjadi 0, 0, 1, 1 dan untuk ambang .3 ia akan menjadi 0, 1, 1, 1.

Ambang yang berbeza akan menghasilkan penarikan dan ketepatan yang berbeza. Ini akhirnya akan mengubah Kadar Positif Sebenar (TPR) dan Kadar Positif Palsu (FPR). Keluk ROC adalah graf yang dilukis dengan mengambil TPR pada paksi-y dan FPR pada paksi-x. Ketepatan memberi kita maklumat mengenai ambang tunggal. Tetapi ROC memberi kita banyak had untuk dipilih. Itulah sebabnya ROC lebih baik daripada ketepatan.

06. AUC


Area Under Curve (AUC) adalah satu lagi metrik Pembelajaran Mesin yang popular. Pembangun menggunakan proses penilaian untuk menyelesaikan masalah klasifikasi binari. Anda sudah tahu mengenai keluk ROC. AUC adalah kawasan di bawah keluk ROC untuk pelbagai nilai ambang. Ini akan memberi anda idea tentang kebarangkalian model memilih sampel positif berbanding sampel negatif.

AUC berkisar antara 0 hingga 1. Oleh kerana FPR dan TPR mempunyai nilai yang berbeza untuk ambang yang berbeza, AUC juga berbeza untuk beberapa ambang. Dengan peningkatan nilai AUC, prestasi model meningkat.

07. Kehilangan Log


Sekiranya anda menguasai Pembelajaran Mesin, anda mesti mengetahui kehilangan log. Ini adalah metrik Pembelajaran Mesin yang sangat penting dan sangat popular. Orang menggunakan proses untuk menilai model yang mempunyai hasil probabilistik. Kerugian log meningkat jika nilai ramalan model jauh berbeza dari nilai sebenar. Sekiranya kebarangkalian sebenarnya adalah .9 dan kebarangkalian yang diramalkan adalah .012, model akan mengalami kehilangan log yang besar. Persamaan untuk kehilangan log pengiraan adalah seperti berikut:

Di mana,

Dari grafik, kita perhatikan bahawa kerugian menurun dengan kebarangkalian yang semakin meningkat. Walau bagaimanapun, ia meningkat dengan kebarangkalian yang lebih rendah. Model yang ideal mempunyai 0 kehilangan log.

08. Ralat Mutlak Bererti


Hingga kini, kami membincangkan metrik Pembelajaran Mesin yang popular untuk masalah klasifikasi. Sekarang kita akan membincangkan metrik regresi. Error Absolute Mean (MAE) adalah salah satu metrik regresi. Pada mulanya, perbezaan antara nilai sebenar dan nilai ramalan dikira. Maka rata-rata mutlak perbezaan ini memberi MAE. Persamaan untuk MAE diberikan di bawah:

Di mana,

Semakin rendah ralat, semakin baik modelnya. Namun, anda tidak dapat mengetahui arah ralat kerana nilai mutlak.

09. Ralat Kuadrat Maksud


Mean Error Error atau MSE adalah metrik ML lain yang popular. Sebilangan besar saintis data menggunakannya dalam masalah regresi. Seperti MAE, anda harus mengira perbezaan antara nilai sebenar dan nilai ramalan. Tetapi dalam kes ini, perbezaannya adalah kuadrat, dan rata-rata diambil. Persamaan diberikan di bawah:

Simbol menunjukkan sama dengan MAE. MSE lebih baik daripada MAE dalam beberapa kes. MAE tidak dapat menunjukkan arah. Tidak ada masalah seperti ini di MSE. Jadi, anda boleh mengira kecerunan dengan mudah menggunakannya. MSE mempunyai peranan besar dalam mengira kecerunan keturunan.

10. Root Maksud Kesalahan Kuadrat


Ini mungkin metrik Pembelajaran Mesin yang paling popular untuk masalah regresi. Root Mean Squared Error (RMSE) pada dasarnya adalah punca kuasa dua MSE. Ia hampir serupa dengan MAE kecuali akar kuadrat, yang menjadikan ralat lebih tepat. Persamaannya adalah:

Untuk membandingkannya dengan MAE, mari kita ambil contoh. Andaikan terdapat 5 nilai sebenar 11, 22, 33, 44, 55. Dan nilai ramalan yang sepadan adalah 10, 20, 30, 40, 50. MAE mereka adalah 3. Sebaliknya, RMSE adalah 3.32, yang lebih terperinci. Sebab itu RMSE lebih digemari.

11. R-Kuadrat


Anda boleh mengira ralat dari RMSE dan MAE. Walau bagaimanapun, perbandingan antara kedua-dua model tidak begitu sesuai menggunakannya. Dalam masalah klasifikasi, pembangun membandingkan dua model dengan ketepatan. Anda memerlukan penanda aras dalam masalah regresi. R-squared membantu anda membandingkan model regresi. Persamaannya adalah seperti berikut:

Di mana,

Julat R-square adalah dari infiniti negatif hingga 1. Nilai penilaian yang lebih tinggi bermaksud modelnya sesuai.

12. R-Kuadrat yang Diselaraskan


R-Squared mempunyai kelemahan. Ia tidak berfungsi dengan baik apabila ciri baru ditambahkan pada model. Dalam kes itu, kadangkala nilainya meningkat, dan kadangkala tetap sama. Itu bermakna R-Squared tidak peduli jika fitur baru itu mempunyai apa-apa untuk memperbaiki model. Walau bagaimanapun, kekurangan ini telah dihapus dalam R-Squared yang disesuaikan. Rumusannya adalah: Di mana,

Dalam R-Squared Adjusted, nilainya hanya meningkat jika ciri baru meningkatkan model. Dan seperti yang kita ketahui, nilai R-Squared yang lebih tinggi bermaksud modelnya lebih baik.

13. Sukatan Penilaian Pembelajaran Tanpa Pengawasan


Anda biasanya menggunakan algoritma pengelompokan untuk pembelajaran tanpa pengawasan. Ia tidak seperti klasifikasi atau regresi. Model ini tidak mempunyai label. Sampel dikelompokkan bergantung pada persamaan dan perbezaan mereka. Untuk menilai masalah pengelompokan ini, kami memerlukan jenis metrik penilaian yang berbeza. Pekali Siluet adalah metrik Pembelajaran Mesin yang popular untuk masalah pengelompokan. Ia berfungsi dengan persamaan berikut:

Di mana,

Pekali Siluet sekumpulan sampel diambil sebagai purata pekali individu mereka. Ia berkisar antara -1 hingga +1. +1 bermaksud kelompok mempunyai semua titik atribut yang sama. Semakin tinggi skor, semakin tinggi ketumpatan kelompok.

14. MRR


Seperti klasifikasi, regresi, dan pengelompokan, peringkat juga merupakan masalah Pembelajaran Mesin. Peringkat menyenaraikan sekumpulan sampel dan memberi peringkat berdasarkan beberapa ciri tertentu. Anda kerap melihatnya di Google, menyenaraikan e-mel, YouTube, dll. Ramai saintis data menjadikan Mean Reciprocal Rank (MRR) sebagai pilihan pertama mereka untuk menyelesaikan masalah peringkat. Persamaan asasnya adalah:

Di mana,

Persamaan menunjukkan kepada kita betapa baiknya model dalam menentukan sampel. Namun, ia mempunyai kekurangan. Ia hanya mempertimbangkan satu atribut pada satu masa untuk menyenaraikan item.

15. Pekali Penentuan (R²)


Pembelajaran Mesin mempunyai sejumlah besar statistik di dalamnya. Banyak model secara khusus memerlukan metrik statistik untuk dinilai. Pekali Penentuan adalah metrik statistik. Ini menunjukkan bagaimana pemboleh ubah bebas mempengaruhi pemboleh ubah bersandar. Persamaan yang berkaitan adalah:

Di mana

Model berfungsi paling baik apabila = 1. Sekiranya model meramalkan nilai min data, akan menjadi 0.

Pemikiran Akhir


Hanya orang bodoh yang akan meletakkan modelnya ke dalam produksi tanpa menilai. Sekiranya anda ingin menjadi saintis data, anda mesti mengetahui tentang metrik ML. Dalam artikel ini, kami telah menyenaraikan lima belas metrik Pembelajaran Mesin paling popular yang harus anda ketahui sebagai saintis data. Kami harap anda sekarang jelas mengenai pelbagai metrik dan kepentingannya. Anda boleh menggunakan metrik ini menggunakan Python dan R.

Sekiranya anda mempelajari artikel tersebut dengan penuh perhatian, anda harus termotivasi untuk mempelajari penggunaan metrik ML yang tepat. Kami telah menjalankan tugas kami. Sekarang, giliran anda untuk menjadi saintis data. Yang salah adalah manusia. Mungkin ada yang kurang dalam artikel ini. Sekiranya anda menemui, anda boleh memberitahu kami. Data adalah mata wang dunia baru. Jadi, manfaatkannya dan dapatkan tempat anda di dunia.

Butang klik kiri tetikus tidak berfungsi pada Windows 10
Sekiranya anda menggunakan tetikus khusus dengan komputer riba, atau komputer desktop anda tetapi butang klik kiri tetikus tidak berfungsi pada Window...
Kursor melompat atau bergerak secara rawak semasa menaip di Windows 10
Sekiranya anda mendapati kursor tetikus anda melompat atau bergerak sendiri, secara automatik, secara rawak semasa menaip komputer riba atau komputer ...
Cara membalikkan arah tatal Tetikus dan Pad Sentuh pada Windows 10
Tetikus dan Pad sentuhs bukan sahaja menjadikan pengkomputeran mudah, tetapi lebih cekap dan kurang memakan masa. Kami tidak dapat membayangkan kehidu...