# 2: Yang Perlu Anda Ketahui Tentang Algoritma Pembelajaran Mesin dan Mengapa Anda Harus Peduli

Ini adalah bagian 2 dari tutorial 6-bagian, Panduan PM Langkah-demi-Langkah untuk Membangun Produk Berbasis Pembelajaran Mesin.

Kami sebelumnya telah membahas jenis dampak bisnis yang dapat dimiliki ML. Sekarang, mari kita tinjau semua istilah teknis yang perlu Anda ketahui untuk bekerja secara efektif dengan tim ilmu data dan membantu mereka menghasilkan dampak terbesar bagi bisnis Anda (atau setidaknya terdengar seperti Anda tahu apa yang mereka bicarakan).

Algoritma, Model, dan Data

Pada level konseptual, kami sedang membangun mesin yang diberi serangkaian input tertentu akan menghasilkan output yang diinginkan dengan menemukan pola dalam data dan belajar darinya.

Kasus yang sangat umum adalah mesin memulai dengan melihat set input yang diberikan dan serangkaian output yang sesuai dengan input tersebut. Ini mengidentifikasi pola di antara mereka dan menciptakan seperangkat aturan kompleks yang kemudian dapat diterapkan pada input baru yang belum pernah dilihat sebelumnya dan menghasilkan output yang diinginkan. Sebagai contoh, mengingat cuplikan persegi, alamat dan jumlah kamar (input) yang kami cari untuk memprediksi harga jual rumah (output). Katakanlah kita memiliki data tentang rekaman persegi, alamat dan jumlah kamar 10.000 rumah, serta harga jual mereka. Mesin akan "melatih" dirinya sendiri pada data - yaitu mengidentifikasi pola yang menentukan bagaimana rekaman persegi, alamat dan jumlah kamar berdampak pada harga rumah, sehingga jika kita memberikan 3 input untuk rumah yang belum pernah dilihat sebelumnya, maka dapat memprediksi harga rumah itu.

Peran ilmuwan data adalah menemukan mesin yang optimal untuk digunakan mengingat input dan output yang diharapkan. Dia memiliki banyak template - disebut algoritma - untuk mesin. Mesin-mesin yang ia hasilkan dari templat-templat tersebut untuk memecahkan masalah tertentu disebut model. Templat memiliki opsi dan pengaturan berbeda yang dapat ia atur untuk menghasilkan model yang berbeda dari templat yang sama. Dia dapat menggunakan templat yang berbeda dan / atau mengubah pengaturan untuk templat yang sama untuk menghasilkan banyak model yang dapat dia uji untuk melihat mana yang memberikan hasil terbaik.

Perhatikan bahwa output model benar / berguna untuk pengambilan keputusan pada tingkat kemungkinan tertentu. Model tidak 100% benar, tetapi lebih merupakan "tebakan terbaik" mengingat jumlah data yang telah dilihat model. Semakin banyak data yang dilihat model, semakin besar kemungkinan memberikan hasil yang bermanfaat.

Set input dan output yang diketahui yang digunakan oleh ilmuwan data untuk "melatih" mesin - yaitu membiarkan model mengidentifikasi pola dalam data dan membuat aturan - adalah "set pelatihan". Data ini digunakan dengan satu atau lebih "templat" untuk membuat satu atau lebih model yang menurut para ilmuwan dapat bekerja untuk menyelesaikan masalah. Ingatlah bahwa walaupun dia hanya menggunakan satu "templat" (algoritma), dia dapat mengubah beberapa opsi untuk menghasilkan beberapa model dari templat yang sama, dengan pengaturan yang berbeda, jadi dia kemungkinan berakhir dengan beberapa model.

Setelah dia memiliki beberapa model "terlatih" ini, dia harus memeriksa seberapa baik mereka bekerja dan mana yang terbaik. Dia melakukan itu dengan menggunakan set data baru yang disebut "set validasi". Dia menjalankan model pada input set validasi untuk melihat mana yang memberikan hasil yang paling dekat dengan output set validasi. Dalam contoh kita - model mana yang akan memprediksi harga rumah yang paling dekat dengan harga sebenarnya rumah itu dijual. Dia membutuhkan set data baru pada tahap ini karena model dibuat berdasarkan kinerja mereka dengan set pelatihan, sehingga mereka bias bekerja dengan baik pada set itu dan tidak akan memberikan bacaan yang benar.

Setelah ia memvalidasi model mana yang melakukan yang terbaik dan memilih pemenang, ilmuwan data kami perlu menentukan kinerja aktual dari model itu, yaitu seberapa baik model terbaik yang bisa ia hasilkan benar-benar dalam menyelesaikan masalah. Sekali lagi, dia membutuhkan set data baru karena modelnya jelas berkinerja baik pada set pelatihan dan validasi - itulah cara pengambilannya! Set data akhir disebut "set tes". Dalam contoh kita, dia akan memeriksa seberapa dekat harga rumah yang diprediksi untuk input set pengujian dengan harga set home testing yang sebenarnya. Kami akan membahas pengukuran kinerja secara lebih rinci nanti.

Jenis "Belajar"

Jenis algoritma yang dapat Anda terapkan untuk memecahkan masalah pembelajaran mesin sangat tergantung pada data yang Anda miliki. Klasifikasi utama algoritma pembelajaran didasarkan pada data yang diperlukan untuk membangun model yang menggunakannya: Apakah data perlu memasukkan input dan output atau hanya input, berapa banyak titik data yang diperlukan dan kapan data dikumpulkan. Ini mencakup 4 kategori utama: Pembelajaran terawasi, pembelajaran tanpa pengawasan, pembelajaran semi-diawasi dan pembelajaran penguatan.

Pembelajaran terawasi

Kasus yang kami diskusikan secara rinci di bagian sebelumnya menggambarkan apa yang kami sebut "pembelajaran terbimbing". Ini adalah jenis pembelajaran di mana suatu algoritma perlu melihat banyak contoh data berlabel - data yang terdiri dari input dan output yang sesuai, agar dapat bekerja. Bagian "berlabel" mengacu pada pemberian tag pada input dengan hasil yang coba diprediksi oleh model, dalam contoh harga rumah kami.

Algoritma pembelajaran yang diawasi melihat data yang berlabel (alias data "kebenaran dasar"), belajar darinya dan membuat prediksi berdasarkan contoh-contoh itu. Mereka membutuhkan banyak data berlabel di muka: Meskipun jumlahnya tergantung pada kasus penggunaan, ratusan titik data adalah jumlah minimum untuk mendapatkan sesuatu yang berguna dari jarak jauh.

Dua masalah klasik yang dipecahkan melalui pembelajaran terawasi adalah:

  • Regresi. Menyimpulkan nilai variabel yang tidak diketahui berdasarkan potongan data lain yang masuk akal akan berpengaruh pada variabel itu. Dua kegunaan umum adalah prediksi waktu - misalnya, contoh kami sebelumnya dalam memprediksi nilai rumah berdasarkan variabel seperti lokasi dan luas persegi, dan memperkirakan nilai masa depan - misalnya memperkirakan nilai rumah setahun dari sekarang berdasarkan nilai rumah historis dan saat ini data. Regresi adalah metode statistik yang menentukan hubungan antara variabel independen (data yang sudah Anda miliki) dan variabel dependen yang nilainya ingin Anda prediksi).
  • Klasifikasi. Identifikasi kategori mana yang dimiliki entitas dari kumpulan kategori tertentu. Ini bisa menjadi klasifikasi biner - misalnya menentukan apakah suatu posting akan menjadi viral (ya / tidak), dan kategorisasi multi-label - mis. Pelabelan foto produk dengan kategori yang sesuai milik produk (dari kemungkinan ratusan kategori).

Pembelajaran tanpa pengawasan

Dalam pembelajaran tanpa pengawasan, algoritma mencoba mengidentifikasi pola dalam data tanpa perlu menandai set data dengan hasil yang diinginkan. Data "tidak berlabel" - hanya "ada", tanpa label yang berarti yang melekat padanya. Beberapa masalah klasik yang diselesaikan melalui metode pembelajaran tanpa pengawasan adalah:

  • Clustering Dengan kriteria kesamaan tertentu, temukan item mana yang lebih mirip satu sama lain. Satu area di mana pengelompokan digunakan adalah teks - pertimbangkan hasil pencarian yang mengembalikan banyak dokumen yang sangat mirip. Clustering dapat digunakan untuk mengelompokkannya bersama dan mempermudah pengguna untuk mengidentifikasi dokumen yang paling berbeda.
  • Asosiasi. Mengkategorikan objek ke dalam ember berdasarkan beberapa hubungan, sehingga keberadaan satu objek di dalam bucket memprediksi keberadaan yang lain. Misalnya, masalah rekomendasi "orang yang membeli ... juga membeli ...": Jika menganalisis sejumlah besar keranjang belanja mengungkapkan bahwa kehadiran produk X dalam keranjang belanja kemungkinan menunjukkan bahwa produk Y juga akan berada di keranjang belanja, Anda dapat segera merekomendasikan produk Y kepada siapa pun yang memasukkan produk X ke troli mereka.
  • Deteksi anomali. Identifikasi pola tak terduga dalam data yang perlu ditandai dan ditangani. Aplikasi standar adalah deteksi penipuan dan pemantauan kesehatan untuk sistem yang kompleks. (Catatan: Ada teknik pendeteksian anomali yang diawasi, tetapi penggunaan teknik yang tidak diawasi adalah umum karena menurut definisi cukup sulit untuk mendapatkan data berlabel untuk anomali, dan itu merupakan prasyarat untuk menggunakan teknik yang diawasi.)

Pembelajaran semi-diawasi

Ini adalah gabungan antara pembelajaran terawasi dan tidak terawasi, di mana algoritma membutuhkan beberapa data pelatihan, tetapi jauh lebih sedikit daripada dalam kasus pembelajaran terawasi (mungkin urutan besarnya kurang). Algoritma dapat berupa perluasan metode yang digunakan dalam pembelajaran yang diawasi dan tidak terawasi - klasifikasi, regresi, pengelompokan, deteksi anomali, dll.

Pembelajaran Penguatan

Di sini algoritma dimulai dengan set data yang terbatas dan belajar karena mendapat lebih banyak umpan balik tentang prediksi dari waktu ke waktu.

Seperti yang Anda lihat, selain jenis masalah yang Anda coba selesaikan, jumlah data yang Anda miliki akan memengaruhi jenis metode pembelajaran yang dapat Anda gunakan. Ini juga berlaku sebaliknya - metode pembelajaran yang perlu Anda gunakan mungkin mengharuskan Anda untuk mendapatkan lebih banyak data daripada yang Anda miliki untuk menyelesaikan masalah Anda secara efektif. Kita akan membahasnya nanti.

“Kata-Kata Buzz” Umum Lainnya yang Perlu Diketahui

Ada beberapa istilah lain yang sering Anda temui ketika Anda bekerja lebih banyak di ruang. Penting untuk memahami hubungan mereka (atau ketiadaan) dengan kategori yang kita diskusikan.

Pembelajaran mendalam adalah ortogonal dari definisi di atas. Ini hanyalah penerapan jenis sistem tertentu untuk memecahkan masalah pembelajaran - solusinya dapat diawasi, tidak diawasi, dll.

Jaringan Syaraf Tiruan (JST) adalah sistem pembelajaran yang mencoba mensimulasikan cara otak kita bekerja - melalui jaringan "neuron" yang disusun berlapis-lapis. Jaringan saraf minimal memiliki lapisan input - himpunan neuron di mana data dicerna ke dalam jaringan, lapisan output - neuron di mana hasilnya dikomunikasikan, dan satu atau lebih lapisan di antaranya, yang disebut "lapisan tersembunyi" , yang merupakan lapisan yang melakukan pekerjaan komputasi. Pembelajaran mendalam hanyalah penggunaan jaringan saraf dengan lebih dari satu lapisan tersembunyi untuk menyelesaikan tugas belajar. Jika Anda pernah menggunakan jaringan semacam itu - selamat, Anda juga dapat membuang kata kunci dengan sah!

Metode ensemble atau pembelajaran ensemble adalah penggunaan beberapa model untuk mendapatkan hasil yang lebih baik daripada apa yang masing-masing model dapat capai secara individual. Model dapat didasarkan pada algoritma yang berbeda atau algoritma yang sama dengan parameter yang berbeda. Idenya adalah bahwa alih-alih memiliki satu model yang mengambil input dan menghasilkan output - katakanlah semacam prediksi, Anda memiliki serangkaian model yang masing-masing menghasilkan prediksi, dan beberapa proses untuk menimbang hasil yang berbeda dan memutuskan apa output dari kelompok gabungan seharusnya. Metode ensemble sering digunakan dalam pembelajaran yang diawasi (mereka sangat berguna dalam masalah prediksi) tetapi juga dapat diterapkan dalam pembelajaran yang tidak diawasi. Tim ilmu data Anda kemungkinan akan menguji metode tersebut dan menerapkannya jika perlu.

Pemrosesan bahasa alami (NLP) adalah bidang ilmu komputer yang berurusan dengan pemahaman bahasa oleh mesin. Tidak semua jenis NLP menggunakan pembelajaran mesin. Misalnya, jika kita menghasilkan "tag cloud" - representasi visual dari berapa kali sebuah kata muncul dalam teks - tidak ada pembelajaran yang terlibat. Analisis yang lebih canggih dan pemahaman bahasa dan teks sering membutuhkan ML. Beberapa contoh:

  • Pembuatan kata kunci. Memahami topik isi teks dan secara otomatis membuat kata kunci untuknya
  • Disambiguasi bahasa. Menentukan makna yang relevan dari beberapa kemungkinan interpretasi kata atau kalimat (ini adalah penjelasan yang bagus dengan contoh-contoh)
  • Analisis sentimen. Memahami di mana pada skala negatif ke positif sentimen yang diungkapkan dalam sebuah teks terletak
  • Ekstraksi entitas yang dinamai. Mengidentifikasi perusahaan, orang, tempat, merek, dll. Dalam sebuah teks; ini sangat sulit ketika nama-nama itu tidak berbeda (misalnya perusahaan "Microsoft" lebih mudah diidentifikasi daripada perusahaan "Target", yang juga merupakan kata dalam bahasa Inggris)

NLP tidak hanya digunakan untuk aplikasi ML yang berorientasi bahasa seperti chatbots. Ini juga digunakan secara luas untuk mempersiapkan dan pra-proses data sebelum dapat menjadi input yang berguna ke banyak model ML. Lebih lanjut tentang itu nanti.

Harap dicatat: Definisi di atas dimaksudkan untuk menyampaikan ide-ide utama dan praktis; untuk definisi ilmiah terperinci silakan merujuk ke sumber lain.

Bagaimana Masalahnya Mempengaruhi Solusi (Dan Beberapa Konsep Kunci ML Lainnya)

Sasaran strategis yang Anda coba capai dengan ML akan menentukan banyak keputusan hilir. Sangat penting untuk memahami beberapa konsep dasar ML dan dampaknya pada tujuan bisnis Anda untuk memastikan tim ilmu data Anda dapat menghasilkan solusi yang tepat untuk bisnis Anda.

Seleksi Algoritma

Perubahan kecil dalam definisi masalah bisa berarti algoritma yang sama sekali berbeda diperlukan untuk menyelesaikannya, atau minimal model yang berbeda akan dibangun dengan input data yang berbeda. Situs kencan yang mencari untuk mengidentifikasi jenis foto yang bekerja dengan baik bagi pengguna dapat menggunakan teknik pembelajaran tanpa pengawasan seperti pengelompokan untuk mengidentifikasi tema umum yang berfungsi, sedangkan jika masalahnya adalah untuk merekomendasikan tanggal potensial kepada orang tertentu, situs tersebut dapat menggunakan pembelajaran yang diawasi berdasarkan masukan khusus untuk pengguna individu, seperti foto yang telah mereka lihat.

Pemilihan Fitur

Model ML mengidentifikasi pola dalam data. Data yang Anda masukkan ke dalam model disusun dalam fitur (juga disebut variabel atau atribut): Ini adalah data yang relevan, sebagian besar independen yang menggambarkan beberapa aspek dari fenomena yang Anda coba prediksi atau identifikasi.

Ambil contoh sebelumnya dari perusahaan yang ingin memprioritaskan penjangkauan kepada pemohon pinjaman. Jika kami mendefinisikan masalah sebagai "memprioritaskan pelanggan berdasarkan kemungkinan mereka untuk mengkonversi", kami akan menyertakan fitur seperti tingkat respons pelanggan yang serupa dengan berbagai jenis penjangkauan perusahaan. Jika kami mendefinisikan masalah sebagai "memprioritaskan pelanggan yang paling mungkin membayar kembali pinjaman mereka", kami mungkin tidak memasukkan fitur-fitur itu karena mereka tidak relevan untuk mengevaluasi kemungkinan pelanggan untuk membayar.

Seleksi Fungsi Objektif

Fungsi objektif adalah tujuan yang Anda optimalkan atau hasil yang coba diprediksi oleh model. Misalnya, jika Anda mencoba menyarankan produk yang mungkin diminati pengguna, output dari suatu model dapat berupa probabilitas bahwa pengguna akan mengklik produk tersebut jika mereka melihatnya. Mungkin juga probabilitas bahwa pengguna akan membeli produk. Pilihan fungsi obyektif terutama tergantung pada tujuan bisnis Anda - dalam contoh ini, apakah Anda lebih tertarik pada keterlibatan pengguna, dalam hal ini fungsi obyektif Anda dapat berupa klik atau waktu tunda, atau dalam pendapatan langsung, dalam hal ini fungsi obyektif Anda akan menjadi pembelian? Pertimbangan utama lainnya adalah ketersediaan data: Agar algoritma dapat belajar, Anda harus memberinya banyak titik data yang "diberi label" sebagai positif (produk yang dilihat dan diklik pengguna) atau negatif (produk yang dilihat dan tidak mengklik). Anda cenderung memiliki lebih banyak poin data dari produk yang diklik (atau tidak diklik) pada vs produk yang dibeli.

Penjelasan dan Interpretabilitas

Output dari model ML sering berupa angka - probabilitas, prediksi kemungkinan sesuatu akan terjadi atau benar. Dalam contoh rekomendasi produk, produk di situs dapat diberi probabilitas bahwa pengguna individu akan mengkliknya, dan produk dengan probabilitas tertinggi akan ditampilkan kepada pengguna. Tetapi bagaimana Anda tahu itu bekerja? Dalam hal ini relatif mudah untuk memverifikasi bahwa algoritme berfungsi - Anda mungkin dapat menjalankan tes singkat dan melihatnya. Tetapi bagaimana jika entitas yang Anda rangking adalah karyawan potensial dan model Anda menguji kemungkinan mereka untuk menjadi kandidat yang baik untuk sebuah perusahaan? Akankah seorang pengguna (katakanlah, seorang manajer perekrutan) hanya mengambil kata-kata Anda untuk itu, atau akankah mereka harus memahami mengapa algoritma memberi peringkat orang A sebelum orang B?

Dalam banyak kasus Anda harus menjelaskan beberapa hal. Namun, banyak algoritme ML adalah kotak hitam: Anda memasukkan banyak fitur, dan mendapatkan model yang sulit untuk dijelaskan. Pola-pola yang ditemukan mesin dalam data seringkali sangat berbelit-belit sehingga manusia tidak akan dapat memahami mereka bahkan jika mereka mudah dimasukkan ke dalam kata-kata.

Pada bagian berikutnya kita akan melihat bahwa kebutuhan akan keterjelasan - sampai sejauh mana pengguna akhir harus dapat memahami bagaimana hasil itu dicapai, dan kemampuan menafsirkan - sampai sejauh mana pengguna perlu menarik kesimpulan tertentu berdasarkan hasil, adalah pertimbangan kritis dalam pendekatan Anda untuk pemodelan, memilih fitur, dan menyajikan hasil.

Kesalahan Pemodelan dan Pengukuran Kinerja yang Harus Diperhatikan PM

Ilmuwan data Anda akan berurusan dengan beberapa masalah umum dengan pemrosesan data dan pemodelan, tetapi untuk melakukan percakapan yang produktif dengan mereka, berguna bagi para PM untuk memahami beberapa perangkap umum. Ini bukan daftar lengkap, tetapi mencakup beberapa masalah yang lebih umum yang muncul.

Overfitting

Sebuah model dikatakan “overfitted” ketika mengikuti data begitu dekat sehingga akhirnya menggambarkan terlalu banyak suara daripada hubungan mendasar yang sebenarnya dalam data (lihat ilustrasi). Secara umum, jika keakuratan model pada data yang Anda latih (data yang “dipelajari”) secara signifikan lebih baik daripada keakuratannya pada data yang Anda validasi dan uji, Anda mungkin memiliki kasus overfitting. .

Ilustrasi yang berlebihan

Presisi, Penarikan kembali dan Pengorbanan Antara Mereka

Ada dua istilah yang sangat membingungkan saat pertama kali Anda mendengarnya, tetapi penting untuk dipahami sepenuhnya karena mereka memiliki implikasi bisnis yang jelas.

Keakuratan klasifikasi (dan teknik ML lainnya yang umum digunakan seperti pengambilan dokumen), sering diukur dengan dua metrik kunci: Presisi dan penarikan. Presisi mengukur pangsa prediksi positif sejati dari semua prediksi positif yang dihasilkan algoritma, yaitu% dari prediksi positif yang benar. Jika ketelitiannya adalah X%, X% dari prediksi positif algoritma adalah positif sebenarnya dan (100-X)% adalah positif palsu. Dengan kata lain, semakin tinggi presisi, semakin sedikit positif salah yang Anda miliki.

Ingat adalah bagian dari prediksi positif dari semua positif sebenarnya dalam data - yaitu berapa% dari positif sejati dalam data yang berhasil diidentifikasi oleh algoritma Anda sebagai positif. Jika penarikannya adalah X%, X% dari positif sebenarnya dalam data diidentifikasi oleh algoritma sebagai positif, sedangkan (100-X)% diidentifikasi sebagai negatif (palsu). Dengan kata lain, semakin tinggi ingatan, semakin sedikit negatif salah yang Anda miliki.

Selalu ada tradeoff antara presisi dan daya ingat. Jika Anda tidak ingin ada false positive - yaitu Anda membutuhkan presisi yang lebih tinggi, algoritme akan memiliki lebih banyak false negative, yaitu recall yang lebih rendah, karena itu akan "lebih suka" untuk label sesuatu sebagai negatif daripada salah label sebagai positif, dan dan sebaliknya. Pengorbanan ini adalah keputusan bisnis. Ambil contoh aplikasi pinjaman: Apakah Anda lebih suka bermain aman dan hanya menerima pelamar yang Anda yakini layak untuk diterima, sehingga meningkatkan kemungkinan menolak beberapa pelanggan yang baik (presisi lebih tinggi, penarikan lebih rendah = lebih sedikit kesalahan positif, lebih banyak kesalahan negatif) , atau menerima lebih banyak pemohon pinjaman yang harus ditolak tetapi tidak berisiko kehilangan pelanggan yang baik (penarikan yang lebih tinggi tetapi presisi yang lebih rendah = lebih sedikit negatif palsu, lebih banyak positif palsu)? Meskipun Anda dapat secara sederhana mengatakan ini adalah masalah optimisasi, ada beberapa faktor yang perlu dipertimbangkan yang tidak mudah diukur seperti sentimen pelanggan (mis. Pelanggan yang ditolak secara tidak adil akan marah dan vokal), risiko merek (misalnya reputasi Anda sebagai penjamin emisi bergantung pada suatu tingkat pinjaman standar yang rendah), kewajiban hukum, dll., menjadikan ini bisnis, bukan ilmu data, keputusan.

Metrik Akurasi Model Yang Sering Menyesatkan

Akurasi model saja bukan ukuran yang baik untuk model apa pun. Bayangkan suatu penyakit dengan tingkat kejadian 0,1% dalam populasi. Model yang mengatakan tidak ada pasien yang memiliki penyakit terlepas dari inputnya adalah 99,9% akurat, tetapi sama sekali tidak berguna. Sangat penting untuk selalu mempertimbangkan ketepatan dan daya ingat serta menyeimbangkannya sesuai dengan kebutuhan bisnis. Akurasi adalah metrik yang baik ketika distribusi hasil yang mungkin cukup seragam dan pentingnya positif palsu dan negatif palsu juga hampir sama, yang jarang terjadi.

Rata-rata Metrik dan Data Pelatihan Yang Tidak Seimbang

Saat Anda berurusan dengan beberapa segmen yang harus ditangani oleh model, Anda perlu melihat metrik kinerja untuk setiap segmen (atau minimal yang penting) secara terpisah. Ambil contoh model klasifikasi yang mengklasifikasikan foto ke dalam satu set kategori berdasarkan jenis hewan di foto. Angka presisi / penarikan keseluruhan model mungkin tidak mencerminkan situasi di mana beberapa kategori memiliki ketepatan yang tinggi, sementara yang lain memiliki ketepatan yang sangat rendah. Ini biasanya terjadi ketika Anda memiliki ketidakseimbangan dalam data pelatihan Anda - misalnya Anda memiliki 1.000 foto kucing dan anjing berlabel dan hanya 10 foto beruang. Ketepatan keseluruhan Anda mungkin sangat tinggi karena sebagian besar foto kucing dan anjing akan diklasifikasikan dengan benar, sementara semua beruang salah diidentifikasi karena model memiliki sedikit atau tidak ada data yang terkait dengan mereka. Jika kategori-kategori yang kurang sering penting bagi bisnis Anda, Anda mungkin perlu upaya bersama untuk mendapatkan data pelatihan agar model Anda bekerja dengan baik di seluruh papan.

Ok - itu cukup lama, tapi semoga sekarang Anda memiliki pemahaman yang baik tentang semua dasar teknis. Selanjutnya, kita akan melalui proses langkah demi langkah yang terperinci untuk mengembangkan model dari ideasi hingga diluncurkan dalam produksi.

Jika Anda menemukan posting ini menarik, tolong klik pada hati hijau di bawah ini untuk memberi tahu saya, atau berbagi dengan orang lain yang mungkin menganggapnya berguna? Itu benar-benar akan membuat hari saya!