Apa itu Data Pelatihan? Bagaimana Ini Digunakan dalam Pembelajaran Mesin

Diterbitkan: 2021-07-30

Model pembelajaran mesin sebagus data yang mereka latih.

Tanpa data pelatihan berkualitas tinggi, bahkan yang paling efisien   pembelajaran mesin   algoritma akan gagal untuk melakukan.

Kebutuhan akan data yang berkualitas, akurat, lengkap, dan relevan dimulai sejak dini dalam proses pelatihan. Hanya jika algoritme diumpankan dengan data pelatihan yang baik, ia dapat dengan mudah mengambil fitur dan menemukan hubungan yang perlu diprediksi di masa mendatang.

Lebih tepatnya, data pelatihan berkualitas adalah aspek paling signifikan dari pembelajaran mesin (dan kecerdasan buatan) daripada yang lain. Jika Anda memperkenalkan algoritme pembelajaran mesin (ML) ke data yang tepat, Anda menyiapkannya untuk akurasi dan kesuksesan.

Data pelatihan juga dikenal sebagai dataset pelatihan, set pembelajaran, dan set pelatihan. Ini adalah komponen penting dari setiap model pembelajaran mesin dan membantu mereka membuat prediksi yang akurat atau melakukan tugas yang diinginkan.

Sederhananya, data pelatihan membangun model pembelajaran mesin. Ini mengajarkan seperti apa keluaran yang diharapkan. Model menganalisis kumpulan data berulang kali untuk memahami karakteristiknya secara mendalam dan menyesuaikan diri untuk kinerja yang lebih baik.

Dalam pengertian yang lebih luas, data pelatihan dapat diklasifikasikan menjadi dua kategori: data berlabel dan data tidak berlabel .

data berlabel vs. data tidak berlabel

Apa yang dimaksud dengan data berlabel?

Data berlabel adalah sekelompok sampel data yang ditandai dengan satu atau lebih label yang bermakna. Ini juga disebut data beranotasi, dan labelnya mengidentifikasi karakteristik tertentu, properti, klasifikasi, atau objek yang terkandung.

Misalnya, gambar buah dapat ditandai sebagai apel, pisang, atau anggur .

Data pelatihan berlabel digunakan dalam   pembelajaran yang diawasi. Ini memungkinkan model ML untuk mempelajari karakteristik yang terkait dengan label tertentu, yang dapat digunakan untuk mengklasifikasikan titik data yang lebih baru. Dalam contoh di atas, ini berarti bahwa model dapat menggunakan data gambar berlabel untuk memahami fitur buah tertentu dan menggunakan informasi ini untuk mengelompokkan gambar baru.

Pelabelan atau anotasi data adalah proses yang memakan waktu karena manusia perlu menandai atau memberi label pada titik data. Pengumpulan data berlabel menantang dan mahal. Tidak mudah untuk menyimpan data berlabel jika dibandingkan dengan data yang tidak berlabel.

Apa itu data yang tidak berlabel?

Seperti yang diharapkan, data tidak berlabel adalah kebalikan dari data berlabel. Ini adalah data mentah atau data yang tidak ditandai dengan label apa pun untuk mengidentifikasi klasifikasi, karakteristik, atau properti. Ini digunakan dalam   pembelajaran mesin tanpa pengawasan, dan model ML harus menemukan pola atau kesamaan dalam data untuk mencapai kesimpulan.

Kembali ke contoh apel , pisang , dan anggur sebelumnya , dalam data pelatihan yang tidak berlabel, gambar buah-buahan tersebut tidak akan diberi label. Model harus mengevaluasi setiap gambar dengan melihat karakteristiknya, seperti warna dan bentuknya.

Setelah menganalisis sejumlah besar gambar, model akan dapat membedakan gambar baru (data baru) ke dalam jenis buah apel , pisang , atau anggur . Tentu saja, model tidak akan tahu bahwa buah tertentu disebut apel. Sebaliknya, ia mengetahui karakteristik yang diperlukan untuk mengidentifikasinya.

Ada model hibrida yang menggunakan kombinasi pembelajaran mesin yang diawasi dan tidak diawasi.

Bagaimana data pelatihan digunakan dalam pembelajaran mesin

Tidak seperti algoritma pembelajaran mesin, algoritma pemrograman tradisional mengikuti serangkaian instruksi untuk menerima data input dan memberikan output. Mereka tidak bergantung pada data historis, dan setiap tindakan yang mereka lakukan didasarkan pada aturan. Ini juga berarti bahwa mereka tidak meningkat dari waktu ke waktu, yang tidak terjadi pada pembelajaran mesin.

Untuk model pembelajaran mesin, data historis adalah makanan ternak. Sama seperti manusia yang mengandalkan pengalaman masa lalu untuk membuat keputusan yang lebih baik, model ML melihat set data pelatihan mereka dengan pengamatan sebelumnya untuk membuat prediksi.

Prediksi dapat mencakup pengklasifikasian gambar seperti dalam kasus   pengenalan gambar, atau pemahaman konteks kalimat seperti dalam pemrosesan bahasa alami (NLP).

Bayangkan seorang ilmuwan data sebagai guru, algoritme pembelajaran mesin sebagai siswa, dan kumpulan data pelatihan sebagai kumpulan semua buku teks.

Cita-cita guru adalah siswa harus berprestasi baik dalam ujian dan juga di dunia nyata. Dalam kasus algoritma ML, pengujian seperti ujian. Buku teks (set data pelatihan) berisi beberapa contoh jenis pertanyaan yang akan diajukan dalam ujian.

Tip: Lihat analitik data besar   untuk mengetahui seberapa besar data dikumpulkan, terstruktur, dibersihkan, dan dianalisis.

Tentu saja, itu tidak akan berisi semua contoh pertanyaan yang akan ditanyakan dalam ujian, juga tidak akan semua contoh yang disertakan dalam buku teks akan ditanyakan dalam ujian. Buku teks dapat membantu mempersiapkan siswa dengan mengajari mereka apa yang diharapkan dan bagaimana menanggapinya.

Tidak ada buku teks yang bisa sepenuhnya lengkap. Seiring berjalannya waktu, jenis pertanyaan yang diajukan akan berubah, sehingga informasi yang terdapat dalam buku teks perlu diubah. Dalam kasus algoritme ML, set pelatihan harus diperbarui secara berkala untuk menyertakan informasi baru.

Singkatnya, data pelatihan adalah buku teks yang membantu ilmuwan data memberikan ide kepada algoritma ML tentang apa yang diharapkan. Meskipun dataset pelatihan tidak berisi semua kemungkinan contoh, itu akan membuat algoritme mampu membuat prediksi.

Data pelatihan vs. data uji vs. data validasi

Data latih digunakan dalam pelatihan model, atau dengan kata lain, adalah data yang digunakan agar sesuai dengan model. Sebaliknya, data uji digunakan untuk mengevaluasi kinerja atau akurasi model. Ini adalah sampel data yang digunakan untuk membuat evaluasi yang tidak bias dari model akhir yang sesuai dengan data pelatihan.

Kumpulan data pelatihan adalah kumpulan data awal yang mengajarkan model ML untuk mengidentifikasi pola yang diinginkan atau melakukan tugas tertentu. Kumpulan data pengujian digunakan untuk mengevaluasi seberapa efektif pelatihan itu atau seberapa akurat modelnya.

Setelah algoritme ML dilatih pada kumpulan data tertentu dan jika Anda mengujinya pada kumpulan data yang sama, kemungkinan akurasinya lebih tinggi karena model mengetahui apa yang diharapkan. Jika dataset pelatihan berisi semua kemungkinan nilai yang mungkin ditemui model di masa depan, semuanya baik-baik saja.

Tapi itu tidak pernah terjadi. Kumpulan data pelatihan tidak pernah bisa komprehensif dan tidak bisa mengajarkan semua yang mungkin ditemui model di dunia nyata. Oleh karena itu, kumpulan data uji, yang berisi titik data yang tidak terlihat , digunakan untuk mengevaluasi keakuratan model.

data pelatihan vs. data validasi vs. data uji

Kemudian ada data validasi . Ini adalah kumpulan data yang sering digunakan untuk evaluasi selama fase pelatihan. Meskipun model melihat kumpulan data ini sesekali, model tidak belajar darinya. Set validasi juga disebut sebagai set pengembangan atau set dev. Ini membantu melindungi model dari overfitting dan underfitting.

Meskipun data validasi terpisah dari data latih, ilmuwan data mungkin mencadangkan sebagian dari data latih untuk validasi. Tapi tentu saja, ini secara otomatis berarti bahwa data validasi dijauhkan selama pelatihan.

Tip: Jika Anda memiliki jumlah data yang terbatas, teknik yang disebut validasi silang dapat digunakan untuk memperkirakan kinerja model. Metode ini melibatkan partisi secara acak data pelatihan menjadi beberapa subset dan memesan satu untuk evaluasi.

Banyak yang menggunakan istilah "data uji" dan "data validasi" secara bergantian. Perbedaan utama antara keduanya adalah data validasi digunakan untuk memvalidasi model selama pelatihan, sedangkan set pengujian digunakan untuk menguji model setelah pelatihan selesai.

Dataset validasi memberikan model rasa pertama dari data yang tidak terlihat. Namun, tidak semua ilmuwan data melakukan pemeriksaan awal menggunakan data validasi. Mereka mungkin melewatkan bagian ini dan langsung menuju ke pengujian data.

Apa itu manusia dalam lingkaran?

Human in the loop mengacu pada orang-orang yang terlibat dalam pengumpulan dan persiapan data pelatihan.

Data mentah dikumpulkan dari berbagai sumber, termasuk perangkat IoT, platform media sosial, situs web, dan umpan balik pelanggan. Setelah dikumpulkan, individu yang terlibat dalam proses akan menentukan atribut penting dari data yang merupakan indikator yang baik dari hasil yang Anda inginkan untuk diprediksi oleh model.

Data disiapkan dengan membersihkannya, menghitung nilai yang hilang, menghapus outlier, menandai titik data, dan memuatnya ke tempat yang sesuai untuk melatih algoritme ML. Juga akan ada beberapa putaran pemeriksaan kualitas; seperti yang Anda ketahui, label yang salah dapat memengaruhi keakuratan model secara signifikan.

Apa yang membuat data pelatihan bagus?

Data berkualitas tinggi diterjemahkan menjadi model pembelajaran mesin yang akurat.

Data berkualitas rendah dapat secara signifikan memengaruhi keakuratan model, yang dapat menyebabkan kerugian finansial yang parah. Ini hampir seperti memberi siswa buku teks yang berisi informasi yang salah dan mengharapkan mereka untuk unggul dalam ujian.

Berikut ini adalah empat ciri utama dari data pelatihan yang berkualitas.

Relevan

Data harus relevan dengan tugas yang ada. Misalnya, jika Anda ingin melatih   visi komputer   algoritma untuk kendaraan otonom, Anda mungkin tidak memerlukan gambar buah dan sayuran. Sebagai gantinya, Anda memerlukan kumpulan data pelatihan yang berisi foto jalan, trotoar, pejalan kaki, dan kendaraan.

Perwakilan

Data pelatihan AI harus memiliki titik data atau fitur yang dibuat aplikasi untuk diprediksi atau diklasifikasi. Tentu saja, kumpulan data tidak pernah bisa mutlak, tetapi harus memiliki setidaknya atribut yang ingin dikenali oleh aplikasi AI.

Misalnya, jika model dimaksudkan untuk mengenali wajah dalam gambar, model tersebut harus diisi dengan beragam data yang berisi wajah orang dari berbagai etnis. Ini akan mengurangi masalah bias AI, dan model tidak akan berprasangka terhadap ras, jenis kelamin, atau kelompok usia tertentu.

Seragam

Semua data harus memiliki atribut yang sama dan harus berasal dari sumber yang sama.

Misalkan proyek pembelajaran mesin Anda bertujuan untuk memprediksi tingkat penghentian dengan melihat informasi pelanggan. Untuk itu, Anda akan memiliki database informasi pelanggan yang mencakup nama pelanggan, alamat, jumlah pesanan, frekuensi pemesanan, dan informasi relevan lainnya. Ini adalah data historis dan dapat digunakan sebagai data pelatihan.

Satu bagian data tidak boleh memiliki informasi tambahan, seperti usia atau jenis kelamin. Ini akan membuat data pelatihan tidak lengkap dan model tidak akurat. Singkatnya, keseragaman adalah aspek penting dari data pelatihan yang berkualitas.

Luas

Sekali lagi, data pelatihan tidak pernah bisa mutlak. Tapi itu harus berupa kumpulan data besar yang mewakili sebagian besar kasus penggunaan model. Data pelatihan harus memiliki cukup contoh yang memungkinkan model belajar dengan tepat. Itu harus berisi sampel data dunia nyata karena akan membantu melatih model untuk memahami apa yang diharapkan.

Jika Anda memikirkan data pelatihan sebagai nilai yang ditempatkan dalam banyak baris dan kolom, maaf, Anda salah. Itu bisa berupa tipe data apa pun seperti teks, gambar, audio, atau video.

Apa yang memengaruhi kualitas data pelatihan?

Manusia adalah makhluk yang sangat sosial, tetapi ada beberapa prasangka yang mungkin kita ambil sebagai anak-anak dan membutuhkan upaya sadar yang konstan untuk menghilangkannya. Meskipun tidak menguntungkan, bias tersebut dapat memengaruhi kreasi kami, dan aplikasi pembelajaran mesin tidak berbeda.

Untuk model ML, data pelatihan adalah satu-satunya buku yang mereka baca. Kinerja atau akurasi mereka akan tergantung pada seberapa komprehensif, relevan, dan representatif buku itu sendiri.

Karena itu, tiga faktor mempengaruhi kualitas data pelatihan:

  1. Orang: Orang yang melatih model memiliki dampak signifikan pada akurasi atau kinerjanya. Jika mereka bias, secara alami akan memengaruhi cara mereka memberi tag pada data dan, pada akhirnya, bagaimana model ML berfungsi.

  2. Proses: Proses pelabelan data harus memiliki pemeriksaan kontrol kualitas yang ketat. Ini akan secara signifikan meningkatkan kualitas data pelatihan.

  3. Alat: Alat yang tidak kompatibel atau ketinggalan zaman dapat membuat kualitas data menurun. Menggunakan perangkat lunak pelabelan data yang kuat dapat mengurangi biaya dan waktu yang terkait dengan proses tersebut.

Di mana mendapatkan data pelatihan?

Ada beberapa cara untuk mendapatkan data pelatihan. Pilihan sumber Anda dapat bervariasi tergantung pada skala proyek pembelajaran mesin Anda, anggaran, dan waktu yang tersedia. Berikut ini adalah tiga sumber utama untuk mengumpulkan data.

Data pelatihan sumber terbuka

Sebagian besar pengembang ML amatir dan bisnis kecil yang tidak mampu mengumpulkan atau memberi label data mengandalkan data pelatihan sumber terbuka. Ini adalah pilihan yang mudah karena sudah dikumpulkan dan gratis. Namun, Anda kemungkinan besar harus mengubah atau membuat anotasi ulang set data tersebut agar sesuai dengan kebutuhan pelatihan Anda. ImageNet, Kaggle, dan Google Dataset Search adalah beberapa contoh set data open-source.

Internet dan IoT

Sebagian besar perusahaan menengah mengumpulkan data menggunakan internet dan perangkat IoT. Kamera, sensor, dan perangkat cerdas lainnya membantu mengumpulkan data mentah, yang akan dibersihkan dan diberi anotasi nanti. Metode pengumpulan data ini akan secara khusus disesuaikan dengan persyaratan proyek pembelajaran mesin Anda, tidak seperti set data sumber terbuka. Namun, pembersihan, standarisasi, dan pelabelan data adalah proses yang memakan waktu dan sumber daya yang intensif.

Data pelatihan buatan

Seperti namanya, data pelatihan buatan adalah data yang dibuat secara artifisial menggunakan model pembelajaran mesin. Ini juga disebut data sintetis, dan merupakan pilihan yang sangat baik jika Anda memerlukan data pelatihan berkualitas baik dengan fitur khusus untuk melatih suatu algoritme. Tentu saja, metode ini akan membutuhkan sumber daya komputasi yang besar dan waktu yang cukup lama.

Berapa banyak data pelatihan yang cukup?

Tidak ada jawaban spesifik tentang berapa banyak data pelatihan yang cukup untuk data pelatihan. Itu tergantung pada algoritme yang Anda latih – hasil yang diharapkan, aplikasi, kompleksitas, dan banyak faktor lainnya.

Misalkan Anda ingin melatih pengklasifikasi teks yang mengategorikan kalimat berdasarkan kemunculan istilah "kucing" dan "anjing" dan sinonimnya seperti "kucing", "kucing", "kucing", "anak anjing", atau "anjing" . Ini mungkin tidak memerlukan kumpulan data yang besar karena hanya ada beberapa istilah untuk dicocokkan dan diurutkan.

Tetapi, jika ini adalah pengklasifikasi gambar yang mengkategorikan gambar sebagai "kucing" dan "anjing", jumlah titik data yang dibutuhkan dalam kumpulan data pelatihan akan meningkat secara signifikan. Singkatnya, banyak faktor yang berperan untuk memutuskan data pelatihan apa yang merupakan data pelatihan yang cukup.

Jumlah data yang dibutuhkan akan berubah tergantung pada algoritma yang digunakan.

Untuk konteks,   pembelajaran mendalam, bagian dari pembelajaran mesin, membutuhkan jutaan titik data untuk melatih jaringan saraf tiruan (JST). Sebaliknya, algoritma pembelajaran mesin hanya membutuhkan ribuan titik data. Tapi tentu saja, ini adalah generalisasi yang dibuat-buat karena jumlah data yang dibutuhkan bervariasi tergantung pada aplikasinya.

Semakin banyak Anda melatih modelnya, semakin akurat jadinya. Jadi selalu lebih baik untuk memiliki sejumlah besar data sebagai data pelatihan.

Sampah masuk sampah keluar

Ungkapan "sampah masuk, sampah keluar" adalah salah satu frasa tertua dan paling banyak digunakan dalam ilmu data. Bahkan dengan tingkat generasi data yang tumbuh secara eksponensial, itu masih berlaku.

Kuncinya adalah memasukkan data representatif dan berkualitas tinggi ke algoritme pembelajaran mesin. Melakukannya dapat meningkatkan akurasi model secara signifikan. Data pelatihan berkualitas baik juga penting untuk membuat aplikasi pembelajaran mesin yang tidak bias.

Pernah bertanya-tanya komputer apa dengan kecerdasan seperti manusia yang mampu? Komputer yang setara dengan kecerdasan manusia dikenal sebagai kecerdasan umum buatan, dan kami belum menyimpulkan apakah itu akan menjadi penemuan terbesar atau paling berbahaya yang pernah ada.