Pembelajaran Tanpa Pengawasan: Bagaimana Mesin Belajar Sendiri

Diterbitkan: 2021-03-19

Pembelajaran tanpa pengawasan memungkinkan mesin belajar sendiri.

Jenis pembelajaran mesin (ML) ini memberi aplikasi AI kemampuan untuk mempelajari dan menemukan pola tersembunyi dalam kumpulan data besar tanpa pengawasan manusia. Pembelajaran tanpa pengawasan juga penting untuk mencapai kecerdasan umum buatan.

Data pelabelan adalah padat karya dan memakan waktu, dan dalam banyak kasus, tidak praktis. Di situlah pembelajaran tanpa pengawasan membawa perbedaan besar dengan memberikan aplikasi AI kemampuan untuk belajar tanpa label dan pengawasan.

Apa itu pembelajaran tanpa pengawasan?

Pembelajaran tanpa pengawasan (UL) adalah teknik pembelajaran mesin yang digunakan untuk mengidentifikasi pola dalam kumpulan data yang berisi titik data yang tidak diklasifikasikan dan tidak berlabel. Dalam metode pembelajaran ini, sistem AI hanya diberikan data input dan tidak ada data output yang sesuai.

Tidak seperti pembelajaran yang diawasi , pembelajaran mesin tanpa pengawasan tidak memerlukan manusia untuk mengawasi modelnya. Ilmuwan data membiarkan mesin belajar dengan mengamati data dan menemukan polanya sendiri. Dengan kata lain, subkategori pembelajaran mesin ini memungkinkan sistem untuk bertindak berdasarkan informasi yang diberikan tanpa bimbingan eksternal.

Teknik pembelajaran tanpa pengawasan sangat penting untuk menciptakan sistem kecerdasan buatan dengan kecerdasan manusia. Itu karena mesin cerdas harus mampu membuat keputusan (independen) dengan menganalisis sejumlah besar data yang tidak ditandai.

Dibandingkan dengan algoritma pembelajaran yang diawasi, algoritma UL lebih mahir dalam melakukan tugas-tugas kompleks. Namun, model pembelajaran terawasi menghasilkan hasil yang lebih akurat karena tutor secara eksplisit memberi tahu sistem apa yang harus dicari dalam data yang diberikan. Tetapi dalam kasus pembelajaran tanpa pengawasan, hal-hal bisa sangat tidak terduga.

Jaringan saraf tiruan, yang membuat pembelajaran yang mendalam kenyataan, mungkin tampak seperti didukung oleh pembelajaran tanpa pengawasan. Meskipun benar, algoritma pembelajaran jaringan saraf juga dapat diawasi jika output yang diinginkan sudah diketahui.

Pembelajaran tanpa pengawasan bisa menjadi tujuan itu sendiri. Misalnya, model UL dapat digunakan untuk menemukan pola tersembunyi dalam volume data yang sangat besar dan bahkan untuk mengklasifikasikan dan memberi label pada titik data. Pengelompokan titik data yang tidak tersortir dilakukan dengan mengidentifikasi persamaan dan perbedaannya.

Beberapa alasan mengapa pembelajaran tanpa pengawasan sangat penting.

Data yang tidak berlabel berlimpah.
Pelabelan data adalah tugas yang membosankan yang membutuhkan tenaga manusia. Namun, prosesnya sendiri dapat didukung oleh ML, membuat pelabelan lebih mudah bagi manusia yang terlibat.
Ini berguna untuk menjelajahi data yang tidak diketahui dan mentah.
Ini berguna untuk melakukan pengenalan pola dalam kumpulan data besar.

Pembelajaran tanpa pengawasan dapat dibagi lagi menjadi dua kategori: pembelajaran tanpa pengawasan parametrik dan pembelajaran tanpa pengawasan non-parametrik .

Cara kerja pembelajaran tanpa pengawasan

Sederhananya, pembelajaran tanpa pengawasan bekerja dengan menganalisis data yang tidak dikategorikan, tidak berlabel dan menemukan struktur tersembunyi di dalamnya.

Dalam pembelajaran yang diawasi, seorang ilmuwan data memberi makan sistem dengan data berlabel, misalnya, gambar kucing yang diberi label sebagai kucing, memungkinkannya untuk belajar dengan memberi contoh. Dalam pembelajaran tanpa pengawasan, seorang ilmuwan data hanya menyediakan foto, dan sistem bertanggung jawab untuk menganalisis data dan menyimpulkan apakah itu gambar kucing.

Pembelajaran mesin tanpa pengawasan membutuhkan volume data yang sangat besar. Dalam kebanyakan kasus, hal yang sama berlaku untuk pembelajaran yang diawasi karena modelnya menjadi lebih akurat dengan lebih banyak contoh.

Proses pembelajaran tanpa pengawasan dimulai dengan ilmuwan data melatih algoritme menggunakan kumpulan data pelatihan. Titik data dalam kumpulan data ini tidak berlabel dan tidak dikategorikan.

Tujuan pembelajaran algoritme adalah untuk mengidentifikasi pola dalam kumpulan data dan mengkategorikan titik data berdasarkan pola yang diidentifikasi sama. Dalam contoh gambar kucing, algoritme pembelajaran tanpa pengawasan dapat belajar mengidentifikasi ciri khas kucing, seperti kumis, ekor panjang, dan cakar yang dapat ditarik.

Jika Anda memikirkannya, pembelajaran tanpa pengawasan adalah cara kita belajar mengidentifikasi dan mengkategorikan sesuatu. Misalkan Anda belum pernah mencicipi kecap atau sambal. Jika Anda masing-masing diberi dua botol saus tomat dan saus cabai "tidak berlabel" dan diminta untuk mencicipinya, Anda akan dapat membedakan rasanya.

Anda juga dapat mengidentifikasi kekhasan kedua saus (yang satu asam dan yang lainnya pedas) meskipun Anda tidak tahu nama keduanya. Mencicipi masing-masing beberapa kali lagi akan membuat Anda lebih mengenal rasanya. Segera, Anda akan dapat mengelompokkan hidangan berdasarkan saus yang ditambahkan hanya dengan mencicipinya.

Dengan menganalisis rasanya, Anda dapat menemukan fitur khusus yang membedakan kedua saus dan hidangan kelompok. Anda tidak perlu mengetahui nama saus atau hidangan untuk mengkategorikannya. Anda bahkan mungkin menyebut satu saus manis dan saus pedas lainnya .

Ini mirip dengan bagaimana mesin mengidentifikasi pola dan mengklasifikasikan titik data dengan bantuan pembelajaran tanpa pengawasan. Dalam contoh yang sama, pembelajaran yang diawasi adalah seseorang yang memberi tahu Anda nama kedua saus dan bagaimana rasanya sebelumnya.

Jenis pembelajaran tanpa pengawasan

Masalah belajar tanpa pengawasan dapat diklasifikasikan menjadi masalah pengelompokan dan asosiasi .

Kekelompokan

Clustering atau analisis klaster adalah proses pengelompokan objek ke dalam klaster. Item dengan kemiripan paling banyak dikelompokkan bersama, sedangkan sisanya jatuh ke dalam cluster lain. Contoh pengelompokan adalah mengelompokkan pengguna YouTube berdasarkan riwayat tontonan mereka.

Tergantung pada cara kerjanya, pengelompokan dapat dikategorikan menjadi empat kelompok sebagai berikut:

Pengelompokan eksklusif: Seperti namanya, pengelompokan eksklusif menentukan bahwa titik data atau objek hanya dapat ada dalam satu cluster.
Pengelompokan hierarkis: Hirarki mencoba membuat hierarki cluster. Ada dua jenis pengelompokan hierarkis: aglomeratif dan divisif . Agglomerative mengikuti pendekatan bottom-up, awalnya memperlakukan setiap titik data sebagai cluster individu, dan pasangan cluster digabungkan saat mereka bergerak ke atas hierarki. Divisive adalah kebalikan dari agglomerative. Setiap titik data dimulai dalam satu kluster dan terpecah saat mereka bergerak ke bawah hierarki.
Pengelompokan yang tumpang tindih: Tumpang tindih memungkinkan titik data dikelompokkan dalam dua atau lebih cluster.
Pengelompokan probabilistik: Probabilistik menggunakan distribusi probabilitas untuk membuat klaster. Misalnya, "kaus kaki hijau", "kaus kaki biru", "kaos hijau", dan "kaos biru" dapat dikelompokkan ke dalam dua kategori "hijau" dan "biru" atau "kaus kaki" dan "kaus ".

Asosiasi

Association rule learning (ARL) adalah metode pembelajaran tanpa pengawasan yang digunakan untuk menemukan hubungan antar variabel dalam database besar. Tidak seperti beberapa algoritma pembelajaran mesin, ARL mampu menangani titik data non-numerik.

Dalam pengertian yang lebih sederhana, ARL adalah tentang menemukan bagaimana variabel-variabel tertentu diasosiasikan satu sama lain. Misalnya, orang yang membeli sepeda motor kemungkinan besar akan membeli helm.

Menemukan hubungan seperti itu bisa sangat menguntungkan. Misalnya, jika pelanggan yang membeli Produk X cenderung membeli Produk Y, pengecer online dapat merekomendasikan Produk Y kepada siapa pun yang membeli Produk X.

Pembelajaran aturan asosiasi menggunakan pernyataan if/then sebagai intinya. Pernyataan ini dapat mengungkapkan hubungan antara data independen. Selain itu, pola atau hubungan jika/maka diamati menggunakan dukungan dan kepercayaan .

Dukungan menentukan seberapa sering hubungan if/then muncul dalam database. Keyakinan mendefinisikan berapa kali hubungan if/then ditemukan valid.

Analisis keranjang pasar dan penambangan penggunaan web dimungkinkan dengan aturan asosiasi.

Algoritma pembelajaran tanpa pengawasan

Pembelajaran aturan pengelompokan dan asosiasi diimplementasikan dengan bantuan algoritma.

Algoritma Apriori, algoritma ECLAT, dan algoritma pertumbuhan Frequent pattern (FP) adalah beberapa algoritma penting yang digunakan untuk mengimplementasikan aturan asosiasi. Pengelompokan dimungkinkan oleh algoritme seperti pengelompokan k-means dan analisis komponen utama (PCA).

Algoritma apriori

Algoritma Apriori dibangun untuk penambangan data. Ini berguna untuk menambang database yang berisi sejumlah besar transaksi, misalnya, database yang berisi daftar barang yang dibeli oleh pembeli di supermarket. Ini digunakan untuk mengidentifikasi efek berbahaya dari obat-obatan dan dalam analisis keranjang pasar untuk menemukan rangkaian barang yang kemungkinan besar akan dibeli pelanggan bersama-sama.

algoritma ECLAT

Equivalence Class Clustering dan bottom-up Lattice Traversal , atau disingkat ECLAT , adalah algoritma penambangan data yang digunakan untuk mencapai penambangan itemset dan menemukan item yang sering.

Algoritma Apriori menggunakan format data horizontal sehingga perlu memindai database beberapa kali untuk mengidentifikasi item yang sering. Di sisi lain, ECLAT mengikuti pendekatan vertikal dan umumnya lebih cepat karena hanya perlu memindai database sekali.

Algoritma pertumbuhan pola yang sering (FP)

Algoritma pertumbuhan frequent pattern (FP) adalah versi perbaikan dari algoritma Apriori. Algoritma ini mewakili database dalam bentuk struktur pohon yang dikenal sebagai pohon atau pola yang sering.

Pohon yang sering seperti itu digunakan untuk menambang pola yang paling sering. Sementara algoritma Apriori perlu memindai database n+1 kali (di mana n adalah panjang model terpanjang), algoritma FP-growth hanya membutuhkan dua pemindaian.

K-berarti pengelompokan

Banyak iterasi dari algoritma k-means yang banyak digunakan dalam bidang ilmu data. Sederhananya, algoritma pengelompokan k-means mengelompokkan item serupa ke dalam cluster. Jumlah cluster diwakili oleh k . Jadi jika nilai k adalah 3, akan ada tiga cluster secara total.

Metode clustering ini membagi dataset yang tidak berlabel sehingga setiap titik data hanya dimiliki oleh satu grup dengan properti yang serupa. Kuncinya adalah menemukan pusat K yang disebut cluster centroids .

Setiap cluster akan memiliki satu cluster centroid, dan saat melihat titik data baru, algoritme akan menentukan cluster terdekat tempat titik data tersebut berada berdasarkan metrik seperti jarak euclidean.

Analisis komponen utama (PCA)

Analisis komponen utama (PCA) adalah metode pengurangan dimensi yang umumnya digunakan untuk mengurangi dimensi kumpulan data besar. Ini dilakukan dengan mengubah sejumlah besar variabel menjadi variabel yang lebih kecil yang berisi hampir semua informasi dalam kumpulan data besar.

Mengurangi jumlah variabel mungkin sedikit mempengaruhi akurasi, tetapi bisa menjadi tradeoff yang dapat diterima untuk kesederhanaan. Itu karena kumpulan data yang lebih kecil lebih mudah untuk dianalisis, dan algoritme pembelajaran mesin tidak perlu banyak berkeringat untuk mendapatkan wawasan yang berharga.

Pembelajaran yang diawasi vs. tidak diawasi

Pembelajaran yang diawasi mirip dengan memiliki seorang guru yang mengawasi seluruh proses pembelajaran. Ada juga kumpulan data pelatihan berlabel yang mirip dengan jawaban yang benar untuk setiap masalah yang Anda coba selesaikan.

Lebih mudah untuk memahami apakah jawaban Anda benar atau tidak, dan guru juga akan mengoreksi Anda ketika Anda melakukan kesalahan. Dalam kasus pembelajaran tanpa pengawasan, tidak ada guru atau jawaban yang benar.

Dari perspektif komputasi, pembelajaran tanpa pengawasan lebih rumit dan memakan waktu daripada pembelajaran yang diawasi. Namun, ini berguna untuk penambangan data dan untuk mendapatkan wawasan tentang struktur data sebelum menetapkan pengklasifikasi apa pun (algoritme pembelajaran mesin yang secara otomatis mengklasifikasikan data).

Meskipun berguna ketika data yang tidak berlabel sangat besar, pembelajaran tanpa pengawasan dapat menyebabkan sedikit ketidaknyamanan bagi para ilmuwan data. Karena dataset validasi yang digunakan dalam pembelajaran terawasi juga diberi label, lebih mudah bagi ilmuwan data untuk mengukur akurasi model. Tetapi hal yang sama tidak berlaku untuk model pembelajaran tanpa pengawasan.

Dalam banyak kasus, pembelajaran tanpa pengawasan diterapkan sebelum pembelajaran yang diawasi. Ini membantu mengidentifikasi fitur dan membuat kelas.

Proses pembelajaran tanpa pengawasan berlangsung secara online, sedangkan pembelajaran terawasi berlangsung secara offline. Hal ini memungkinkan algoritma UL untuk memproses data secara real time.

Sementara masalah pembelajaran tanpa pengawasan dibagi menjadi masalah asosiasi dan pengelompokan, pembelajaran yang diawasi dapat dikategorikan lebih lanjut ke dalam regresi dan klasifikasi.

Terlepas dari pembelajaran yang diawasi dan tidak diawasi, ada pembelajaran semi-diawasi dan pembelajaran penguatan .

Pembelajaran semi terawasi merupakan perpaduan antara pembelajaran terawasi dan tidak terawasi. Dalam teknik machine learning ini, sistemnya dilatih sedikit saja sehingga mendapat gambaran tingkat tinggi. Sebagian kecil dari data pelatihan akan diberi label, dan sisanya tidak akan diberi label.

Dalam pembelajaran penguatan (RL) , sistem kecerdasan buatan akan menghadapi lingkungan seperti permainan di mana ia harus memaksimalkan hadiah. Sistem harus belajar dengan mengikuti metode coba-coba dan meningkatkan peluangnya untuk mendapatkan hadiah dengan setiap langkah.

Berikut sekilas perbedaan utama antara pembelajaran yang diawasi dan tidak diawasi.

Pembelajaran tanpa pengawasan	Pembelajaran yang diawasi
Ini adalah proses yang kompleks, membutuhkan lebih banyak sumber daya komputasi, dan memakan waktu.	Ini relatif sederhana dan membutuhkan lebih sedikit sumber daya komputasi.
Set data pelatihan tidak berlabel.	Dataset pelatihan diberi label.
Kurang akurat, tapi belum tentu	Sangat akurat
Dibagi menjadi asosiasi dan pengelompokan	Dibagi menjadi regresi dan klasifikasi
Ini rumit untuk mengukur akurasi model bersama dengan ketidakpastian.	Lebih mudah untuk mengukur akurasi model.
Jumlah kelas tidak diketahui.	Jumlah kelas diketahui.
Pembelajaran berlangsung secara real-time.	Pembelajaran berlangsung secara offline.
Algoritma pertumbuhan Apriori, ECLAT, k-means clustering, dan Frequent pattern (FP) adalah beberapa algoritma yang digunakan.	Regresi linier, regresi logistik, Naive Bayes, dan support vector machine (SVM) adalah beberapa algoritma yang digunakan.

Contoh pembelajaran mesin tanpa pengawasan

Seperti disebutkan sebelumnya, pembelajaran tanpa pengawasan dapat menjadi tujuan itu sendiri dan dapat digunakan untuk menemukan pola tersembunyi dalam volume data yang sangat besar – tugas yang tidak realistis bagi manusia.

Beberapa aplikasi pembelajaran mesin tanpa pengawasan di dunia nyata.

Deteksi anomali: Ini adalah proses menemukan titik data atipikal dalam kumpulan data dan, oleh karena itu, berguna untuk mendeteksi aktivitas penipuan.
Visi komputer: Juga dikenal sebagai pengenalan gambar, prestasi mengidentifikasi objek dalam gambar ini sangat penting untuk mobil self-driving dan bahkan berharga untuk industri perawatan kesehatan untuk segmentasi gambar.
Sistem rekomendasi: Dengan menganalisis data historis, algoritme pembelajaran tanpa pengawasan merekomendasikan produk yang kemungkinan besar akan dibeli pelanggan.
Persona pelanggan: Pembelajaran tanpa pengawasan dapat membantu bisnis membangun persona pelanggan yang akurat dengan menganalisis data tentang kebiasaan pembelian.

Meninggalkan algoritme ke perangkat mereka sendiri

Kemampuan untuk belajar sendiri menjadikan pembelajaran tanpa pengawasan sebagai cara tercepat untuk menganalisis volume data yang sangat besar. Tentu saja, memilih antara pembelajaran yang diawasi atau tidak (atau bahkan semi-diawasi) tergantung pada masalah yang Anda coba selesaikan dan waktu serta luasnya data yang tersedia. Namun demikian, pembelajaran tanpa pengawasan dapat membuat seluruh upaya Anda lebih terukur.

AI yang kita miliki saat ini tidak mampu mendominasi dunia, apalagi melanggar perintah penciptanya. Tapi itu membuat prestasi luar biasa seperti mobil self-driving dan chatbots menjadi mungkin. Ini disebut AI sempit tetapi tidak selemah kedengarannya.