Denetimsiz Öğrenme: Makineler Kendi Kendine Nasıl Öğrenir?

Yayınlanan: 2021-03-19

Denetimsiz öğrenme, makinelerin kendi kendilerine öğrenmesini sağlar.

Bu tür makine öğrenimi (ML), yapay zeka uygulamalarına insan denetimi olmadan büyük veri kümelerinde gizli kalıpları öğrenme ve bulma yeteneği verir. Denetimsiz öğrenme, başarıya ulaşmak için de çok önemlidir. yapay genel zeka

Verileri etiketlemek, emek yoğun ve zaman alıcıdır ve çoğu durumda pratik değildir. Denetimsiz öğrenmenin, yapay zeka uygulamalarına etiketler ve denetim olmadan öğrenme yeteneği vererek büyük bir fark yarattığı yer burasıdır.

Denetimsiz öğrenme nedir?

Denetimsiz öğrenme (UL), sınıflandırılmamış ve etiketlenmemiş veri noktaları içeren veri kümelerindeki kalıpları tanımlamak için kullanılan bir makine öğrenme tekniğidir. Bu öğrenme yönteminde, bir yapay zeka sistemine yalnızca giriş verileri verilir ve karşılık gelen çıkış verileri verilmez.

Denetimli öğrenmenin aksine, denetimsiz makine öğrenimi, modeli denetlemek için bir insan gerektirmez. Veri bilimcisi, makinenin verileri gözlemleyerek ve kendi başına kalıplar bularak öğrenmesini sağlar. Başka bir deyişle, makine öğreniminin bu alt kategorisi, bir sistemin herhangi bir dış rehberlik olmadan verilen bilgiler üzerinde hareket etmesine izin verir.

Denetimsiz öğrenme teknikleri, insan zekası ile yapay zeka sistemleri oluşturmak için kritik öneme sahiptir. Bunun nedeni, akıllı makinelerin büyük hacimli etiketlenmemiş verileri analiz ederek (bağımsız) kararlar alabilmesi gerektiğidir.

Denetimli öğrenme algoritmalarıyla karşılaştırıldığında, UL algoritmaları karmaşık görevleri gerçekleştirmede daha ustadır. Bununla birlikte, bir öğretmen sisteme verilen verilerde neyi araması gerektiğini açıkça söylediğinden, denetimli öğrenme modelleri daha doğru sonuçlar üretir. Ancak denetimsiz öğrenme durumunda, işler oldukça tahmin edilemez olabilir.

yapan yapay sinir ağları, derin öğrenme bir gerçeklik, denetimsiz öğrenme tarafından destekleniyor gibi görünebilir. Doğru olmasına rağmen, istenen çıktı zaten biliniyorsa, sinir ağlarının öğrenme algoritmaları da denetlenebilir.

Denetimsiz öğrenme başlı başına bir hedef olabilir. Örneğin, UL modelleri, büyük hacimli verilerdeki gizli kalıpları bulmak ve hatta veri noktalarını sınıflandırmak ve etiketlemek için kullanılabilir. Sıralanmamış veri noktalarının gruplandırılması, benzerlikleri ve farklılıkları belirlenerek gerçekleştirilir.

Denetimsiz öğrenmenin gerekli olmasının bazı nedenleri.

Etiketlenmemiş veriler bol miktarda bulunur.
Verileri etiketlemek, insan emeği gerektiren sıkıcı bir iştir. Bununla birlikte, sürecin kendisi ML destekli olabilir, bu da ilgili insanlar için etiketlemeyi kolaylaştırır.
Bilinmeyen ve ham verileri keşfetmek için kullanışlıdır.
Büyük veri kümelerinde örüntü tanıma gerçekleştirmek için kullanışlıdır.

Denetimsiz öğrenme ayrıca iki kategoriye ayrılabilir: parametrik denetimsiz öğrenme ve parametrik olmayan denetimsiz öğrenme .

Denetimsiz öğrenme nasıl çalışır?

Basitçe söylemek gerekirse, denetimsiz öğrenme, kategorize edilmemiş, etiketlenmemiş verileri analiz ederek ve içindeki gizli yapıları bularak çalışır.

Denetimli öğrenmede, bir veri bilimcisi, sistemi etiketli verilerle, örneğin kedi olarak etiketlenen kedilerin görüntüleri ile besler ve örnek olarak öğrenmesini sağlar. Denetimsiz öğrenmede, bir veri bilimcisi yalnızca fotoğrafları sağlar ve verileri analiz etmek ve bunların kedi görüntüleri olup olmadığına karar vermek sistemin sorumluluğundadır.

Denetimsiz makine öğrenimi, büyük miktarda veri gerektirir. Çoğu durumda, model daha fazla örnekle daha doğru hale geldiğinden, aynı şey denetimli öğrenme için de geçerlidir.

Denetimsiz öğrenme süreci, veri bilimcilerinin eğitim veri kümelerini kullanarak algoritmaları eğitmesiyle başlar. Bu veri kümelerindeki veri noktaları etiketlenmemiş ve kategorilere ayrılmamıştır.

Algoritmanın öğrenme hedefi, veri kümesi içindeki kalıpları belirlemek ve aynı tanımlanmış kalıplara dayalı olarak veri noktalarını kategorize etmektir. Kedi görüntüleri örneğinde, denetimsiz öğrenme algoritması, kedilerin bıyıkları, uzun kuyrukları ve geri çekilebilir pençeleri gibi farklı özelliklerini tanımlamayı öğrenebilir.

Düşünürseniz, denetimsiz öğrenme, şeyleri tanımlamayı ve kategorilere ayırmayı öğrenme şeklimizdir. Hiç ketçap ya da acı sos tatmadığınızı varsayalım. Her birine "etiketlenmemiş" iki şişe ketçap ve acı sos verildiyse ve onları tatmanız istenirse, lezzetlerini ayırt edebileceksiniz.

Her ikisinin de adlarını bilmeseniz bile, her iki sosun (biri ekşi, diğeri baharatlı) özelliklerini de tanımlayabileceksiniz. Her birini birkaç kez daha tatmak, lezzete daha aşina olmanızı sağlayacaktır. Yakında, sadece tadına bakarak eklenen sosa göre yemekleri gruplayabileceksiniz.

Tadı analiz ederek, iki sos ve grup yemeklerini birbirinden ayıran belirli özellikleri bulabilirsiniz. Kategorize etmek için sosların veya yemeklerin adlarını bilmenize gerek yok. Hatta birine tatlı sos ve diğer acı sos diyebilirsiniz .

Bu, makinelerin denetimsiz öğrenme yardımıyla kalıpları tanımlama ve veri noktalarını sınıflandırma şekline benzer. Aynı örnekte, denetimli öğrenme, size hem sosların adlarını hem de tatlarının nasıl olduğunu önceden söyleyen biri olacaktır.

Denetimsiz öğrenme türleri

Denetimsiz öğrenme sorunları kümeleme ve ilişkilendirme sorunları olarak sınıflandırılabilir.

kümeleme

Kümeleme veya küme analizi, nesneleri kümeler halinde gruplama işlemidir. En çok benzerliğe sahip öğeler birlikte gruplanırken, geri kalanlar diğer kümelere ayrılır. Bir kümeleme örneği, YouTube kullanıcılarını izleme geçmişlerine göre gruplandırmak olabilir.

Nasıl çalıştıklarına bağlı olarak, kümeleme aşağıdaki gibi dört gruba ayrılabilir:

Özel kümeleme: Adından da anlaşılacağı gibi, özel kümeleme, bir veri noktasının veya nesnenin yalnızca bir kümede var olabileceğini belirtir.
Hiyerarşik kümeleme: Hiyerarşik bir kümeler hiyerarşisi oluşturmaya çalışır. İki tür hiyerarşik kümeleme vardır: toplayıcı ve bölücü . Aglomeratif aşağıdan yukarıya yaklaşımı izler, başlangıçta her veri noktasını ayrı bir küme olarak ele alır ve küme çiftleri hiyerarşide yukarı doğru hareket ederken birleştirilir. Bölücü, aglomeratifin tam tersidir. Her veri noktası tek bir kümede başlar ve hiyerarşide aşağı indikçe bölünür.
Örtüşen kümeleme: Çakışan kümeleme , bir veri noktasının iki veya daha fazla kümede gruplandırılmasına izin verir.
Olasılıksal kümeleme: Olasılık, kümeler oluşturmak için olasılık dağılımlarını kullanır. Örneğin, "yeşil çorap", "mavi çorap", "yeşil tişört" ve "mavi tişört", "yeşil" ve "mavi" ya da "çorap" ve "t-shirt" olmak üzere iki kategoriye ayrılabilir. ".

Dernek

Birliktelik kuralı öğrenme (ARL) , büyük veritabanlarında değişkenler arasındaki ilişkileri bulmak için kullanılan denetimsiz bir öğrenme yöntemidir. Bazı makine öğrenimi algoritmalarından farklı olarak ARL, sayısal olmayan veri noktalarını işleyebilir.

Daha basit bir anlamda ARL, belirli değişkenlerin birbirleriyle nasıl ilişkilendirildiğini bulmakla ilgilidir. Örneğin, motosiklet satın alan kişilerin kask satın alma olasılığı daha yüksektir.

Bu tür ilişkileri bulmak kazançlı olabilir. Örneğin, X Ürününü satın alan müşteriler Y Ürününü satın alma eğilimindeyse, çevrimiçi bir perakendeci X Ürününü satın alan herkese Y Ürününü önerebilir.

Birliktelik kuralı öğrenme, özünde if/then ifadelerini kullanır. Bu ifadeler bağımsız veriler arasındaki ilişkileri ortaya çıkarabilir. Ek olarak, if/then kalıpları veya ilişkileri, destek ve güven kullanılarak gözlemlenir.

Destek, eğer/sonra ilişkisinin veritabanında ne sıklıkta görüneceğini belirtir. Güven, eğer/sonra ilişkisinin kaç kez geçerli olduğunu tanımlar.

Pazar sepeti analizi ve web kullanım madenciliği birliktelik kuralı ile mümkün olmaktadır.

Denetimsiz öğrenme algoritmaları

Hem kümeleme hem de birliktelik kuralı öğrenme, algoritmalar yardımıyla gerçekleştirilir.

Apriori algoritması, ECLAT algoritması ve Sık kalıp (FP) büyüme algoritması, birliktelik kuralını uygulamak için kullanılan dikkate değer algoritmalardan bazılarıdır. Kümeleme, k-ortalama kümeleme ve temel bileşen analizi (PCA) gibi algoritmalarla mümkün olur.

Apriori algoritması

Apriori algoritması veri madenciliği için oluşturulmuştur. Çok sayıda işlem içeren madencilik veritabanları için yararlıdır, örneğin bir süpermarkette alışveriş yapanların satın aldığı öğelerin listesini içeren bir veritabanı. İlaçların zararlı etkilerini belirlemek ve pazar sepeti analizinde müşterilerin birlikte satın alma olasılıklarının daha yüksek olduğu ürün grubunu bulmak için kullanılır.

ECLAT algoritması

Eşdeğerlik Sınıfı Kümeleme ve aşağıdan yukarıya Kafes Geçişi veya kısaca ECLAT , öğe kümesi madenciliğini gerçekleştirmek ve sık öğeleri bulmak için kullanılan bir veri madenciliği algoritmasıdır.

Apriori algoritması yatay veri biçimini kullanır ve bu nedenle sık öğeleri tanımlamak için veritabanını birden çok kez taramaya ihtiyaç duyar. Öte yandan, ECLAT dikey bir yaklaşım izler ve veritabanını yalnızca bir kez taraması gerektiğinden genellikle daha hızlıdır.

Sık desen (FP) büyüme algoritması

Sık kalıp (FP) büyüme algoritması , Apriori algoritmasının geliştirilmiş bir versiyonudur. Bu algoritma, veritabanını sık ağaç veya kalıp olarak bilinen bir ağaç yapısı biçiminde temsil eder.

Böyle sık bir ağaç, en sık görülen kalıpları çıkarmak için kullanılır. Apriori algoritmasının veritabanını n+1 kez taraması gerekirken (n, en uzun modelin uzunluğudur), FP-büyüme algoritması sadece iki tarama gerektirir.

K-kümeleme anlamına gelir

K-ortalama algoritmasının birçok yinelemesi, veri bilimi alanında yaygın olarak kullanılmaktadır. Basitçe söylemek gerekirse, k-araç kümeleme algoritması benzer öğeleri kümeler halinde gruplandırır. Küme sayısı k ile gösterilir. Yani k değeri 3 ise toplamda üç küme olacaktır.

Bu kümeleme yöntemi, etiketlenmemiş veri kümesini, her bir veri noktası benzer özelliklere sahip tek bir gruba ait olacak şekilde böler. Anahtar, küme merkezleri adı verilen K merkezlerini bulmaktır.

Her kümenin bir küme merkezi olacak ve yeni bir veri noktası gördüğünde algoritma, öklid mesafesi gibi metriklere dayanarak veri noktasının ait olduğu en yakın kümeyi belirleyecektir.

Temel bileşen analizi (PCA)

Temel bileşen analizi (PCA) , genellikle büyük veri kümelerinin boyutluluğunu azaltmak için kullanılan bir boyutluluk azaltma yöntemidir. Bunu, çok sayıda değişkeni, büyük veri kümesindeki neredeyse tüm bilgileri içeren daha küçük bir değişkene dönüştürerek yapar.

Değişken sayısını azaltmak doğruluğu biraz etkileyebilir, ancak basitlik için kabul edilebilir bir ödünleşme olabilir. Bunun nedeni, daha küçük veri kümelerinin analiz edilmesinin daha kolay olması ve makine öğrenimi algoritmalarının değerli içgörüler elde etmek için çok fazla terlemesine gerek olmamasıdır.

Denetimli ve denetimsiz öğrenme

Denetimli öğrenme, bir öğretmenin tüm öğrenme sürecini denetlemesine benzer. Ayrıca, çözmeye çalıştığınız her soruna doğru yanıtlara sahip olmaya benzer etiketli bir eğitim veri kümesi vardır.

Cevabınızın doğru olup olmadığını anlamak daha kolaydır ve hata yaptığınızda öğretmen de sizi düzeltecektir. Denetimsiz öğrenme durumunda, öğretmen veya doğru cevaplar yoktur.

Hesaplamalı bir bakış açısından, denetimsiz öğrenme, denetimli öğrenmeye göre daha karmaşık ve zaman alıcıdır. Ancak, veri madenciliği için ve herhangi bir sınıflandırıcı (verileri otomatik olarak sınıflandıran bir makine öğrenimi algoritması) atamadan önce verilerin yapısı hakkında bilgi edinmek için yararlıdır.

Etiketlenmemiş veriler çok büyük olduğunda faydalı olmasına rağmen, denetimsiz öğrenme, veri bilimcileri için çok az rahatsızlığa neden olabilir. Denetimli öğrenmede kullanılan doğrulama veri kümesi de etiketlendiğinden, veri bilimcilerinin modellerin doğruluğunu ölçmesi daha kolaydır. Ancak aynısı denetimsiz öğrenme modelleri için geçerli değildir.

Çoğu durumda, denetimsiz öğrenme, denetimli öğrenmeden önce uygulanır. Bu, özellikleri tanımlamaya ve sınıflar oluşturmaya yardımcı olur.

Denetimsiz öğrenme süreci çevrimiçi gerçekleşirken denetimli öğrenme çevrimdışı gerçekleşir. Bu, UL algoritmalarının verileri gerçek zamanlı olarak işlemesine olanak tanır.

Denetimsiz öğrenme sorunları ilişkilendirme ve kümeleme sorunları olarak ikiye ayrılırken, denetimli öğrenme de regresyon ve sınıflandırma olarak sınıflandırılabilir.

Denetimli ve denetimsiz öğrenmenin yanı sıra, yarı denetimli öğrenme ve pekiştirmeli öğrenme vardır.

Yarı denetimli öğrenme , denetimli ve denetimsiz öğrenmenin bir karışımıdır. Bu makine öğrenimi tekniğinde sistem, üst düzey bir genel bakış elde edecek şekilde biraz eğitilir. Eğitim verilerinin bir kısmı etiketlenecek ve geri kalanı etiketlenmeyecektir.

Takviyeli öğrenmede (RL) yapay zeka sistemi, ödülü en üst düzeye çıkarmak zorunda olduğu oyun benzeri bir ortamla karşılaşacaktır. Sistem, deneme yanılma yöntemini izleyerek öğrenmeli ve her adımda ödül kazanma şansını artırmalıdır.

İşte denetimli ve denetimsiz öğrenme arasındaki temel farklara hızlı bir bakış.

denetimsiz öğrenme	denetimli öğrenme
Bu karmaşık bir süreçtir, daha fazla hesaplama kaynağı gerektirir ve zaman alıcıdır.	Nispeten basittir ve daha az hesaplama kaynağı gerektirir.
Eğitim veri kümesi etiketlenmemiş.	Eğitim veri kümesi etiketlenir.
Daha az doğru, ancak zorunlu değil	Büyük oranda kesin
İlişkilendirme ve kümeleme olarak ikiye ayrılır	Regresyon ve sınıflandırmaya bölünmüş
Belirsizlikle birlikte modelin doğruluğunu ölçmek zahmetlidir.	Modelin doğruluğunu ölçmek daha kolaydır.
Ders sayısı bilinmiyor.	Ders sayısı belli.
Öğrenme gerçek zamanlı olarak gerçekleşir.	Öğrenme çevrimdışı gerçekleşir.
Apriori, ECLAT, k-means clustering ve Frequent pattern (FP) büyüme algoritması kullanılan algoritmalardan bazılarıdır.	Doğrusal regresyon, lojistik regresyon, Naive Bayes ve destek vektör makinesi (SVM) kullanılan algoritmalardan bazılarıdır.

Denetimsiz makine öğrenimi örnekleri

Daha önce de belirtildiği gibi, denetimsiz öğrenme başlı başına bir hedef olabilir ve büyük hacimli verilerde gizli kalıpları bulmak için kullanılabilir; bu, insanlar için gerçekçi olmayan bir görevdir.

Denetimsiz makine öğreniminin bazı gerçek dünya uygulamaları.

Anormallik tespiti: Veri kümelerinde atipik veri noktaları bulma sürecidir ve bu nedenle dolandırıcılık faaliyetlerini tespit etmek için yararlıdır.
Bilgisayarla görme: Olarak da bilinir görüntü tanıma, görüntülerdeki nesneleri tanımlama becerisi, sürücüsüz arabalar için esastır ve hatta görüntü segmentasyonu için sağlık sektörü için değerlidir.
Öneri sistemleri: Denetimsiz öğrenme algoritmaları, geçmiş verileri analiz ederek, bir müşterinin satın alma olasılığı en yüksek olan ürünleri önerir.
Müşteri kişiliği: Denetimsiz öğrenme, işletmelerin satın alma alışkanlıklarına ilişkin verileri analiz ederek doğru müşteri kişilikleri oluşturmasına yardımcı olabilir.

Algoritmaları kendi cihazlarına bırakmak

Kendi başına öğrenme yeteneği, denetimsiz öğrenmeyi büyük hacimli verileri analiz etmenin en hızlı yolu haline getirir. Elbette, denetimli veya denetimsiz (hatta yarı denetimli) öğrenme arasında seçim yapmak, çözmeye çalıştığınız soruna ve mevcut verilerin zamanına ve genişliğine bağlıdır. Bununla birlikte, denetimsiz öğrenme, tüm çabanızı daha ölçeklenebilir hale getirebilir.

Bugün sahip olduğumuz AI, yaratıcılarının emirlerine itaat etmemeyi, dünyaya hükmetme yeteneğine sahip değil. Ancak sürücüsüz arabalar ve sohbet robotları gibi inanılmaz yetenekleri mümkün kılıyor. Buna dar AI deniyor ama göründüğü kadar zayıf değil.