Aprendizado não supervisionado: como as máquinas aprendem por conta própria

Publicados: 2021-03-19

O aprendizado não supervisionado permite que as máquinas aprendam por conta própria.

Esse tipo de aprendizado de máquina (ML) concede aos aplicativos de IA a capacidade de aprender e encontrar padrões ocultos em grandes conjuntos de dados sem supervisão humana. O aprendizado não supervisionado também é crucial para alcançar inteligência geral artificial.

A rotulagem de dados é trabalhosa e demorada e, em muitos casos, impraticável. É aí que o aprendizado não supervisionado traz uma grande diferença ao conceder aos aplicativos de IA a capacidade de aprender sem rótulos e supervisão.

O que é aprendizagem não supervisionada?

O aprendizado não supervisionado (UL) é uma técnica de aprendizado de máquina usada para identificar padrões em conjuntos de dados contendo pontos de dados não classificados e não rotulados. Neste método de aprendizado, um sistema de IA recebe apenas os dados de entrada e nenhum dado de saída correspondente.

Ao contrário do aprendizado supervisionado , o aprendizado de máquina não supervisionado não requer um humano para supervisionar o modelo. O cientista de dados permite que a máquina aprenda observando os dados e encontrando padrões por conta própria. Em outras palavras, essa subcategoria de aprendizado de máquina permite que um sistema atue sobre as informações fornecidas sem qualquer orientação externa.

Técnicas de aprendizado não supervisionado são críticas para criar sistemas de inteligência artificial com inteligência humana. Isso porque as máquinas inteligentes devem ser capazes de tomar decisões (independentes) analisando grandes volumes de dados não marcados.

Comparados aos algoritmos de aprendizado supervisionado, os algoritmos UL são mais aptos a realizar tarefas complexas. No entanto, os modelos de aprendizado supervisionado produzem resultados mais precisos, pois um tutor diz explicitamente ao sistema o que procurar nos dados fornecidos. Mas no caso de aprendizado não supervisionado, as coisas podem ser bastante imprevisíveis.

Redes neurais artificiais, que fazem aprendizado profundo uma realidade, pode parecer que é apoiado por aprendizado não supervisionado. Embora seja verdade, os algoritmos de aprendizado das redes neurais também podem ser supervisionados se a saída desejada já for conhecida.

A aprendizagem não supervisionada pode ser um objetivo em si. Por exemplo, os modelos UL podem ser usados para encontrar padrões ocultos em grandes volumes de dados e até mesmo para classificar e rotular pontos de dados. O agrupamento de pontos de dados não classificados é realizado identificando suas semelhanças e diferenças.

Algumas razões pelas quais o aprendizado não supervisionado é essencial.

Dados não rotulados estão em abundância.
A rotulagem de dados é uma tarefa tediosa que exige trabalho humano. No entanto, o próprio processo pode ser alimentado por ML, facilitando a rotulagem para os humanos envolvidos.
É útil para explorar dados desconhecidos e brutos.
É útil para realizar o reconhecimento de padrões em grandes conjuntos de dados.

O aprendizado não supervisionado pode ser dividido em duas categorias: aprendizado não supervisionado paramétrico e aprendizado não supervisionado não paramétrico .

Como funciona o aprendizado não supervisionado

Simplificando, o aprendizado não supervisionado funciona analisando dados não categorizados e não rotulados e encontrando estruturas ocultas neles.

No aprendizado supervisionado, um cientista de dados alimenta o sistema com dados rotulados, por exemplo, as imagens de gatos rotulados como gatos, permitindo que ele aprenda por exemplo. No aprendizado não supervisionado, um cientista de dados fornece apenas as fotos, e é responsabilidade do sistema analisar os dados e concluir se são imagens de gatos.

O aprendizado de máquina não supervisionado requer grandes volumes de dados. Na maioria dos casos, o mesmo vale para o aprendizado supervisionado, pois o modelo se torna mais preciso com mais exemplos.

O processo de aprendizado não supervisionado começa com os cientistas de dados treinando os algoritmos usando os conjuntos de dados de treinamento. Os pontos de dados nesses conjuntos de dados não são rotulados nem categorizados.

O objetivo de aprendizado do algoritmo é identificar padrões dentro do conjunto de dados e categorizar os pontos de dados com base nos mesmos padrões identificados. No exemplo de imagens de gatos, o algoritmo de aprendizado não supervisionado pode aprender a identificar as características distintas dos gatos, como bigodes, caudas longas e garras retráteis.

Se você pensar sobre isso, o aprendizado não supervisionado é como aprendemos a identificar e categorizar as coisas. Suponha que você nunca tenha provado ketchup ou molho de pimenta. Se você receber duas garrafas "sem rótulo" de ketchup e molho de pimenta e pedir para prová-las, você será capaz de diferenciar seus sabores.

Você também poderá identificar as peculiaridades de ambos os molhos (sendo um azedo e o outro picante), mesmo que não saiba os nomes de nenhum deles. Provar cada um mais algumas vezes irá torná-lo mais familiarizado com o sabor. Em breve, você poderá agrupar pratos com base no molho adicionado apenas provando-os.

Ao analisar o sabor, é possível encontrar características específicas que diferenciam os dois molhos e pratos de grupo. Você não precisa saber os nomes dos molhos ou dos pratos para categorizá-los. Você pode até acabar chamando um de molho doce e o outro de molho picante .

Isso é semelhante a como as máquinas identificam padrões e classificam pontos de dados com a ajuda de aprendizado não supervisionado. No mesmo exemplo, o aprendizado supervisionado seria alguém lhe dizendo os nomes de ambos os molhos e o sabor deles de antemão.

Tipos de aprendizado não supervisionado

Os problemas de aprendizagem não supervisionados podem ser classificados em problemas de agrupamento e de associação .

Agrupamento

Clustering ou análise de cluster é o processo de agrupar objetos em clusters. Os itens com mais semelhanças são agrupados, enquanto o restante se enquadra em outros grupos. Um exemplo de agrupamento seria agrupar usuários do YouTube com base em seu histórico de exibição.

Dependendo de como eles funcionam, o agrupamento pode ser categorizado em quatro grupos da seguinte forma:

Clustering exclusivo: como o nome sugere, o clustering exclusivo especifica que um ponto de dados ou objeto pode existir apenas em um cluster.
Agrupamento hierárquico: Hierárquico tenta criar uma hierarquia de clusters. Existem dois tipos de agrupamento hierárquico: aglomerativo e divisivo . A aglomeração segue a abordagem de baixo para cima, inicialmente trata cada ponto de dados como um cluster individual e os pares de clusters são mesclados à medida que sobem na hierarquia. Divisivo é o oposto de aglomerativo. Cada ponto de dados começa em um único cluster e é dividido à medida que descem na hierarquia.
Clustering sobreposto: A sobreposição permite que um ponto de dados seja agrupado em dois ou mais clusters.
Agrupamento probabilístico: O probabilístico usa distribuições de probabilidade para criar agrupamentos. Por exemplo, "meias verdes", "meias azuis", "camiseta verde" e "camiseta azul" podem ser agrupadas em duas categorias "verde" e "azul" ou "meias" e "camiseta ".

Associação

O aprendizado de regras de associação (ARL) é um método de aprendizado não supervisionado usado para encontrar relações entre variáveis em grandes bancos de dados. Ao contrário de alguns algoritmos de aprendizado de máquina, o ARL é capaz de lidar com pontos de dados não numéricos.

Em um sentido mais simples, ARL é descobrir como certas variáveis estão associadas umas às outras. Por exemplo, as pessoas que compram uma motocicleta são mais propensas a comprar um capacete.

Encontrar tais relações pode ser lucrativo. Por exemplo, se os clientes que compram o Produto X tendem a comprar o Produto Y, um varejista online pode recomendar o Produto Y a qualquer pessoa que compre o Produto X.

O aprendizado de regras de associação usa instruções if/then em seu núcleo. Essas declarações podem revelar associações entre dados independentes. Além disso, os padrões ou relacionamentos se/então são observados usando suporte e confiança .

O suporte especifica com que frequência o relacionamento se/então aparece no banco de dados. A confiança define o número de vezes que o relacionamento se/então foi considerado válido.

Análise da cesta de mercado e mineração de uso da web são possíveis com a regra de associação.

Algoritmos de aprendizado não supervisionado

Tanto o aprendizado de regras de agrupamento quanto de associação são implementados com a ajuda de algoritmos.

Algoritmo a priori, algoritmo ECLAT e algoritmo de crescimento de padrão frequente (FP) são alguns dos algoritmos notáveis usados para implementar a regra de associação. O agrupamento é possibilitado por algoritmos como agrupamento k-means e análise de componentes principais (PCA).

Algoritmo a priori

O algoritmo a priori é construído para mineração de dados. É útil para minerar bancos de dados contendo um grande número de transações, por exemplo, um banco de dados contendo a lista de itens comprados por compradores em um supermercado. Ele é usado para identificar os efeitos nocivos das drogas e na análise da cesta de mercado para encontrar o conjunto de itens que os clientes têm maior probabilidade de comprar juntos.

Algoritmo ECLAT

Equivalência Class Clustering e bottom-up Lattice Traversal , ou ECLAT para abreviar, é um algoritmo de mineração de dados usado para alcançar a mineração de conjuntos de itens e encontrar itens frequentes.

O algoritmo a priori usa o formato de dados horizontal e, portanto, precisa varrer o banco de dados várias vezes para identificar itens frequentes. Por outro lado, o ECLAT segue uma abordagem vertical e geralmente é mais rápido, pois precisa varrer o banco de dados apenas uma vez.

Algoritmo de crescimento de padrão frequente (FP)

O algoritmo de crescimento de padrão frequente (FP) é uma versão melhorada do algoritmo Apriori. Esse algoritmo representa o banco de dados na forma de uma estrutura de árvore conhecida como árvore frequente ou padrão .

Essa árvore frequente é usada para minerar os padrões mais frequentes. Enquanto o algoritmo Apriori precisa varrer o banco de dados n+1 vezes (onde n é o comprimento do modelo mais longo), o algoritmo FP-growth requer apenas duas varreduras.

Agrupamento K-means

Muitas iterações do algoritmo k-means são amplamente utilizadas no campo da ciência de dados. Simplificando, o algoritmo de agrupamento k-means agrupa itens semelhantes em agrupamentos. O número de clusters é representado por k . Portanto, se o valor de k for 3, haverá três clusters no total.

Esse método de agrupamento divide o conjunto de dados não rotulado para que cada ponto de dados pertença a apenas um único grupo com propriedades semelhantes. A chave é encontrar K centros chamados de centroides de cluster .

Cada cluster terá um centroide de cluster e, ao ver um novo ponto de dados, o algoritmo determinará o cluster mais próximo ao qual o ponto de dados pertence com base em métricas como a distância euclidiana.

Análise de componentes principais (PCA)

A análise de componentes principais (PCA) é um método de redução de dimensionalidade geralmente usado para reduzir a dimensionalidade de grandes conjuntos de dados. Ele faz isso convertendo um grande número de variáveis em uma menor que contém quase todas as informações do grande conjunto de dados.

Reduzir o número de variáveis pode afetar um pouco a precisão, mas pode ser uma compensação aceitável pela simplicidade. Isso ocorre porque conjuntos de dados menores são mais fáceis de analisar e os algoritmos de aprendizado de máquina não precisam suar muito para obter insights valiosos.

Aprendizado supervisionado versus não supervisionado

A aprendizagem supervisionada é semelhante a ter um professor supervisionando todo o processo de aprendizagem. Há também um conjunto de dados de treinamento rotulado semelhante a ter as respostas corretas para cada problema que você está tentando resolver.

É mais fácil entender se sua resposta está correta ou não, e o professor também o corrigirá quando você cometer um erro. No caso de aprendizagem não supervisionada, não há professor ou respostas certas.

Do ponto de vista computacional, o aprendizado não supervisionado é mais complicado e demorado do que o aprendizado supervisionado. No entanto, é útil para mineração de dados e para obter insights sobre a estrutura dos dados antes de atribuir qualquer classificador (um algoritmo de aprendizado de máquina que classifica os dados automaticamente).

Apesar de ser útil quando os dados não rotulados são enormes, o aprendizado não supervisionado pode causar pequenos inconvenientes aos cientistas de dados. Como o conjunto de dados de validação usado no aprendizado supervisionado também é rotulado, é mais fácil para os cientistas de dados medirem a precisão dos modelos. Mas o mesmo não é verdade para modelos de aprendizado não supervisionados.

Em muitos casos, o aprendizado não supervisionado é aplicado antes do aprendizado supervisionado. Isso ajuda a identificar recursos e criar classes.

O processo de aprendizado não supervisionado ocorre online, enquanto o aprendizado supervisionado ocorre offline. Isso permite que os algoritmos UL processem dados em tempo real.

Enquanto os problemas de aprendizado não supervisionado são divididos em problemas de associação e agrupamento, o aprendizado supervisionado pode ser ainda categorizado em regressão e classificação.

Além do aprendizado supervisionado e não supervisionado, há o aprendizado semissupervisionado e o aprendizado por reforço .

O aprendizado semi-supervisionado é uma mistura de aprendizado supervisionado e não supervisionado. Nesta técnica de aprendizado de máquina, o sistema é treinado um pouco para obter uma visão geral de alto nível. Uma fração dos dados de treinamento será rotulada e o restante não será rotulado.

No aprendizado por reforço (RL) , o sistema de inteligência artificial encontrará um ambiente semelhante ao de um jogo no qual deve maximizar a recompensa. O sistema deve aprender seguindo o método de tentativa e erro e melhorar sua chance de ganhar a recompensa a cada passo.

Aqui está uma rápida olhada nas principais diferenças entre aprendizado supervisionado e não supervisionado.

Aprendizado não supervisionado	Aprendizado supervisionado
É um processo complexo, requer mais recursos computacionais e é demorado.	É relativamente simples e requer menos recursos computacionais.
O conjunto de dados de treinamento não está rotulado.	O conjunto de dados de treinamento é rotulado.
Menos preciso, mas não necessariamente	Altamente acurado
Dividido em associação e agrupamento	Dividido em regressão e classificação
É complicado medir a precisão do modelo junto com a incerteza.	É mais fácil medir a precisão do modelo.
O número de aulas é desconhecido.	O número de classes é conhecido.
A aprendizagem ocorre em tempo real.	A aprendizagem ocorre offline.
Apriori, ECLAT, k-means clustering e algoritmo de crescimento de padrão frequente (FP) são alguns dos algoritmos usados.	Regressão linear, regressão logística, Naive Bayes e máquina de vetores de suporte (SVM) são alguns dos algoritmos utilizados.

Exemplos de aprendizado de máquina não supervisionado

Como mencionado anteriormente, o aprendizado não supervisionado pode ser um objetivo em si e pode ser usado para encontrar padrões ocultos em grandes volumes de dados – uma tarefa irreal para humanos.

Algumas aplicações do mundo real de aprendizado de máquina não supervisionado.

Detecção de anomalias: é um processo de localização de pontos de dados atípicos em conjuntos de dados e, portanto, útil para detectar atividades fraudulentas.
Visão computacional: também conhecida como reconhecimento de imagem, esse feito de identificar objetos em imagens é essencial para carros autônomos e até valioso para o setor de saúde para segmentação de imagens.
Sistemas de recomendação: Ao analisar dados históricos, algoritmos de aprendizado não supervisionados recomendam os produtos que um cliente provavelmente comprará.
Persona do cliente: o aprendizado não supervisionado pode ajudar as empresas a criar personas de cliente precisas, analisando dados sobre hábitos de compra.

Deixando algoritmos para seus próprios dispositivos

A capacidade de aprender por conta própria torna o aprendizado não supervisionado a maneira mais rápida de analisar grandes volumes de dados. É claro que escolher entre aprendizado supervisionado ou não supervisionado (ou mesmo semissupervisionado) depende do problema que você está tentando resolver e do tempo e da vastidão dos dados disponíveis. No entanto, o aprendizado não supervisionado pode tornar todo o seu esforço mais escalável.

A IA que temos hoje não é capaz de dominar o mundo, muito menos desobedecer às ordens de seus criadores. Mas torna possíveis feitos incríveis, como carros autônomos e chatbots. É chamado de IA estreita , mas não é tão fraco quanto parece.