Entidades de cluster em SERPs do Google atualizadas
Publicados: 2022-01-13A Patente de Entidades de Clustering é Atualizada
Uma das minhas últimas postagens no blog foi sobre o Google agrupar resultados de notícias por tópico nos resultados de pesquisa orgânica. O Google também agrupou informações sobre entidades nos resultados de pesquisa. Se você procurar agora por pessoas que atuaram com Humprey Bogart em Casablanca. Você pode ver outros atores nesse filme nesses resultados de pesquisa. Você também pode ver perguntas relacionadas que incluem esses atores e o filme (e essa ontologia sobre categorias associadas ao filme). Esta nova postagem é sobre agrupamento de entidades e uma mudança na forma como o Google está entregando resultados de pesquisa relacionados ao agrupamento de entidades.
Aqui está um exemplo de resultados de pesquisa que mostram conexões entre atores e o filme Casablanca:
O Google tem uma patente de continuação de 3 de janeiro de 2022. Eu escrevi sobre uma versão anterior dessa patente em 2019 no post Entity Clustering in Google Search Results
Reivindicações da Primeira Patente
Como esta nova patente é uma patente de continuação, a maior parte da patente é idêntica. A patente contém reivindicações atualizadas. A primeira reivindicação da versão 2019 da patente Clustering Search Results é a seguinte:
1. Um método que compreende: determinar itens que respondem a uma consulta; gerar clusters de primeiro nível dos itens, cada cluster representando uma entidade em uma base de conhecimento e incluindo itens mapeados para a entidade; calcular uma respectiva pontuação de cluster para cada cluster de primeiro nível, em que a respectiva pontuação de cluster para um cluster de primeiro nível é baseada em uma respectiva pontuação de silhueta que mede a coerência e separação do cluster de primeiro nível e em uma razão de silhueta representando uma porcentagem de todos os clusters de primeiro nível com uma respectiva pontuação de silhueta acima de um limite; mesclar os clusters de primeiro nível com base em relacionamentos de ontologia de entidade e nas respectivas pontuações de cluster calculadas para os clusters mesclados, em que a respectiva pontuação de cluster de um cluster mesclado representa uma pontuação melhor do que as respectivas pontuações de cluster para clusters de primeiro nível incluídos no cluster mesclado ; aplicar agrupamento hierárquico aos agrupamentos mesclados, produzindo agrupamentos finais que maximizam as respectivas pontuações de agrupamento para o agrupamento hierárquico; e fornecer os itens responsivos à consulta para exibição de acordo com os clusters finais.
Reivindicações da Patente Atualizada
Em detalhes, o post que escrevi em 2019 descreve o processo por trás da patente das entidades de agrupamento. Agora, a nova versão da patente do primeiro dia de 2022 tem uma nova linguagem que nos diz o que a patente faz. O primeiro conjunto de reivindicações em 1999 nos falou sobre uma “pontuação de silhueta”, que não está nas novas reivindicações. As reivindicações de 2022 incluem alguns termos que não estão na versão de 2019:
1. Um método realizado por um motor de busca compreendendo: determinar um conjunto de itens que respondem a uma consulta; para cada item do conjunto de itens determinado como responsivo à consulta: identificar uma ou mais entidades associadas ao item e obter uma incorporação para o item; gerar clusters de primeiro nível a partir do conjunto de itens, cada cluster representando uma entidade de uma ou mais entidades; produzir clusters finais mesclando os clusters de primeiro nível com base em relacionamentos ontológicos de entidade e incorporando semelhanças determinadas usando os embeddings de itens, em que os relacionamentos ontológicos de entidade incluem hiperônimo, sinônimo e co-hiperônimo; e fornecer itens do conjunto de itens responsivos à consulta para exibição de acordo com os clusters finais.
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os clusters de primeiro nível que são menores são mesclados primeiro.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a fusão dos clusters de primeiro nível que são menores inclui, para um primeiro cluster de primeiro nível: determinar um segundo cluster de primeiro nível e um terceiro cluster de primeiro nível relacionado ao primeiro cluster de primeiro nível com base nas relações ontológicas da entidade ; determinar que o terceiro cluster de primeiro nível e o primeiro cluster de primeiro nível são menores que o segundo cluster de primeiro nível; e mesclando o primeiro cluster de primeiro nível com o terceiro cluster de primeiro nível.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que os clusters de primeiro nível que são mais semelhantes são mesclados primeiro.
5. Método, de acordo com a reivindicação 4, caracterizado pelo fato de que mesclar primeiros clusters que são mais semelhantes primeiro inclui, para um primeiro cluster de primeiro nível: determinar um segundo cluster de primeiro nível e um terceiro cluster de primeiro nível relacionado ao primeiro cluster de primeiro nível em as relações ontológicas da entidade; determinar que o primeiro cluster de primeiro nível é mais semelhante ao segundo cluster de primeiro nível do que o terceiro cluster de primeiro nível; e mesclando o primeiro cluster de primeiro nível com o segundo cluster de primeiro nível.
A versão mais recente nos diz que inclui “relações ontológicas”, o que o primeiro conjunto de afirmações não inclui. Então, sabemos pelas SERPs que Bogart estava no filme “Casablanca”, assim como muitos outros atores que estavam focados nesse resultado de pesquisa.

Agrupar resultados de pesquisa
Inventores: Jilin Chen, Dai; Lichan Hong, Tianjiao Zhang, Huazhong Ning e Ed Huai-Hsin Chi
Responsável: Google LLC
Patente dos EUA: 11.216.503
Concedido: 4 de janeiro de 2022
Arquivado: 26 de novembro de 2019
Resumo
As implementações fornecem um sistema aprimorado para apresentar resultados de pesquisa com base em associações de entidades dos itens de pesquisa. Um método de exemplo inclui a geração de clusters de primeiro nível de itens responsivos a uma consulta, cada cluster representando uma entidade em uma base de conhecimento e incluindo itens mapeados para a entidade, mesclando os clusters de primeiro nível com base em relacionamentos de ontologia de entidade, aplicando agrupamento hierárquico ao agrupamentos mesclados, produzindo agrupamentos finais e iniciando a exibição dos itens de acordo com os agrupamentos finais. Outro método de exemplo inclui gerar clusters de primeiro nível a partir de itens responsivos a uma consulta, cada cluster representando uma entidade em uma base de conhecimento e incluindo itens mapeados para a entidade, produzindo clusters finais mesclando os clusters de primeiro nível com base em uma ontologia de entidade e um espaço de incorporação que é gerado a partir de um modelo de incorporação que usa o mapeamento e iniciando a exibição dos itens responsivos à consulta de acordo com os clusters finais.
Se você viajar de volta ao meu artigo original desta patente de entidades de agrupamento de 2019, verá que menciono “ontologias” muitas vezes ao escrever sobre entidades. A versão 2022 da patente de entidades de agrupamento adiciona essa linguagem diretamente às reivindicações. Eles estão nas SERPs sem discutir a relação entre o filme e seus atores.
Agrupando Entidades e Notícias
Após essa alteração, quando pesquisamos uma entidade e notícias específicas, também vemos resultados de pesquisa agrupados:
Portanto, o Google não está mais classificando SERPs com base em quão bons são os documentos de correspondência para termos de consulta – o Google está agrupando tópicos e relacionamentos entre entidades como parte de sua decisão sobre o que incluir nos resultados de pesquisa.
Pesquisar notícias diretamente na sua caixa de entrada
*Requerido