Mise à jour des entités de clustering dans les SERP Google
Publié: 2022-01-13Le brevet des entités de clustering est mis à jour
L'un de mes derniers articles de blog concernait le regroupement des résultats d'actualités de Google par sujet dans les résultats de recherche organiques. Google a également regroupé des informations sur les entités dans les résultats de recherche. Si vous recherchez maintenant des personnes qui ont agi avec Humprey Bogart à Casablanca. Vous pouvez voir d'autres acteurs de ce film dans ces résultats de recherche. Vous pouvez également voir des questions connexes qui incluent ces acteurs et le film (et cette ontologie sur les catégories associées au film). Ce nouveau message concerne le clustering d'entités et une modification de la manière dont Google fournit les résultats de recherche liés au clustering d'entités.
Voici un exemple de résultats de recherche montrant des liens entre des acteurs et le film Casablanca :
Google a un brevet de continuation à partir du 3 janvier 2022. J'avais écrit sur une version antérieure de ce brevet en 2019 dans le post Clustering d'entités dans les résultats de recherche Google
Revendications du premier brevet
Étant donné que ce nouveau brevet est un brevet de continuation, la majeure partie du brevet est identique. Le brevet contient des revendications mises à jour. La première revendication de la version 2019 du brevet Clustering Search Results se lit comme suit :
REVENDICATIONS 1. Procédé comprenant : la détermination d'éléments répondant à une requête ; générer des groupes de premier niveau des éléments, chaque groupe représentant une entité dans une base de connaissances et comprenant des éléments mappés à l'entité ; calculer un score de groupe respectif pour chaque groupe de premier niveau, le score de groupe respectif pour un groupe de premier niveau étant basé sur un score de silhouette respectif qui mesure la cohérence et la séparation du groupe de premier niveau et sur un rapport de silhouette représentant un pourcentage de tous les clusters de premier niveau ayant un score de silhouette respectif supérieur à un seuil ; fusionner les clusters de premier niveau sur la base de relations d'ontologie d'entité et de scores de cluster respectifs calculés pour les clusters fusionnés, le score de cluster respectif d'un cluster fusionné représentant un meilleur score que les scores de cluster respectifs pour les clusters de premier niveau inclus dans le cluster fusionné ; appliquer un regroupement hiérarchique aux regroupements fusionnés, produire des regroupements finaux qui maximisent les scores de regroupement respectifs pour le regroupement hiérarchique ; et fournir les articles en réponse à la requête pour affichage selon les grappes finales.
Revendications du brevet mis à jour
En détail, le post que j'ai écrit en 2019 décrit le processus derrière le brevet d'entités de clustering. Désormais, la nouvelle version du brevet du premier jour de 2022 a un nouveau langage qui nous dit ce que fait le brevet. La première série de revendications en 1999 nous parlait d'un «score de silhouette», qui ne figure pas dans les nouvelles revendications. Les revendications 2022 incluent certains termes qui ne figurent pas dans la version 2019 :
REVENDICATIONS 1. Procédé mis en œuvre par un moteur de recherche comprenant : la détermination d'un ensemble d'éléments répondant à une requête ; pour chaque article de l'ensemble d'articles déterminé comme répondant à la requête : identification d'une ou plusieurs entités associées à l'article, et obtention d'une incorporation pour l'article ; générer des grappes de premier niveau à partir de l'ensemble d'éléments, chaque grappe représentant une entité de la ou des entités ; produire des grappes finales en fusionnant les grappes de premier niveau sur la base de relations ontologiques d'entité et en incorporant des similitudes déterminées à l'aide des incorporations d'éléments, les relations ontologiques d'entité comprenant un hypernyme, un synonyme et un co-hypernyme ; et fournir des éléments de l'ensemble d'éléments en réponse à la requête pour affichage selon les grappes finales.
2. Procédé selon la revendication 1, dans lequel les clusters de premier niveau qui sont plus petits sont fusionnés en premier.
3. Procédé selon la revendication 2, dans lequel la fusion des clusters de premier niveau qui sont plus petits comprend, pour un premier cluster de premier niveau : la détermination d'un deuxième cluster de premier niveau et d'un troisième cluster de premier niveau lié au premier cluster de premier niveau. sur la base des relations ontologiques de l'entité ; déterminer que le troisième groupe de premier niveau et le premier groupe de premier niveau sont plus petits que le deuxième groupe de premier niveau ; et fusionner le premier groupe de premier niveau avec le troisième groupe de premier niveau.
4. Procédé selon la revendication 1, dans lequel les clusters de premier niveau qui sont les plus similaires sont fusionnés en premier.
5. Procédé selon la revendication 4, dans lequel la fusion des premiers clusters les plus similaires comprend d'abord, pour un premier cluster de premier niveau : la détermination d'un deuxième cluster de premier niveau et d'un troisième cluster de premier niveau lié au premier cluster de premier niveau dans les relations ontologiques de l'entité ; déterminer que le premier groupe de premier niveau est plus similaire au deuxième groupe de premier niveau qu'au troisième groupe de premier niveau ; et fusionner le premier groupe de premier niveau avec le second groupe de premier niveau.
La version la plus récente nous dit qu'elle inclut des « relations ontologiques », ce que la première série d'affirmations n'inclut pas. Ainsi, nous savons d'après les SERP que Bogart était dans le film "Casablanca", tout comme de nombreux autres acteurs qui se concentraient sur ce résultat de recherche.

Regroupement des résultats de recherche
Inventeurs : Jilin Chen, Dai ; Lichan Hong, Tianjiao Zhang, Huazhong Ning et Ed Huai-Hsin Chi
Cessionnaire : Google LLC
Brevet américain : 11 216 503
Attribué : 4 janvier 2022
Date de dépôt : 26 novembre 2019
Abstrait
Des mises en œuvre fournissent un système amélioré pour présenter des résultats de recherche sur la base d'associations d'entités des éléments de recherche. Un exemple de procédé consiste à générer des clusters de premier niveau d'éléments en réponse à une requête, chaque cluster représentant une entité dans une base de connaissances et comprenant des éléments mappés à l'entité, à fusionner les clusters de premier niveau sur la base de relations d'ontologie d'entité, à appliquer un clustering hiérarchique aux clusters fusionnés, produisant des clusters finaux, et initialisant l'affichage des éléments selon les clusters finaux. Un autre exemple de procédé comprend la génération de clusters de premier niveau à partir d'éléments répondant à une requête, chaque cluster représentant une entité dans une base de connaissances et comprenant des éléments mappés à l'entité, la production de clusters finaux en fusionnant les clusters de premier niveau sur la base d'une ontologie d'entité et d'un l'espace d'intégration qui est généré à partir d'un modèle d'intégration qui utilise le mappage, et le lancement de l'affichage des éléments en réponse à la requête selon les grappes finales.
Si vous revenez à ma rédaction originale de ce brevet d'entités de clustering de 2019, vous verrez que je mentionne plusieurs fois les «ontologies» lorsque j'écris sur les entités. La version 2022 du brevet des entités de regroupement ajoute ce langage directement aux revendications. Ils sont dans les SERP sans discuter de la relation entre le film et ses acteurs.
Entités de regroupement et actualités
Après ce changement, lorsque nous recherchons une entité et des actualités spécifiques, nous y voyons également des résultats de recherche groupés :
Ainsi, Google ne trie plus les SERP en fonction de la qualité des documents de correspondance pour les termes de la requête - Google regroupe les sujets et les relations entre les entités dans le cadre de sa décision sur ce qu'il faut inclure dans les résultats de recherche.
Rechercher des actualités directement dans votre boîte de réception
*Obligatoire