Clustering von Entitäten in Google SERPs aktualisiert
Veröffentlicht: 2022-01-13Das Patent für Clustering-Entitäten wird aktualisiert
In einem meiner letzten Blog-Posts ging es darum, dass Google News-Ergebnisse nach Themen in organischen Suchergebnissen gruppiert. Google hat auch Informationen über Entitäten in den Suchergebnissen geclustert. Wenn Sie jetzt nach Personen suchen, die mit Humprey Bogart in Casablanca gehandelt haben. Sie können andere Schauspieler in diesem Film in diesen Suchergebnissen sehen. Sie können auch verwandte Fragen sehen, die diese Schauspieler und den Film beinhalten (und diese Ontologie über die zugehörigen Kategorien für den Film). In diesem neuen Beitrag geht es um Entitäts-Clustering und eine Änderung, wie Google Suchergebnisse im Zusammenhang mit Entitäts-Clustering bereitstellt.
Hier ist ein Beispiel für Suchergebnisse, die Verbindungen zwischen Schauspielern und dem Film Casablanca zeigen:
Google hat ein Fortsetzungspatent vom 3. Januar 2022. Ich hatte 2019 im Beitrag Entity Clustering in Google Search Results über eine frühere Version dieses Patents geschrieben
Ansprüche aus dem ersten Patent
Da es sich bei diesem neuen Patent um ein Fortsetzungspatent handelt, sind die meisten Patente identisch. Das Patent enthält aktualisierte Ansprüche. Der erste Anspruch aus der Version 2019 des Clustering Search Results-Patents lautet wie folgt:
1. Verfahren, umfassend: Bestimmen von Elementen, die auf eine Abfrage ansprechen; Generieren von Clustern der ersten Ebene der Elemente, wobei jedes Cluster eine Entität in einer Wissensbasis darstellt und Elemente enthält, die der Entität zugeordnet sind; Berechnen eines jeweiligen Cluster-Scores für jeden Cluster der ersten Ebene, wobei der jeweilige Cluster-Score für einen Cluster der ersten Ebene auf einem jeweiligen Silhouetten-Score basiert, der die Kohärenz und Trennung des Clusters der ersten Ebene misst, und auf einem Silhouettenverhältnis, das einen Prozentsatz von darstellt alle Cluster der ersten Ebene haben einen jeweiligen Silhouettenwert über einem Schwellenwert; Zusammenführen der Cluster der ersten Ebene basierend auf Entitätsontologiebeziehungen und jeweiligen Clusterbewertungen, die für die zusammengeführten Cluster berechnet wurden, wobei die jeweilige Clusterbewertung eines zusammengeführten Clusters eine bessere Bewertung darstellt als die jeweiligen Clusterbewertungen für Cluster der ersten Ebene, die in dem zusammengeführten Cluster enthalten sind ; Anwenden von hierarchischem Clustering auf die zusammengeführten Cluster, Erzeugen von endgültigen Clustern, die jeweilige Clusterbewertungen für das hierarchische Clustering maximieren; und Bereitstellen der auf die Abfrage ansprechenden Elemente zur Anzeige gemäß den endgültigen Clustern.
Ansprüche aus dem aktualisierten Patent
Im Detail beschreibt der Beitrag, den ich 2019 geschrieben habe, den Prozess hinter dem Patent für Clustering-Entitäten. Jetzt hat die neue Version des Patents vom ersten Tag des Jahres 2022 eine neue Sprache, die uns sagt, was das Patent tut. Der erste Anspruchssatz von 1999 informierte uns über einen „Silhouettenwert“, der in den neuen Ansprüchen nicht enthalten ist. Die Ansprüche von 2022 enthalten einige Begriffe, die nicht in der Version von 2019 enthalten sind:
1. Verfahren, das von einer Suchmaschine durchgeführt wird, umfassend: Bestimmen eines Satzes von Elementen als Reaktion auf eine Abfrage; für jedes Element des Satzes von Elementen, von dem festgestellt wird, dass es auf die Abfrage anspricht: Identifizieren einer oder mehrerer Entitäten, die dem Element zugeordnet sind, und Erhalten einer Einbettung für das Element; Erzeugen von Clustern der ersten Ebene aus dem Satz von Elementen, wobei jeder Cluster eine Entität der einen oder mehreren Entitäten darstellt; Erzeugen endgültiger Cluster durch Zusammenführen der Cluster der ersten Ebene basierend auf ontologischen Entitätsbeziehungen und Einbetten von Ähnlichkeiten, die unter Verwendung der Elementeinbettungen bestimmt werden, wobei die ontologischen Entitätsbeziehungen Hypernym, Synonym und Co-Hypernym umfassen; und Bereitstellen von Elementen aus dem Satz von Elementen, die auf die Abfrage reagieren, zur Anzeige gemäß den endgültigen Clustern.
2. Verfahren nach Anspruch 1, wobei Cluster der ersten Ebene, die kleiner sind, zuerst zusammengeführt werden.
3. Verfahren nach Anspruch 2, wobei das Zusammenführen der Cluster der ersten Ebene, die kleiner sind, für einen ersten Cluster der ersten Ebene umfasst: Bestimmen eines zweiten Clusters der ersten Ebene und eines dritten Clusters der ersten Ebene, die mit dem ersten Cluster der ersten Ebene in Beziehung stehen basierend auf den ontologischen Beziehungen der Entität ; Bestimmen, dass der dritte Cluster der ersten Ebene und der erste Cluster der ersten Ebene kleiner als der zweite Cluster der ersten Ebene sind; und Zusammenführen des ersten Clusters der ersten Ebene mit dem dritten Cluster der ersten Ebene.
4. Verfahren nach Anspruch 1, wobei Cluster der ersten Ebene, die am ähnlichsten sind, zuerst zusammengeführt werden.
5. Verfahren nach Anspruch 4, wobei das Zusammenführen von ersten Clustern, die am ähnlichsten sind, zuerst für einen ersten Cluster der ersten Ebene umfasst: Bestimmen eines zweiten Clusters der ersten Ebene und eines dritten Clusters der ersten Ebene, die mit dem ersten Cluster der ersten Ebene in Beziehung stehen die ontologischen Beziehungen der Entität; Bestimmen, dass der erste Cluster der ersten Ebene dem zweiten Cluster der ersten Ebene ähnlicher ist als der dritte Cluster der ersten Ebene; und Zusammenführen des ersten Clusters der ersten Ebene mit dem zweiten Cluster der ersten Ebene.
Die neuere Version teilt uns mit, dass sie „ontologische Beziehungen“ enthält, was der erste Anspruchssatz nicht enthält. Wir wissen also aus den SERPs, dass Bogart im Film „Casablanca“ zu sehen war, ebenso wie viele andere Schauspieler, die sich auf dieses Suchergebnis konzentrierten.

Suchergebnisse gruppieren
Erfinder: Jilin Chen, Dai; Lichan Hong, Tianjiao Zhang, Huazhong Ning und Ed Huai-Hsin Chi
Zessionar: Google LLC
US-Patent: 11.216.503
Gewährt: 4. Januar 2022
Eingereicht: 26. November 2019
Abstrakt
Implementierungen stellen ein verbessertes System zum Präsentieren von Suchergebnissen basierend auf Einheitszuordnungen der Suchelemente bereit. Ein beispielhaftes Verfahren umfasst das Generieren von Clustern erster Ebene von Elementen, die auf eine Abfrage reagieren, wobei jeder Cluster eine Entität in einer Wissensbasis darstellt und Elemente enthält, die der Entität zugeordnet sind, das Zusammenführen der Cluster der ersten Ebene basierend auf Ontologiebeziehungen der Entitäten, das Anwenden von hierarchischem Clustering auf die Zusammenführen von Clustern, Erzeugen von Endclustern und Initiieren der Anzeige der Gegenstände gemäß den Endclustern. Ein weiteres beispielhaftes Verfahren umfasst das Generieren von Clustern erster Ebene aus Elementen, die auf eine Abfrage reagieren, wobei jeder Cluster eine Entität in einer Wissensbasis darstellt und Elemente enthält, die der Entität zugeordnet sind, Erzeugen endgültiger Cluster durch Zusammenführen der Cluster erster Ebene basierend auf einer Entitätsontologie und einer Einbettungsraum, der von einem Einbettungsmodell generiert wird, das die Abbildung verwendet, und Initiieren der Anzeige der Elemente, die auf die Abfrage gemäß den endgültigen Clustern reagieren.
Wenn Sie zu meiner ursprünglichen Beschreibung dieses Patents für Clustering-Entitäten aus dem Jahr 2019 zurückkehren, werden Sie sehen, dass ich „Ontologien“ oft erwähne, wenn ich über Entitäten schreibe. Die Version 2022 des Patents für Clustering-Entitäten fügt diese Sprache direkt zu den Ansprüchen hinzu. Sie sind in den SERPs, ohne die Beziehung zwischen dem Film und seinen Schauspielern zu diskutieren.
Clustering von Entitäten und Neuigkeiten
Wenn wir nach dieser Änderung nach einer bestimmten Entität und Nachrichten suchen, sehen wir dort auch gruppierte Suchergebnisse:
Google sortiert SERPs also nicht mehr danach, wie gut Übereinstimmungsdokumente mit Suchbegriffen sind – Google gruppiert Themen und Beziehungen zwischen Entitäten als Teil seiner Entscheidung, was in die Suchergebnisse aufgenommen werden soll.
Suchen Sie Nachrichten direkt in Ihren Posteingang
*Erforderlich