Google SERP 中的集群實體已更新
已發表: 2022-01-13集群實體專利更新
我最新的一篇博文是關於 Google 在自然搜索結果中按主題對新聞結果進行聚類。 谷歌也對搜索結果中的實體信息進行了聚類。 如果您現在搜索在卡薩布蘭卡與漢普萊·鮑嘉一起表演的人。 您可以在這些搜索結果中看到該電影中的其他演員。 您還可以查看包括這些演員和電影的相關問題(以及關於電影相關類別的本體)。 這篇新文章是關於實體聚類的,並改變了 Google 提供與實體聚類相關的搜索結果的方式。
以下是顯示演員與電影《卡薩布蘭卡》之間聯繫的搜索結果示例:
Google 自 2022 年 1 月 3 日起擁有延續專利。我曾在 2019 年的 Google 搜索結果中的實體聚類一文中寫過該專利的早期版本
第一項專利的權利要求
由於這項新專利是延續專利,因此大部分專利是相同的。 該專利包含更新的權利要求。 2019 版聚類搜索結果專利的第一項聲明如下:
1.一種方法,包括: 確定響應於查詢的項目; 生成項目的第一級集群,每個集群代表知識庫中的一個實體,並包括映射到該實體的項目; 計算每個第一級聚類的相應聚類分數,其中第一級聚類的相應聚類分數基於測量第一級聚類的連貫性和分離度的相應輪廓分數和代表百分比的輪廓比率具有高於閾值的相應輪廓分數的所有第一級集群; 基於實體本體關係和為合併的集群計算的各個集群分數來合併第一級集群,其中合併集群的各個集群分數表示比包含在合併集群中的第一級集群的各個集群分數更好的分數; 將層次聚類應用於合併的聚類,生成最終聚類,使分層聚類的各個聚類得分最大化; 並且提供響應於查詢的項目以根據最終聚類顯示。
更新專利的權利要求
詳細地說,我在 2019 年寫的帖子描述了集群實體專利背後的過程。 現在,從 2022 年第一天開始的新版本專利採用了一種新語言,可以告訴我們專利的作用。 1999 年的第一組索賠告訴我們一個“剪影分數”,這不在新的索賠中。 2022 年的聲明包括一些 2019 年版本中沒有的術語:
1.一種由搜索引擎執行的方法,包括: 響應查詢確定一組項目; 對於確定為響應查詢的一組項目中的每個項目:識別與該項目相關聯的一個或多個實體,並獲得該項目的嵌入; 從項目集中生成第一級集群,每個集群代表一個或多個實體中的一個實體; 通過合併基於實體本體關係的第一級聚類和使用項嵌入確定的嵌入相似性來生成最終聚類,其中實體本體關係包括上位詞、同義詞和共同上位詞; 以及提供來自響應於查詢的項目集合中的項目以根據最終聚類顯示。
2.如權利要求1所述的方法,其特徵在於,首先合併較小的第一級集群。
3.如權利要求2所述的方法,其特徵在於,對於第一第一級集群,合併較小的第一級集群包括:確定第二第一級集群和與所述第一第一級集群相關的第三第一級集群。基於實體本體關係; 確定第三一級簇和第一一級簇小於第二一級簇; 將第一級集群與第三級集群合併。
4.如權利要求1所述的方法,其特徵在於,最相似的第一級聚類首先被合併。
5.如權利要求4所述的方法,其特徵在於,對於第一一級聚類,首先合併最相似的第一聚類包括: 確定第二一級聚類和與所述第一一級聚類相關的第三一級聚類。實體本體關係; 確定第一一級聚類與第二一級聚類比第三一級聚類更相似; 將第一級集群與第二級集群合併。
較新的版本告訴我們它包括“本體關係”,而第一組聲明沒有。 因此,我們從 SERP 中得知 Bogart 出現在電影《卡薩布蘭卡》中,許多其他關注該搜索結果的演員也是如此。
聚類搜索結果
發明人:陳吉林,戴; Lichan Hong、Tianjiajia Zhang、Huazhong Ning 和 Ed Huai-Hsin Chi
受讓人:谷歌有限責任公司
美國專利:11,216,503
授予:2022 年 1 月 4 日
提交日期:2019 年 11 月 26 日
抽象的
實現方式提供了一種改進的系統,用於基於搜索項的實體關聯來呈現搜索結果。 示例方法包括響應於查詢生成項目的第一級集群,每個集群表示知識庫中的一個實體並包括映射到該實體的項目,基於實體本體關係合併第一級集群,將層次聚類應用於合併集群,生成最終集群,並根據最終集群啟動項目顯示。 另一個示例方法包括從響應於查詢的項目生成第一級集群,每個集群表示知識庫中的一個實體並包括映射到該實體的項目,通過基於實體本體和從使用映射的嵌入模型生成的嵌入空間,並根據最終集群啟動響應於查詢的項目的顯示。
如果你回到我在 2019 年對這個集群實體專利的原始文章,你會看到我在寫實體時多次提到“本體”。 2022 年版本的集群實體專利將這種語言直接添加到權利要求中。 他們在 SERP 中沒有討論電影與其演員之間的關係。
集群實體和新聞
在此更改之後,當我們搜索特定實體和新聞時,我們也會在那裡看到聚集的搜索結果:
因此,谷歌不再根據匹配文檔對查詢詞的好壞對 SERP 進行排序——谷歌正在對主題和實體之間的關係進行聚類,作為其決定在搜索結果中包含哪些內容的一部分。
直接在您的收件箱中搜索新聞
*必需的