Кластеризация объектов в поисковой выдаче Google обновлена
Опубликовано: 2022-01-13Патент на кластерные объекты обновлен
Один из моих последних постов в блоге был о том, как Google группирует результаты новостей по темам в обычных результатах поиска. Google также сгруппировал информацию об объектах в результатах поиска. Если теперь искать людей, которые снимались с Хампри Богартом в Касабланке. Вы можете увидеть других актеров в этом фильме в этих результатах поиска. Вы также можете увидеть связанные вопросы, которые включают в себя этих актеров и фильм (и эту онтологию о связанных категориях для фильма). Этот новый пост посвящен кластеризации сущностей и изменению того, как Google предоставляет результаты поиска, связанные с кластеризацией сущностей.
Вот пример результатов поиска, которые показывают связь между актерами и фильмом «Касабланка»:
У Google есть продолжение патента от 3 января 2022 года. Я писал о более ранней версии этого патента в 2019 году в публикации «Кластеризация сущностей в результатах поиска Google».
Пункты формулы первого патента
Поскольку этот новый патент является патентом-продолжением, большая часть патента идентична. Патент содержит обновленную формулу изобретения. Первая претензия из версии патента Clustering Search Results 2019 года гласит:
1. Способ, включающий: определение элементов, отвечающих на запрос; формирование кластеров первого уровня элементов, каждый кластер представляет объект в базе знаний и включает в себя элементы, сопоставленные с объектом; вычисление соответствующего балла кластера для каждого кластера первого уровня, при этом соответствующий балл кластера для кластера первого уровня основан на соответствующем балле силуэта, который измеряет согласованность и разделение кластера первого уровня, и на коэффициенте силуэта, представляющем процентную долю все кластеры первого уровня, имеющие соответствующий показатель силуэта выше порогового значения; объединение кластеров первого уровня на основе отношений онтологии сущностей и соответствующих оценок кластера, рассчитанных для объединенных кластеров, при этом соответствующая оценка кластера объединенного кластера представляет собой лучшую оценку, чем соответствующие оценки кластера для кластеров первого уровня, включенных в объединенный кластер ; применение иерархической кластеризации к объединенным кластерам, создание конечных кластеров, которые максимизируют соответствующие оценки кластеров для иерархической кластеризации; и предоставление элементов, отвечающих на запрос, для отображения в соответствии с конечными кластерами.
Пункты формулы изобретения из обновленного патента
Подробно в посте, который я написал в 2019 году, описывается процесс, лежащий в основе патента на кластеризацию объектов. Теперь в новой версии патента от первого дня 2022 года есть новый язык, который говорит нам, что делает патент. В первом наборе формул в 1999 г. нам сообщали о «оценке силуэта», которой нет в новых формулах. Претензии 2022 года включают некоторые термины, которых нет в версии 2019 года:
1. Способ, выполняемый поисковой системой, включающий: определение набора элементов, отвечающих на запрос; для каждого элемента набора элементов, определенного как отвечающего на запрос: идентификацию одного или более объектов, связанных с элементом, и получение внедрения для элемента; создание кластеров первого уровня из набора элементов, причем каждый кластер представляет объект из одного или более объектов; создание окончательных кластеров путем слияния кластеров первого уровня на основе онтологических отношений сущностей и внедрения подобий, определенных с использованием вложений элементов, при этом онтологические отношения сущностей включают гиперним, синоним и согиперним; и предоставление элементов из набора элементов, отвечающих на запрос, для отображения в соответствии с конечными кластерами.
2. Способ по п.1, в котором кластеры первого уровня меньшего размера объединяются первыми.
3. Способ по п.2, в котором объединение меньших по размеру кластеров первого уровня включает в себя для первого кластера первого уровня: определение второго кластера первого уровня и третьего кластера первого уровня, связанных с первым кластером первого уровня. на основе сущностных онтологических отношений ; определяют, что третий кластер первого уровня и первый кластер первого уровня меньше второго кластера первого уровня; и объединение первого кластера первого уровня с третьим кластером первого уровня.
4. Способ по п.1, в котором наиболее похожие кластеры первого уровня объединяются первыми.
5. Способ по п.4, в котором слияние первых кластеров, которые наиболее похожи, сначала включает в себя для первого кластера первого уровня: определение второго кластера первого уровня и третьего кластера первого уровня, связанного с первым кластером первого уровня в онтологические отношения сущностей; определяют, что первый кластер первого уровня больше подобен второму кластеру первого уровня, чем третьему кластеру первого уровня; и объединение первого кластера первого уровня со вторым кластером первого уровня.
В более новой версии говорится, что она включает «онтологические отношения», которых нет в первом наборе утверждений. Итак, из поисковой выдачи мы знаем, что Богарт был в фильме «Касабланка», как и многие другие актеры, которые были сосредоточены на этом результате поиска.

Кластеризация результатов поиска
Изобретатели: Цзилинь Чен, Дай; Личан Хун, Тяньцзяо Чжан, Хуажун Нин и Эд Хуай-Синь Чи
Правопреемник: Google LLC
Патент США: 11 216 503.
Выдано: 4 января 2022 г.
Подано: 26 ноября 2019 г.
Абстрактный
Реализации предоставляют улучшенную систему для представления результатов поиска на основе ассоциаций сущностей элементов поиска. Пример метода включает создание кластеров первого уровня элементов, отвечающих на запрос, причем каждый кластер представляет сущность в базе знаний и включает элементы, сопоставленные с сущностью, слияние кластеров первого уровня на основе отношений онтологии сущностей, применение иерархической кластеризации к объединенные кластеры, создание окончательных кластеров и инициирование отображения элементов в соответствии с окончательными кластерами. Другой пример метода включает создание кластеров первого уровня из элементов, отвечающих на запрос, причем каждый кластер представляет сущность в базе знаний и включает элементы, сопоставленные с сущностью, создание конечных кластеров путем слияния кластеров первого уровня на основе онтологии сущности и пространство для встраивания, сгенерированное из модели встраивания, которая использует сопоставление, и инициирование отображения элементов, отвечающих на запрос, в соответствии с окончательными кластерами.
Если вы вернетесь к моему первоначальному описанию этого патента на кластеризацию сущностей от 2019 года, вы увидите, что я много раз упоминаю «онтологии», когда пишу о сущностях. Версия патента на кластеризацию объектов 2022 года добавляет эту формулировку непосредственно в формулу изобретения. Они находятся в поисковой выдаче, не обсуждая отношения между фильмом и его актерами.
Кластеризация сущностей и новостей
После этого изменения, когда мы ищем конкретную сущность и новости, мы также видим там сгруппированные результаты поиска:
Таким образом, Google больше не сортирует поисковую выдачу на основе того, насколько хорошо документы соответствуют терминам запроса — Google группирует темы и отношения между объектами как часть своего решения о том, что включать в результаты поиска.
Поиск новостей прямо в папку «Входящие»
*Необходимый