基于图像结果的查询分类

已发表: 2022-04-27

谷歌最近获得了一项基于图像结果的查询分类的专利。

该专利告诉我们：“互联网搜索引擎通过在图像搜索时返回一组图像搜索结果来响应用户的搜索查询，从而提供有关互联网可访问资源（例如网页、图像、文本文档、多媒体内容）的信息。回应询问。”

搜索结果包括例如图像或包含该图像的文档的统一资源定位符（URL）和信息片段。

使用评分函数对 SERP 进行排名

可以根据评分函数分配的分数对搜索结果进行排名（例如按顺序）。

评分功能根据各种信号对搜索结果进行排名：

查询文本出现在图像周围的文档文本中的位置（以及频率）
想法的图像标题或替代文本
查询词在搜索引擎索引的搜索结果中的标准程度。

通常，本专利中描述的主题是一种方法，包括：

从第一图像获取图像结果用于第一查询，其中获取的图像的数量与分数和用户行为数据相关联，当获取的图像是查询的搜索结果时，用户行为数据说明用户与获取的图像的交互
选择多个获取的图像，每个图像具有满足阈值的相应行为数据
基于对所选图像内容的分析，将所选第一张图像与多个注释相关联

这些可以选择包括以下功能。

第一个查询可以与基于注释的类别相关联。可以存储查询分类和注释关联以供将来使用。响应于与第一查询相同或相似的第二查询的第二图像结果可以被接收。

第二个图像中的每一个都与一个分数相关联，并且可以根据与第一个查询相关的类别来修改第二个图像。

其中一个查询分类可以说明第一个查询是单人查询并增加第二个图像的分数，第二个图像的注释说第二个图像的集合包含一个人脸。

一个查询分类可以说明第一个查询是多样化的，并增加第二个图像的分数，其注释表明第二个图像的集合是多样化的。

其中一个类别可以说明第一个查询是文本查询并增加第二个图像的分数，其注释说第二个图像的集合包含文本。

可以将第一个查询提供给经过训练的分类器以确定类别中的查询分类。

对所选第一图像的内容的分析可以包括对第一图像结果进行聚类以确定注释中的注释。用户行为数据可以是用户在第一次查询的搜索结果中选择图像的次数。

本专利所描述的主题可以得到实施，从而实现以下优点：

分析图像结果集以导出图像注释和查询分类，并且用户与图像搜索结果的交互可用于导出查询类型。

查询分类

反过来，查询类别可以提高图像搜索结果的相关性、质量和多样性。

查询分类也可以用作查询处理的一部分或用于离线过程。

查询类别可用于提供自动查询建议，例如“仅显示带面孔的图像”或“仅显示剪贴画”。

查询分类

基于图像结果的查询分类
发明人：Anna Majkowska 和 Cristian Tapus
受让人：谷歌有限责任公司
美国专利：11,308,149
授予：2022 年 4 月 19 日
提交日期：2017 年 11 月 3 日

抽象的

用于基于图像结果进行查询分类的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。
在一个方面，一种方法包括从响应于查询的图像结果接收图像，其中每张照片与图像结果中的顺序和图像的相应用户行为数据相关联，作为第一查询的搜索结果，并且关联基于对所选第一图像的内容的分析，具有多个注释的第一图像。

使用查询分类改进查询返回的结果集的系统

诸如网络浏览器或在计算设备上执行的其他进程的客户端向搜索引擎提交输入查询，并且搜索引擎将图像搜索结果返回给客户端。在一些实施方式中，查询包括文本，例如字符集中的字符（例如，“红番茄”）。

查询包括图像、声音、视频或这些的组合。其他查询类型也是可能的。搜索引擎将根据与输入查询相同、更广泛或更具体的替代查询版本来搜索结果。

图像搜索结果是被确定为响应输入查询的文档或链接的有序或排序列表，其中被确定为最相关的文档具有最高排序。副本是网页、图像或其他电子文件。

在图像搜索的情况下，搜索引擎至少部分基于以下内容来确定图像的相关性：

图片内容
图片周围的文字
图片说明
图像的替代文本

与查询相关的类别

在产生图像搜索结果时，搜索引擎在一些实施方式中提交对与查询相关联的类别的请求。搜索引擎可以使用相关类别通过增加确定属于相关类别的图像结果的排名来重新排序图像搜索结果。

在某些情况下，它可能会减少不属于相关类别或两者的图像结果。

搜索引擎还可以使用结果的类别来确定它们应该如何在最终确定的结果集中与查询类别或查询类别相结合。

分类器引擎或其他过程使用为查询检索的图像结果和用户行为数据存储库来导出查询的类别。存储库包含用户行为数据。存储指示用户群体为给定查询选择图像结果的次数。

图像选择可以以各种方式完成，包括使用键盘、计算机鼠标或手指手势、语音命令或其他方法。用户行为数据包括“点击数据”。

单击数据指示用户查看或“停留”图像结果的时间

点击数据表示用户在查询的结果列表中选择图像结果后查看或“停留”多长时间。 例如，长时间停留在图像上（例如超过 1 分钟），称为“长点击”，可以说明用户找到了与用户查询相关的图像。

查看图像的短暂时间（例如，少于 30 秒），称为“短点击”，可被解释为缺乏图像相关性。 其他类型的用户行为数据是可能的。

举例来说，用户行为数据可以由为用户响应特定查询而选择的结果文档创建记录的过程生成。每个表单都可以表示为一个元组：<document, query, data>)，其中包括：

用户提交的问题
指示查询的查询引用
文档引用用户响应查询选择的论文
为响应查询选择文档引用的所有用户或所有用户子集的点击数据聚合（例如每种点击类型的计数）。

将这种基于元组的方法扩展到用户行为数据是可能的。例如，用户行为数据可以扩展为包括特定位置（例如国家或州）或特定语言的标识符。

包含此类标识符后，特定于国家/地区的元组将由用户查询起源的国家/地区组成，而特定于语言的元组将由用户查询的语言组成。

为简单起见，与查询的文档 A-CCC 关联的用户行为数据在表中被描述为“高”、“中”或“低”量的有利用户行为数据（例如用户行为指示文档和查询之间相关性的数据）。

文档的用户行为数据

文档的有利用户行为数据可以表明，当在查询结果中查看该论文时，用户选择了该论文，或者当用户从查询结果中选择该文档后查看该文档时，用户查看该文档的目的是延长时间（例如用户发现文档与问题相关）。

分类器引擎与搜索引擎一起使用返回的结果和用户行为数据来确定查询类别，然后在结果返回给用户之前对其进行重新排序。

通常，对于查询类别请求中指定的查询（例如查询或查询的替代形式），分类器引擎分析查询的图像结果以确定查询是否属于类别。在某些实施方式中分析的图像结果已被用户选择作为查询的搜索结果，总次数超过阈值（例如设置至少十次）。

分类器引擎分析搜索引擎针对给定查询检索到的所有图像结果。在其他实现中

分类器引擎分析查询的图像结果，其中点击数据的度量（例如，选择的总数或其他度量）高于阈值。

在评分过程中，可以使用计算机视觉技术以各种方式（离线或在线）在线分析图像结果。图像使用从其视觉内容中提取的信息进行注释。

图像注释

例如，图像注释可以存储在注释存储中。每个分析的图像（例如，图像 1、图像 2 等）都与照片中的注释（例如，A1、A2 等）关联到注释关联。

注释可以包括：

图像中的人脸数量
每张脸的大小
图像的主要颜色
图片是否包含文字或图表
图片是否为截图

此外，每个图像都可以使用指纹进行注释，然后可以确定两个图像是否相同或相同。

接下来，分类器引擎分析给定查询的图像结果及其注释以确定查询类别。可以以多种方式确定给定查询（例如查询1、查询2等）的查询类别（例如C1、C2等）的关联，例如使用简单的启发式或使用自动分类器。

基于启发式的简单查询分类器

例如，可以使用基于启发式的简单查询分类器来确定查询所需的主色（以及是否存在主色）。

例如，启发式方法可以是，如果在查询的前 20 个最常点击的图像中，至少 70% 的主色为红色，则查询可以被归类为“红色查询”。对于这样的查询，搜索引擎可以对检索到的结果重新排序，以增加所有以红色作为主色注释的图像的排名。

相同的分类可以用于所有其他标准颜色。这种过度分析查询文本的方法的一个优点是它适用于所有语言而无需翻译（例如，它会为任何语言的问题“红苹果”推广具有主要红色的图像）。它更健壮（例如它不会增加查询“红海”的红色图像的排名）。

一个示例分类引擎

分类器引擎可以在线模式或离线模式下工作，其中查询类别关联被提前存储（例如，在表中）以供搜索引擎在查询处理期间使用。

引擎接收给定查询的查询图像结果，并将图像结果提供给图像注释器。每个图像注释器分析图像结果并提取有关图像视觉内容的信息，这些信息被存储为想法的图像注释（例如，图像注释）。

人脸图像注释器

举例来说，一个人脸图像注释器：

确定图像中有多少张脸以及每张脸的大小
指纹图像注释器以压缩形式（指纹）提取视觉图像特征，然后可以将其与另一幅图像的指纹进行比较，以确定两幅图像是否相似
屏幕截图图像注释器确定图像是否为屏幕截图
文本图像注释器确定图片是否包含文本
图形/图表图像查询确定图像是否包括图形或图表（例如，条形图）
主色注释器确定图片是否包含主色

也可以使用其他图像注释器。例如，Viola, P. 的一篇题为“Rapid Object Detection Using a Boosted Cascade of Simple Features”的论文中描述了几个图像注释器； Jones, M.，三菱电机研究实验室，TR2004-043（2004 年 5 月）。

查询类别

接下来，分类器引擎分析给定查询的图像结果及其注释以确定查询类别（例如，查询类别）。查询类别是通过分类器确定的，查询分类器可以通过机器学习系统来实现。

使用自适应提升

举例来说，AdaBoost 是 Adaptive Boosting 的缩写，是一种机器学习系统，可与其他学习算法一起使用以提高其性能。 AdaBoost 用于生成查询分类。（更多的学习算法是可能的）

AdaBoost 在一系列轮次中调用“弱”图像注释器。举例来说，单人查询分类器可以基于经过训练以确定查询是否需要单人图像的学习机算法。

举例来说，这样的查询分类器可以使用包括查询的数据集、表示具有零个或多个面孔的问题的结果图像的一组特征向量以及查询的正确分类（即，面孔与否）进行训练. 对于每次调用，查询分类器都会更新一个权重分布，该分布指示训练数据集中示例对分类的重要性。

在每一轮中，每个分类训练示例的权重都会增加（或每个分类训练示例的结果会减少），因此新的查询分类更多地关注这些示例。生成的经过训练的查询分类可以将查询作为输入，并输出查询要求包含单个人的图像的概率。

多样化/同质查询分类器将查询作为输入，并输出查询针对各种图像的概率。分类器使用聚类算法根据彼此之间的距离度量根据指纹对图像结果进行聚类。每个图像都与一个集群标识符相关联。

图像聚类标识符用于确定聚类的数量、组的大小以及结果集中图像形成的聚类之间的相似性。例如，此信息用于关联查询是否特定（或邀请重复）的概率，

将查询与规范含义和表示相关联

查询分类也可以用来将查询与规范含义和表示相关联。例如，如果有单个大簇或几个大簇，则问题与重复图像结果相关的概率很高。如果有许多较小的集群，则查询与相同图像结果相关联的可能性很低。

图像的副本通常不是很有用，因为它们没有提供更多信息，因此它们应该被降级为查询结果。但是，也有例外。例如，如果初始结果中有很多重复项（少数，大型集群），则查询是特定的，重复项不应被降级。

屏幕截图/非屏幕截图查询分类将查询作为输入，并输出查询调用屏幕截图图像的概率。文本/非文本查询分类器接受查询作为输入，并输出查询调用包含文本的图像的机会。

图形/非图形查询分类接受查询的输入并输出查询调用包含图形或图表的图像的概率。颜色查询分类器133f接受信息查询并输出查询调用由单一颜色支配的镜头的机会。其他查询分类器是可能的。

基于查询分类提高图像结果的相关性

搜索者可以通过客户端或其他设备与系统交互。例如，客户端设备可以是局域网（LAN）或广域网（WAN）内的计算机终端。客户端设备可以是能够通过LAN、WAN或一些其他网络（例如，蜂窝电话网络）进行通信的移动设备（例如，移动电话、移动计算机、个人桌面助理等）。

客户端设备可以包括随机存取存储器（RAM）（或其他存储器和存储设备）和处理器。

处理器被结构化以处理系统内的指令和数据。处理器是具有处理核心的单线程或多线程微处理器。处理器接收结构化以执行存储在RAM（或客户端设备所包括的其他存储器和存储设备）中的指令，以呈现用于用户界面的图形信息。

搜索者可以连接到服务器系统内的搜索引擎以提交输入查询。搜索引擎是可以检索图像和其他类型的内容（例如文档（例如，HTML页面））的图像搜索引擎或通用搜索引擎。

当用户通过连接到客户端设备的输入设备提交输入查询时，客户端问题被发送到网络并作为服务器端查询转发到服务器系统。服务器系统可以是位置中的服务器设备。服务器设备包括由加载在其中的搜索引擎组成的存储设备。

处理器被结构化以处理设备内的指令。这些说明可以安装搜索引擎的组件。处理器可以是单线程或多线程的，并且包括许多处理核心。处理器可以处理存储在存储器中的与搜索引擎相关的指令，并通过网络向客户端设备发送信息，以在客户端设备的用户界面中创建图形表示（例如，在网页中显示的网页上的搜索结果）浏览器）。

服务器端查询被搜索引擎接收。搜索引擎使用输入查询中的信息（例如查询词）来查找相关文档。搜索引擎可以包括搜索语料库（例如，因特网上的网页）以索引在该语料库中找到的文档的索引引擎。语料库文档的索引信息可以存储在索引数据库中。

可以访问该索引数据库以识别与用户相关的文档。请注意，电子副本（将被称为文档）与文件不对应。记录可以存储在包含其他文档的文件的一部分中，也可以存储在专用于相关文档的单个文件中，或者存储在许多协调的文件中。此外，副本可以存储在内存中，而无需存储在文件中。

搜索引擎可以包括对与输入查询相关的文档进行排名的排名引擎。可以使用传统技术执行文档的排名，以确定给定查询的索引记录的信息检索 (IR) 分数。

任何适当的方法都可以确定特定文档在特定搜索项中的相关性或与其他提供的信息的相关性。例如，包含与搜索词匹配的文档的反向链接的一般级别可以用来推断文档的相关性。

特别是，如果一个文档被许多其他相关文档（例如包含与搜索词匹配的文档）链接到（例如，是超链接的目标），则可以推断出目标文档特别相关。之所以可以做出这种推论，是因为指向论文的作者大概会在大多数情况下指向与他们的受众相关的其他文档。

指向文档的目标是来自其他相关文档的链接，这可以被认为是更相关的。第一个文件特别合适，因为它针对适用（甚至高度相关）的文件。

这种技术可以确定文档的相关性或许多决定因素之一。还可以采取适当的方法来识别和减少进行欺诈性投票以提高页面相关性的尝试。

为了进一步改进这种传统的文档排名技术，排名引擎可以从排名修改引擎接收更多信号，以帮助确定文档的适当排名。

结合上述图像注释器和查询分类，排名修改器引擎为论文提供相关性度量。排名引擎可以用来提高提供给用户的搜索结果的排名。

排名修改器引擎可以执行操作以生成相关性度量。

图像结果的分数是增加还是减少取决于图像的视觉内容（如图像注释中表示的）是否与查询分类匹配，每个图像类别都会被考虑。

例如，如果查询的分类是“单人”，那么被分类为“截图”和“单人脸”的图像结果首先会因为“截图”类别而降低其分数。然后，由于“单面”类别，它可以提高分数。

搜索引擎可以通过网络转发服务器端搜索结果中的最终排序结果列表。退出网络后，客户端设备可以接收客户端搜索结果，结果可以存储在 RAM 中并由处理器用于在输出设备上为用户显示结果。

信息检索系统

这些组件包括：

索引引擎
评分引擎
排名引擎
排名修改引擎

索引引擎的功能如上文针对索引引擎所述。评分引擎根据许多特征为文档结果生成分数，包括将查询链接到文档结果的基于内容的特征，以及通常说明文档结果质量的与查询无关的部分。

图像的基于内容的特征包括包含图片的文档的各个方面，例如与文档标题或图像标题的查询匹配。

查询评分引擎

与查询无关的特征包括，例如，论文的文档交叉引用或域或图像维度的方面。

此外，评分引擎使用的特定功能可以使用自动或半自动过程进行调整，以调整对最终 IR 评分的各种特征贡献。

排名引擎根据从评分机接收的 IR 分数和来自排名修改器引擎的信号对文档结果进行排名以显示给用户。

排名修改引擎为文档提供相关性度量，排名引擎可以使用这些度量来提高提供给用户的搜索结果的排名。跟踪组件记录用户行为信息，例如单个用户对按顺序呈现的结果的选择。

跟踪组件获取包含在网页排名中的嵌入 JavaScript 代码，该代码识别用户对单个文档结果的选择并识别用户何时返回结果页面，从而指示用户查看所选文档结果所花费的时间。

跟踪组件是一个代理系统，用户对文档结果的选择通过该代理系统进行路由。跟踪组件还可以包括客户端的预安装软件（例如客户端操作系统的工具栏插件）。

其他实现也是可能的，例如，使用允许标签/指令被包含在页面中的网络浏览器的特性的实现，其请求浏览器连接回服务器并带有关于用户点击的链接的消息。

记录的信息存储在结果选择日志中。记录的信息包括日志条目，这些条目说明用户与针对提交的每个查询呈现的每个结果文档的交互。

对于为查询呈现的结果文档的每个用户选择，日志条目说明查询 (Q)、论文 (D)、用户在文档上的停留时间 (T)、用户使用的语言 (L)、和用户可能位于的国家（C）（例如，基于用于访问IR系统的服务器）和识别用户的大都市区的地区代码（R）。

日志条目还记录负面信息，例如文档结果被呈现给用户但未被选中。

其他信息，例如：

点击位置（即用户界面中的用户选择）
有关会话的信息（例如先前点击的存在和类型（点击后会话活动））
点击结果的 R 分数
点击前显示的所有结果的 IR 分数
在点击之前向用户显示标题和片段
用户的 cookie
饼干时代
IP（互联网协议）地址
浏览器的用户代理
很快

初始点击文档结果与用户返回主页并点击另一个文档结果（或提交新的搜索查询）之间的时间 (T) 也会被记录下来。

对时间 (T) 进行评估，以确定该时间是否表示文档的较长视图或较短的视图，因为更多扩展参数通常显示点击结果的质量或相关性。该时间评估 (T) 可以结合各种加权技术进行。

所示组件可以以各种方式和多种系统配置进行组合。评分结束坦克引擎合并成一个单一的排名引擎，例如排名引擎。排名修改引擎和排名引擎也可以合并。通常，排名引擎包括在查询后生成文档结果排名的任何软件组件。此外，排名引擎也可以（或不适合）服务器系统中的客户端系统。

另一个例子是信息检索系统。服务器系统包括索引引擎和评分/排名引擎。

在该系统中，客户端系统包括：

用于呈现排名的用户界面
跟踪组件
结果选择日志
排名/排名修改引擎。

例如，客户端系统可以包括公司的企业网络和个人计算机，其中浏览器插件结合了排名/排名修改器引擎。

当公司员工在服务器系统上发起搜索时，评分/排名引擎可以返回搜索结果。结果的初始排名或实际 IR 分数。然后，浏览器插件根据公司特定用户群的跟踪页面选择重新排列结果。

一种查询分类技术

该技术可以在线（作为查询处理的一部分）或离线方式执行。

接收到响应于第一个查询的第一个图像结果。第一张图像中的每一个都与订单（例如 IR 分数）和相应的用户行为数据（例如点击数据）相关联。

选择多个第一图像，其中每个选定图像的相应行为数据的度量满足阈值。

基于所选第一图像的内容分析，所选第一图像与若干注释相关联。图像注释可以保留在图像注释中。

然后根据注释将类别与第一个查询相关联。

查询分类关联可以在查询类别中持续存在。

然后接收响应于相同的第二查询或第一查询的第二图像结果。

（如果在查询分类中未找到第二个查询，则可以对第二个查询进行转换或“重写”以确定替代形式是否与查询分类中的查询匹配。）

在此示例中，第二个查询与第一个查询相同或可以重写为第一个查询。

第二个图像结果在与第一个查询相关联之前根据查询分类重新排序。

基于图像结果的查询分类

使用评分函数对 SERP 进行排名

查询分类

使用查询分类改进查询返回的结果集的系统

与查询相关的类别

单击数据指示用户查看或“停留”图像结果的时间

文档的用户行为数据

图像注释

基于启发式的简单查询分类器

一个示例分类引擎

人脸图像注释器

使用自适应提升

将查询与规范含义和表示相关联

基于查询分类提高图像结果的相关性

信息检索系统

一种查询分类技术

直接在您的收件箱中搜索新闻