如何使用谷歌数据集搜索数据集架构

已发表: 2019-10-01

Google 数据集搜索:如何使用数据集架构进行查询

2021 年 6 月 12 日更新

随着数字数据数量的不断增加,搜索营销策略师面临着越来越需要从数据中获取意义。

许多高级数据库应用程序开始支持 Google 数据库搜索。 此外,SEO 还在 2019 年 9 月向 Google Search Console 添加了新报告,以更好地了解他们的数据。 通过将编码为本体的领域级知识整合到对关系数据的查询中,可以获得很多好处。 对 SEO 说了这么多,搜索营销人员发现从虚构中筛选出事实更具挑战性,从有用的 SEO 策略中筛选出有害的,以及经过测试的真实而不是仅仅谈论。

很大程度上依赖过去的搜索营销经验和直觉很好,但往往不正确。 事实证明,受数据影响的决策始终比“我的直觉告诉我”要好。 许多数据洞察工具(如谷歌分析)提供了实际的支持证据,但现在比以往任何时候都更容易定位谷歌云公共数据集。

什么是谷歌数据集搜索?

一个快速的大图是,谷歌数据搜索依赖于数据集提供商,无论大小,使用开放的 schema.org/Dataset 标准在他们的网站中添加结构化元数据。 Google 数据集搜索使搜索者能够通过使用特定搜索词组进行搜索来定位存储在网络上的数据集。 据谷歌称,该工具可以显示有关托管在网络上数千个存储库中的数据集的信息,从而使这些数据集普遍可访问和有用。

通过访问与您的业务利基相关的高需求公共数据集,您可以从云数据中发现新的消费者洞察。 通过分析 BigQuery 和 Cloud Storage 中托管的其他数据集,可以更轻松地体验 Google Cloud 的全部价值

数据记者已经熟悉获取政府数据和社会科学数据集。 本文将帮助您建立基线并设置数据驱动的框架来衡量您的数字化进度并利用最新的 Google 架构标记机会。

谷歌的数据集搜索被认为是谷歌推出的一种搜索引擎,旨在帮助学者找到他们可能需要的数据。 搜索营销人员正在更多地利用数据集。

数据集是否简化了数据智能和复杂的本体?

是的。 当支持信息(例如提供者的名称、描述、创建者和分发格式)使用结构化数据进行标记时,数据集更易于定位。 Google 通过 schema.org 和其他可以添加到描述数据集的 Web 内容中的元数据标准使数据集发现变得更加容易。

一旦谷歌建立了它的图书馆索引,它就会开始回答用户查询——并确定哪些结果最符合每个人的查询,无论是口语还是打字。

“用关系 SQL 查询语言或其扩展来表达对图结构本体的查询是极其困难的。 此外,语义查询通常并不精确,尤其是当数据及其相关本体很复杂时。”

用户甚至不需要知道本体表示。 所需要的只是用户给出一些满足他所想的查询的例子。 接下来, Google 的系统会自动找到查询的答案。 在这个过程中,语义这个通常很难表达的概念,在用户的脑海中仍然是一个概念,而不必用查询语言明确表达。 – Google 白皮书:语义查询示例 *****

这提供了一个机会。 任何构建自然语言处理的人都可以使用基于海量数据集的预训练模型。 从阅读理解到情感分析再到 BERT; 一个关键的研究趋势是 NLP 中迁移学习的兴起。

随着对数据消化需求的增加,搜索营销人员的角色演变变得更加复杂。 创建自己的数据集是一种积极的 SEO 形式,可以融入学术文献。 重新思考如何在更广泛的层面应用图像数据可能是一个起点。 这将有助于可扩展系统确定链接图和网络链接网络中的短路径。 在重新抓取和重新计算您网站的链接地图时,它可能会帮助 Google。

“在描述打包数据的集合时,例如在科学、学术或政府“开放数据”存储库中发布的数据,可以使用 Dataset 类型,与 DataCatalog 一起指示整个集合,并使用 DataDownload 来表示数据集的特定表示。 – 数据和数据集 – schema.org

添加数据集架构的步骤

  • 首先,阅读数据集文档标记以了解如何将其添加到您的域而不是单个 DCAT 文件。
  • 接下来,以 Google 首选的 JSON-LD 标记格式将结构化数据片段添加到您的集合中; 使用数据集类型的模式。
  • 使用 Google 结构化数据测试工具测试您的数据集实施。
  • 最后,在站点地图中提交您的网址,该站点地图告诉 Googlebot 开始抓取数据集页面。

注意:Google 确实接受带有 DCAT 格式的标记。 Google 的数据集架构旨在显示描述一些组织信息的结构化信息主体。 它可以在正文或头部插入 JSON 结构化数据。

使用 JSON-LD 代码和模式词汇的 Google 数据集

什么是谷歌数据集搜索引擎?

谷歌数据集搜索引擎是当用户使用谷歌试图找到可公开获取的在线数据时。 Google 数据集搜索旨在与公司用于学术研究、研究和报告的搜索引擎 Google Scholar 一起工作。

最近对 Google 数据集文档页面的更改更新了在 Google 搜索的丰富结果中向网站管理员、SEO 和发布商推出数据集结构化数据的方式。 它与我们使用 Schema.org 的常见方式不同,数据集模式可以是任意格式或表示聚合统计信息。

Aaron 解释说,谷歌在通知中用星号去掉了爪子图标,他说:“这表明数据集丰富结果的推出迫在眉睫。”

为什么要使用 Schema 标记数据集?

理想的客户体验常常让人难以捉摸。 绘制客户旅程图并整理成堆的数字数据字符串并不容易。 这不仅仅是为正确的客户提供正确的报价。 它从购买时间、数字渠道、过去报价的数据收集开始,有时甚至更多。 数据管理已经从战术性媒体购买思维转变为如何实施正确的战略洞察力,这些洞察力是建立品牌信任的企业客户体验的核心。

您的内容可以更好地理解、匹配和用于答案和解决方案。 数据集模式利用机器学习方法来处理关系数据库中的语义查询。 在语义查询处理中,最大的障碍是以关系形式提供准确的本体数据,以便关系数据库引擎能够以与操作数据一致的方式操作本体。

用模式标记的数据集更容易被其他人解释,也更容易让搜索引擎更好地理解数据。 这有助于他们将这种理解转化为数据的可视化插图。

谷歌表示数据集可用于以下情况:

  • 包含一些数据的表格或 CSV 文件
  • 有组织的表格集合
  • 包含数据的专有格式的文件
  • 一组文件共同构成了一些有意义的数据集
  • 具有其他格式数据的结构化对象,您可能希望将其加载到特殊工具中进行处理
  • 图像捕捉数据
  • 与机器学习相关的文件,例如训练参数或神经网络结构定义
  • 任何对你来说看起来像数据集的东西

我们发现了一些巨大的数据集。 最好保持简单。 谷歌建议“将所有文本属性限制在 5000 个字符以内。 Google 数据集搜索仅使用任何文本属性的前 5000 个字符。 名称和标题通常是几个词或一个简短的句子”。

如何使用安全、可靠的关系数据库实现数据现代化

关系数据库将数据收集并存储在表和列中,从而组织和强调数据之间的关系。 关系数据库适用于结构化和连接的数据。 Webopedia 将关系数据库定义为能够“设置为在数据的一个实例被编辑或更改时自动更新数据; 其他相关数据将实时更新。 人们经常交替使用关系数据库和关系数据库管理系统 (RDBMS)”。

这有助于企业使用现代架构构建数据解决方案,并实时获得业务智能洞察,以更好地满足用户意图。

表到文本模型从结构化数据中提取文本信息模式示例:JSON-LD 上下文数据集

以数据为导向,以人为本

获得用于字段级数据提取的顺序机制有助于执行最终分类或回归任务,评估您的总体输入特征,将它们映射到替代数据类型。

谷歌数据集报告可以帮助您更好地思考匹配搜索意图。 搜索在线数据库以查找您需要的内容或聘请数据科学家。 数据集丰富的结果对于快速研发工作流程非常有用,有助于将原始数据编码简化为有意义的见解。 它们有助于为您的数据创建结构化方法。 企业可以通过简化决策流程和更快地获得更高绩效的结果而受益。

“快速研发进展的主要推动力之一是规范神经网络架构的可用性,可以有效地将原始数据编码为有意义的表示。 这些规范的架构与简单的决策层集成,通常只需少量的额外调整工作即可在新数据集和相关任务上产生高性能。” – Google Cloud AI 上的细心可解释表格学习

Google 数据集搜索测试版有哪些变化? 谷歌数据集搜索引擎的工作原理

以前,谷歌文档指出:“数据集标记在发布到普遍可用之前可供您试验”,并警告说,虽然您可以使用结构化数据测试工具进行验证,但您“不会,但是,请查看您的数据集出现在搜索中。” 对于那些等待此功能推出的人,将数据集结构化数据添加到您的网站可以帮助衡量移动挑战和属性规范。 谷歌数据集搜索支持谷歌学术,这家科技公司的学术研究和基于事实的报告的搜索引擎。

2020 年 1 月 23 日,Google 的 Natasha Noy 表示:“Dataset Search 已为其中近 2500 万个数据集编制索引,让您可以在一个地方搜索数据集并找到指向数据所在位置的链接。 在过去的一年里,人们已经尝试过并提供了反馈,现在 Dataset Search 正式退出测试版。”

在网络上发现数百万个数据集一文告诉我们,世界上大多数政府都会发布他们的数据并使用 schema.org 对其进行标记。 “美国在可用的开放政府数据集数量上领先,超过 200 万。”

这意味着市场研究人员比我们的数字历史上任何时候都可以更好地访问数据。

数据集可以管理您网站的所有内容

一旦收集干净和有用的数据,即使需要大量时间,它也可以支持和帮助管理您网站上的所有内容。

您可以学习如何使用具有更真实数据集的不同机器学习任务来获得更真实的信息。 对于您的每个业务 KPI,Hill Web Marketing 可以帮助您了解哪些指标很重要,如何使用架构将它们与您的行业目标保持一致,并规划如何获得改进的绩效。

Google AI 的研究科学家 Natasha Noy 于 2018 年 9 月 5 日发表了让发现数据集变得更容易,并指出“数据集搜索支持多种语言,即将支持其他语言”。**** 显然,这是网络的发展方向; 实施基本类型的 Schema 标记将帮助您找到业务。

使用数据集有助于确保产品收入流

谷歌数据集搜索是如何工作的?

当您提供包含名称、描述、创建者和分发格式等结构化数据的信息时,可以轻松发现数据集。 Google 正在增强数据集发现能力,并利用 schema.org 和其他可合并到描述数据集的网页中的数据格式。 此架构可以支持您出现在产品轮播搜索结果中的机会。

您的企业未来的成功取决于推动您的组织实现持续收入流所需的洞察力。 关于您的产品的信息需要激发潜在买家足够的信心,以采取必要的行动来达成交易。 您对公司知识图中显示的内容有一定程度的控制。 “风险很高,国际数据公司估计,到 2020 年,全球对 D&A 的商业投资将超过每年 2000 亿美元”,据《哈佛商业评论》报道。

“一个强大、成功的 D&A(数据和分析)功能不仅包含一堆技术,也不仅仅包含隔离在大楼一层的几个人。 D&A 应该是组织的脉搏,并纳入销售、营销、供应链、客户体验和其他核心职能的所有关键决策中。” - 哈佛商业评论

产品图片可以是 Google 图片数据集的一部分! 在某些数据集中,每张图像平均有 8.4 个对象。 这是一个经常更新的数据集列表。

Google 的文档页面包含一个用于实现 schema.org/Dataset 的 JSON-LD 示例。 由于管状数据集处于测试阶段,将出现数据集描述和使用的最佳实践。 随着代码要求的变化,进行技术 SEO 审核以找到需要更新的地方。

如何将产品和图像数据集上传到 Google BigQuery?

Google BigQuery (GBQ) 允许搜索营销人员从不同来源收集数据。 我们建议使用 Google Merchant Center、Cloud Storage、BigQuery,或者您可以在发出请求时指定内联数据。 在您上传任何数据之前,首先在 Google BigQuery 中创建一个数据集和表,其中包含您的产品信息,包括图片详细信息。 ***

我们更喜欢使用 Product item JSON-LD 数据格式。 这是一个完整对象的示例:

 {
  "name": "projects/[PROJECT_NUMBER]/locations/global/catalogs/default_catalog/branches/0/products/1234",
  "id": "1234",
  "categories": "Apparel & Accessories > Shoes",
  "title": "ABC sneakers",
  "description": "Sneakers for the rest of us",
  "attributes": { "vendor": {"text": ["vendor123", "vendor456"]} },
  "language_code": "en",
  "tags": [ "black-friday" ],
  "priceInfo": {"currencyCode": "USD", "price":100, "originalPrice":200, "cost": 50},
  "availableTime": "2020-01-01T03:33:33.000001Z",
  "availableQuantity": "1",
  "uri":"http://foobar",
  "images": [{"uri": "http://foobar/img1", "height": 320, "width": 320 }]
}

使您的产品目录保持最新。 谷歌关心质量,它的人工智能需要高质量的数据才能做出高质量的预测。 注意不再出售的产品,并在您网站的电子商务产品架构标记中更新数据。

“表格数据集是主要根据行和列的网格组织的数据集。 对于嵌入表格数据集的页面,您还可以在上述基本方法的基础上创建更明确的标记。 目前,我们了解 CSVW(“Web 上的 CSV”,参见 W3C)的一个变体,它与 HTML 页面上面向用户的表格内容并行提供。”,它声明截至 2019 年 9 月 30 日。

如果为 Dataset、DataCatalog 或 DataDownload 列出的属性发生变化,请继续关注 Google 文档页面以获取更新。 当前文件更新了组织方面; 属性规范现在合并到每个属性所属的类型下(以前它们是按主题组织的)。 这些新属性是增强网站属性的一种方式。

如何从图像创建数据集以进行对象分类。

在 IBM 集群管理控制台中,选择 (1) 工作负载、(2) Spark,然后选择 (3) 深度学习。 **

* 单击“数据集”选项卡。

* 选择“新建”。

* 从“用于对象分类的图像”创建数据集。

* 输入数据集名称。

* 指明您想要的 Spark 实例组。

* 指定您喜欢的图像存储格式(我们更喜欢 TensorFlow 的 TFRecords)。

* 如果选择了 TFRecords,请导航到如何按分片或类生成记录。 如果选择了分片,请输入分片号。

* 指定如何选择训练图像。

通过遵守 Google 图片指南和 AMP 图片要求,您的产品更有可能出现在与产品相关的特色片段中。

数据集结构化数据属性

确实,此时所需的属性很少。 为了鼓励使用它,这家技术巨头在为机器数据消费者提供内容时可能会采取“保持简单”的策略。 最终目标是在其数据库中拥有更多更好的匹配项,以满足用户的搜索意图。

所需属性:

  • 姓名
  • 描述

推荐属性:

  • 替代名称
  • 创造者
  • 引文
  • 标识符
  • 关键词
  • 执照
  • 与...一样
  • 空间覆盖
  • 时间覆盖
  • 变量测量
  • 版本
  • 网址

您可能尚未在网络上发布数据集,但搜索营销正在迅速转向更多的数据科学搜索方法。 随着个人和人们可以访问越来越多的数据集,数据集搜索将会增加。 令人惊讶的是,任何发布数据的人都可以使用 schema.org 的描述信息的开放标准来描述他们的数据集。

在 Search Console 索引报告中测试您的数据时,请通读“已知错误和警告”部分、“Google 结构化数据测试工具中的错误或警告”以及结构化数据 Linter 验证系统。 聘请架构数据实施专家或使用表格来帮助筛选出您可以安全地放过哪些警告。

由于这涉及到 Web 内容的解析——无论它是否已经包含结构化数据——最好以最高比例的数据消费者(最重要的是搜索引擎)理解的格式提供数据。

数据集为构建知识图谱提供了路线图

查找数据集并利用来自开放数据源和 https schema.org 的学术搜索。

研究人员重视对揭示市场动态的全球数据科学和机器学习解决方案的精确分析。 寻求衡量可持续营销趋势的搜索营销人员依靠大数据来支持未来的市场增长。 谷歌数据集搜索完成测试版后,它可能具有进行数据研究的新功能,可以减少企业当前面临的风险和挑战。 对数据中的细节进行广泛研究可以改进您的销售方法。

我们继续寻求构建客户知识图谱的实用方法,并有机会将它们用于业务应用程序。 试试你的手。

在您的站点上使用数据集架构后,您将在 GSC 中的增强功能下找到一个新报告。 我们使用它们来改进我们针对来自多种设备的用户的移动内容营销策略。

数据集功能和新的 Google 增强报告

与其他结构化数据实现的情况一样,仅仅因为您合并了模式结构化数据,您就有资格。 但是,它不保证会出现在 Google 搜索中。 优先使用支持销售和零售登陆页面的数据集。

在发布结构化数据功能的同时,Google Search Console 中出现了新的数据集增强报告。 这会告知搜索营销策略师 Google 是否已经学习并识别了您的数据集架构的结构化数据。 了解数据集结构化数据文档规范后,通读并修复任何结构化数据错误。 它将提供您的 Google 助理数据。

很少有企业主或内容创建者有空闲时间考虑您的元数据格式是否正确。 然而,它必须允许 GoogleBot 抓取您的网站、查找您的数据并将其编入索引。 幸运的是,我们喜欢它并且在您的角落。

数据集构建权限

构建权限与数据集相关。 当用户被授予构建权限时,他们可以在现有数据集上构建新内容。 这对于报告、仪表板、来自 QandA 的固定磁贴和 Insights Discovery 很常见。 他们还可以在 Power BI 之外的数据集上构建新的数据条目,通常是通过在 Excel、XMLA 中分析的 Excel 工作表,并导出基础数据。 它可以帮助企业进行客户分析。

与深度学习一样新颖而全面,谷歌和其他搜索引擎仍然面临着在生产中部署的机器学习管道环境中出现的数据管理挑战。 理解语义搜索查询的新努力旨在支持理解、验证、清理和丰富训练数据。 由此,可信数据库源的增长有望扩大,并更有助于推动商店流量。

数字营销受到对数据的需求以及将其用作科学方法的约束。

“像这样的搜索工具仅与数据发布者愿意提供的元数据一样好。 我们希望看到你们中的许多人使用开放标准来描述您的数据,使我们的用户能够找到他们正在寻找的数据。 如果您发布数据但未在结果中看到它,请访问我们在开发人员网站上的说明,其中还包含一个用于提问和提供反馈的链接。” - 谷歌 *

“我们可以使用 http://schema.org 数据集标记或以 W3C 的数据目录词汇 (DCAT) 格式表示的等效结构来理解网页中有关数据集的结构化数据。” ——艾伦·莫里森在推特上的评论

Google 数据集架构摘要

使用数据集来满足站点用户的需求更侧重于用户体验并添加回答和通知的实体。 虽然它可能起源于数据科学社区,但任何企业都可以使用它。 我们还建议向在数据集的结构化数据标记方面经验丰富的高级专家寻求同行评审意见。

Hill Web Marketing 渴望参与这项计划,并希望它能鼓励我们的读者扩展当前可用的数据集数量。 虽然它可能起源于数据科学社区,但任何企业都可以使用它。

请致电数字营销策略师 Hill Web Marketing 的所有者珍妮·希尔 (Jeannie Hill) 合作伙伴:651-206-2410。 安排您的咨询以获得竞争优势

* https://arxiv.org/pdf/1908.07442.pdf

** https://www.ibm.com/support/knowledgecenter/SSWQ2D_1.1.0/us/create-dataset-image-object-classification.html

*** https://cloud.google.com/retail/recommendations-ai/docs/upload-catalog

**** https://www.blog.google/products/search/making-it-easier-discover-datasets/

***** https://storage.googleapis.com/pub-tools-public-publication-data/pdf/40761.pdf