Как использовать Google Dataset Search для схемы набора данных

Опубликовано: 2019-10-01

Поиск набора данных Google: как использовать схему набора данных для запросов

Обновлено 12.06.2021

С увеличением количества цифровых данных стратеги поискового маркетинга сталкиваются с растущей потребностью разобраться в данных.

Многие передовые приложения баз данных начинают поддерживать поиск в базе данных Google. Кроме того, в сентябре 2019 года SEO-специалисты добавили новые отчеты в консоль поиска Google, чтобы лучше понимать свои данные. Многого можно добиться, включив знания предметной области, закодированные в виде онтологий, в запросы к реляционным данным. Когда так много говорится о SEO, поисковым маркетологам становится сложнее отделить факты от вымысла, вред от полезной тактики SEO и проверенную истину, чем просто болтовню.

Полагаться в основном на прошлый опыт поискового маркетинга и интуицию — это хорошо, но слишком часто неправильно. Решения, основанные на данных, неизменно оказываются лучше, чем «так мне подсказывает моя интуиция». Многие инструменты анализа данных, такие как Google Analytics, предоставляют фактические подтверждающие доказательства, но теперь найти общедоступные наборы данных Google Cloud стало проще, чем когда-либо.

Что такое поиск наборов данных Google?

Вкратце можно сказать, что Google Data Search зависит от поставщиков наборов данных, крупных или мелких, которые добавляют структурированные метаданные на свои веб-сайты с использованием открытого стандарта schema.org/Dataset. Поиск наборов данных Google позволяет пользователям находить наборы данных, хранящиеся в Интернете, с помощью поиска по определенным поисковым фразам. По словам Google, этот инструмент отображает информацию о наборах данных, размещенных в тысячах репозиториев в Интернете, что делает эти наборы данных общедоступными и полезными.

Получая доступ к общедоступным наборам данных с высоким спросом, которые относятся к нише вашего бизнеса, вы можете раскрыть новые идеи потребителей из облачных данных. Анализируя дополнительные наборы данных, размещенные в BigQuery и облачном хранилище, легче ощутить всю ценность Google Cloud .

Журналисты данных уже знакомы с получением государственных данных и наборов данных для социальных наук. Эта статья поможет вам установить базовый уровень и настроить структуру, основанную на данных, для измерения вашего цифрового прогресса и использования новейших возможностей микроразметки Google.

Поиск наборов данных Google признан типом поисковой системы, которая была запущена Google с целью помочь ученым найти данные, которые им могут понадобиться. Поисковые маркетологи все больше начинают использовать наборы данных.

Упрощают ли наборы данных анализ данных и сложную онтологию?

да. Наборы данных легче найти, если вспомогательная информация, такая как имя поставщика, описание, создатель и форматы распространения, размечена структурированными данными. Google упрощает обнаружение наборов данных с помощью schema.org и других стандартов метаданных, которые можно добавлять к веб-контенту, отображающему наборы данных.

После того, как Google создал свой библиотечный индекс, он начинает отвечать на запросы пользователей и определять, какие результаты лучше всего соответствуют запросу каждого человека, произнесенному или напечатанному.

«Чрезвычайно сложно выразить запросы к онтологии со структурой графа на реляционном языке запросов SQL или его расширениях. Более того, семантические запросы обычно неточны, особенно когда данные и связанные с ними онтологии сложны».

Пользователям даже не нужно знать представление онтологий. Все, что требуется, — это чтобы пользователь привел несколько примеров, удовлетворяющих заданному им запросу. Далее система Google автоматически находит ответ на запрос . В этом процессе семантика, которую обычно трудно выразить, остается концепцией в сознании пользователя, и ее не нужно явно выражать на языке запросов. – Google Whitepaper: семантические запросы на примерах *****

Это дает возможность. Предварительно обученные модели на массивных наборах данных доступны всем, кто занимается обработкой естественного языка. От понимания прочитанного до анализа настроений и BERT; ключевой тенденцией исследования является рост трансферного обучения в НЛП.

Эволюция роли поискового маркетолога стала более сложной из-за растущей потребности в обработке данных. Создание собственного набора данных — это форма положительного SEO, которая может опираться на научную литературу. Переосмысление того, как вы можете применять данные изображения на более широком уровне, может быть отправной точкой. Это поможет масштабируемым системам определять короткие пути в графе ссылок и сети веб-ссылок. Вероятно, это поможет Google при повторном сканировании и пересчете карты ссылок вашего сайта.

«При описании коллекций упакованных данных, например, опубликованных в научных, академических или государственных репозиториях «открытых данных», можно использовать тип Dataset вместе с DataCatalog для обозначения всей коллекции и DataDownload для конкретных представлений набора данных». – Данные и наборы данных – schema.org

Шаги по добавлению схемы набора данных

  • Во-первых, прочитайте разметку документации набора данных, чтобы узнать, как добавить его в свой домен, а не один файл DCAT.
  • Затем добавьте в свою коллекцию фрагментов структурированных данных в предпочитаемом Google формате разметки JSON-LD; используйте тип схемы набора данных.
  • Протестируйте внедрение набора данных с помощью Google Structured Data Testing Tool.
  • Наконец, отправьте свои URL-адреса в карту сайта, которая сообщает роботу Googlebot начать сканирование страниц набора данных.

ПРИМЕЧАНИЕ. Google принимает разметку с форматированием DCAT. Схема набора данных Google предназначена для отображения массива структурированной информации, описывающей некоторую организованную информацию. Он работает либо для вставки структурированных данных JSON либо в тело, либо в заголовок.

Наборы данных Google с использованием кода JSON-LD и словаря схемы

Что такое поисковая система набора данных Google?

Поисковая система набора данных Google — это когда пользователь обращается к Google, чтобы попытаться найти онлайн-данные, которые общедоступны для источника. Google Dataset Search предназначен для совместной работы с Google Scholar, поисковой системой корпораций для академических исследований, исследований и отчетов.

Недавние изменения на странице документации наборов данных Google обновляют способ развертывания структурированных данных наборов данных для веб-мастеров, SEO-специалистов и издателей в расширенных результатах поиска Google. Это отличается от обычного способа, которым мы используем Schema.org, схема набора данных может быть в произвольном формате или представлять совокупную статистику.

Аарон объясняет, что Google удалил значок лапы в уведомлении со звездочкой, что, по его словам, «предполагает, что развертывание расширенных результатов набора данных неизбежно».

Почему вы должны размечать свои наборы данных с помощью схемы?

Идеальный клиентский опыт часто может казаться недостижимым. Нелегко отобразить путь клиента и отсортировать множество строк цифровых данных. Нужно нечто большее, чем просто правильное предложение для нужного клиента. Это начинается со времени покупки, цифрового канала, сбора данных из прошлых предложений, а иногда даже больше. Управление данными перешло от тактического мышления при покупке рекламы к тому, как реализовать правильные стратегические идеи, лежащие в основе взаимодействия с корпоративными клиентами, которые укрепляют доверие к бренду.

Ваш контент можно лучше понять, сопоставить и использовать для ответов и решений. Схема набора данных использует подход машинного обучения для обработки семантических запросов в реляционных базах данных. При семантической обработке запросов самым большим препятствием является предоставление точных онтологических данных в реляционной форме, чтобы ядро ​​реляционной базы данных могло манипулировать онтологией так, чтобы это соответствовало манипулированию данными.

Наборы данных, размеченные схемой, легче интерпретировать другим, а также поисковым системам лучше понимать данные. Это помогает им воплотить это понимание в визуальные иллюстрации ваших данных.

Google говорит, что наборы данных можно использовать в следующих случаях:

  • Таблица или файл CSV с некоторыми данными
  • Организованная коллекция столов
  • Файл в проприетарном формате, содержащий данные
  • Набор файлов, которые вместе составляют некоторый значимый набор данных.
  • Структурированный объект с данными в каком-то другом формате, который вы, возможно, захотите загрузить в специальный инструмент для обработки
  • Изображения захвата данных
  • Файлы, относящиеся к машинному обучению, такие как параметры обучения или определения структуры нейронной сети.
  • Все, что для вас похоже на набор данных

Мы нашли несколько огромных наборов данных. Лучше всего держать его простым. Google рекомендует «ограничить все текстовые свойства до 5000 символов или меньше. Поиск набора данных Google использует только первые 5000 символов любого текстового свойства. Имена и титулы обычно состоят из нескольких слов или коротких предложений».

Как модернизировать ваши данные с помощью безопасных и надежных реляционных баз данных

Реляционная база данных собирает и хранит данные в таблицах и столбцах, которые организуют и подчеркивают отношения между данными. Реляционные базы данных предназначены для структурированных и связанных данных. Webopedia определяет реляционные базы данных как способные «устанавливать автоматическое обновление данных, если один из их экземпляров редактируется или изменяется; другие связанные данные будут получать обновления в режиме реального времени. Люди часто используют реляционные базы данных и системы управления реляционными базами данных (RDBMS) взаимозаменяемо».

Это помогает компаниям создавать решения для данных с современной архитектурой и получать бизнес-информацию в режиме реального времени, чтобы лучше соответствовать намерениям пользователей.

Модели преобразования таблицы в текст извлекают текстовую информацию из структурированных данных. Пример схемы: набор контекстных данных JSON-LD

Будьте ориентированы на данные и ориентированы на людей

Получение последовательного механизма для извлечения данных на уровне поля помогает выполнить окончательную задачу классификации или регрессии, оценивая ваши всеобъемлющие входные функции, а не сопоставляя их с альтернативным типом данных.

Отчеты о наборах данных Google могут помочь вашим знаниям улучшить ваше мышление в отношении соответствия поисковому намерению. Выполните поиск в онлайн-библиотеке данных, чтобы найти то, что вам нужно, или наймите специалиста по обработке и анализу данных. Расширенные результаты наборов данных полезны для быстрых рабочих процессов исследований и разработок, которые помогают упростить преобразование необработанных данных в значимые идеи. Они помогают создать структурированный подход к вашим данным. Компании выигрывают от оптимизации процессов принятия решений и более быстрого достижения более высоких результатов.

«Одним из основных факторов, способствующих быстрому развитию исследований и разработок, является доступность канонических архитектур нейронных сетей для эффективного кодирования необработанных данных в осмысленные представления. Эти канонические архитектуры, интегрированные с простыми уровнями принятия решений, обычно обеспечивают высокую производительность при работе с новыми наборами данных и связанными задачами с небольшими дополнительными усилиями по настройке». – Внимательное интерпретируемое табличное обучение в Google Cloud AI

Что изменилось в бета-версии Google Dataset Search? Как работает поисковая система по набору данных Google

Ранее в документах Google указывалось, что: «Вы можете поэкспериментировать с разметкой набора данных, прежде чем он станет общедоступным», и предупреждалось, что, хотя вы можете использовать инструмент проверки структурированных данных для проверки, вы «не , но посмотрите, как ваши наборы данных появляются в Поиске». Для тех, кто ждал этого, добавление структурированных данных набора данных на ваш сайт может помочь измерить мобильные проблемы и характеристики недвижимости. Google Dataset Search поддерживает Google Scholar, поисковую систему технической компании для академических исследований и отчетов, основанных на фактах.

23 января 2020 года Наташа Ной из Google заявила, что «Поиск наборов данных проиндексировал почти 25 миллионов этих наборов данных, предоставив вам единое место для поиска наборов данных и ссылок на то, где находятся данные. За последний год люди опробовали его и оставили отзывы, и теперь поиск наборов данных официально вышел из бета-версии».

Статья «Обнаружение миллионов наборов данных в Интернете» сообщает нам, что большинство правительств в мире публикуют свои данные и размечают их с помощью schema.org. «Соединенные Штаты лидируют по количеству доступных наборов открытых государственных данных, их более 2 миллионов».

Это означает, что исследователи рынка имеют лучший доступ к данным, чем когда-либо в нашей цифровой истории.

Наборы данных могут управлять всем содержимым вашего сайта

Как только сбор чистых и полезных данных происходит, даже если это требует много времени, он может поддерживать и помогать управлять всем этим контентом на вашем сайте.

Вы можете узнать, как получать больше фактической информации, используя различные задачи машинного обучения с более реалистичными наборами данных. Для каждого из ключевых показателей эффективности вашего бизнеса Hill Web Marketing может помочь вам понять, какие показатели важны, как использовать схему, чтобы привести их в соответствие с вашими отраслевыми целями, и составить схему того, как повысить производительность.

Наташа Ной, научный сотрудник Google AI, опубликовала статью «Облегчение поиска наборов данных » 5 сентября 2018 г., в которой говорится: «Поиск наборов данных работает на нескольких языках, поддержка дополнительных языков появится в ближайшее время».**** Очевидно, это направление, в котором движется сеть; внедрение основных типов разметки Schema поможет найти ваш бизнес.

Использование наборов данных помогает обеспечить потоки доходов от продукта

Как работает поиск по набору данных Google?

Наборы данных можно легко обнаружить, если вы предоставляете информацию, которая включает в себя что-то вроде их имени, описания, создателя и форматов распространения в виде структурированных данных. Google расширяет возможности обнаружения наборов данных и использует schema.org и другие форматы данных, которые могут быть включены в веб-страницы, описывающие наборы данных. Эта схема может повысить ваши шансы оказаться в результатах поиска карусели товаров.

Будущий успех вашего бизнеса зависит от понимания, необходимого для того, чтобы ваша организация достигла устойчивых потоков доходов. Сообщения о ваших продуктах должны внушать потенциальному покупателю достаточно доверия, чтобы он мог предпринять действия, необходимые для заключения сделки. У вас есть определенный уровень контроля над тем, что отображается на графике знаний вашей компании. «Ставки высоки: по оценкам International Data Corporation, к 2020 году глобальные бизнес-инвестиции в D&A превысят 200 миллиардов долларов в год», — сообщает Harvard Business Review.

«Надежная и успешная функция D&A (данные и аналитика) включает в себя больше, чем стек технологий или несколько человек, изолированных на одном этаже здания. D & A должен быть пульсом организации, включенным во все ключевые решения в области продаж, маркетинга, цепочки поставок, обслуживания клиентов и других основных функций». - Гарвардский бизнес-обзор

Изображения продуктов могут быть частью набора данных изображений Google! В некоторых наборах данных в среднем 8,4 объекта на изображение. Вот список наборов данных, который часто обновляется.

Страница документации Google содержит пример JSON-LD для реализации schema.org/Dataset. Поскольку трубчатый набор данных находится в стадии бета-тестирования, появятся передовые методы описания и использования набора данных. По мере изменения требований к коду проведите технический SEO-аудит, чтобы определить, где необходимы обновления.

Как загрузить наборы данных о товарах и изображениях в Google BigQuery?

Google BigQuery (GBQ) позволяет поисковым маркетологам собирать данные из разных источников. Мы рекомендуем использовать Google Merchant Center, Cloud Storage, BigQuery, или вы можете указать данные inline при создании запроса. Прежде чем загружать какие-либо данные, сначала создайте набор данных и таблицу в Google BigQuery, содержащую информацию о вашем продукте, включая сведения об изображении. ***

Мы предпочитаем использовать формат данных элемента продукта JSON-LD. Вот пример полного объекта:

 {
  "name": "projects/[PROJECT_NUMBER]/locations/global/catalogs/default_catalog/branches/0/products/1234",
  "id": "1234",
  "categories": "Apparel & Accessories > Shoes",
  "title": "ABC sneakers",
  "description": "Sneakers for the rest of us",
  "attributes": { "vendor": {"text": ["vendor123", "vendor456"]} },
  "language_code": "en",
  "tags": [ "black-friday" ],
  "priceInfo": {"currencyCode": "USD", "price":100, "originalPrice":200, "cost": 50},
  "availableTime": "2020-01-01T03:33:33.000001Z",
  "availableQuantity": "1",
  "uri":"http://foobar",
  "images": [{"uri": "http://foobar/img1", "height": 320, "width": 320 }]
}

Поддерживайте актуальность каталога товаров. Google заботится о качестве, и его искусственный интеллект требует высококачественных данных, чтобы делать качественные прогнозы. Следите за продуктами, которые больше не продаются, и обновляйте данные в разметке схемы продукта электронной коммерции вашего сайта.

«Табличный набор данных организован в основном в виде сетки строк и столбцов. Для страниц со встроенными табличными наборами данных вы также можете создать более явную разметку, основываясь на базовом подходе, описанном выше. В настоящее время мы понимаем вариант CSVW («CSV в Интернете», см. W3C), предоставляемый параллельно с ориентированным на пользователя табличным содержимым на HTML-странице», — говорится в нем по состоянию на 30 сентября 2019 года.

Следите за обновлениями на странице документации Google в случае изменения свойств, перечисленных для Dataset, DataCatalog или DataDownload. Текущая документация обновила организационный аспект; спецификации свойств теперь объединены в соответствии с типом, к которому они принадлежат (ранее они были организованы тематически). Эти новые свойства — один из способов улучшить атрибуты вашего веб-сайта.

Как создать набор данных из изображений для классификации объектов.

В консоли управления кластером IBM выберите (1) Workload, (2) Spark, а затем (3) Deep Learning. **

* Нажмите на вкладку «Наборы данных».

* Выберите «Новый».

* Создайте набор данных из «Изображений для классификации объектов».

* Введите имя набора данных.

* Укажите, какую группу экземпляров Spark вы хотите.

* Укажите предпочтительный формат хранения изображений (мы предпочитаем TFRecords для TensorFlow).

* Если был выбран TFRecords, перейдите к тому, как создавать записи по сегментам или классам. Если сегмент выбран, введите номер сегмента.

* Укажите, как выбираются тренировочные изображения.

Соблюдая рекомендации Google по изображениям и требования к изображениям AMP, ваши продукты имеют больше шансов появиться в избранных фрагментах, связанных с продуктом.

Свойства структурированных данных набора данных

Действительно, в настоящее время есть несколько необходимых свойств. Чтобы поощрить его использование, технологический гигант может использовать стратегию «будь проще», когда дело доходит до предоставления контента, предназначенного для потребителей машинных данных. Конечная цель состоит в том, чтобы иметь в своей библиотеке данных больше и больше совпадений, чтобы удовлетворить поисковые запросы пользователей.

Требуемые свойства:

  • имя
  • описание

Рекомендуемые свойства:

  • альтернативное имя
  • создатель
  • цитата
  • идентификатор
  • ключевые слова
  • лицензия
  • такой же как
  • пространственное покрытие
  • временное покрытие
  • переменнаяИзмеренный
  • версия
  • URL

Возможно, у вас еще нет опубликованного набора данных в Интернете, но поисковый маркетинг быстро движется к более научному подходу к поиску. По мере того, как отдельные лица и люди делают доступными все больше и больше наборов данных, поиск наборов данных будет расширяться. Что удивительно, так это то, что любой , кто публикует данные, может описать свой набор данных, используя открытый стандарт schema.org для описания информации.

При тестировании своих данных в отчете Search Console Index Report прочтите раздел «Известные ошибки и предупреждения», «ошибки или предупреждения в инструменте тестирования структурированных данных Google» и в системе проверки структурированных данных Linter. Наймите эксперта по внедрению данных схемы или воспользуйтесь формами, чтобы определить, какие предупреждения можно безопасно оставить в покое.

Поскольку это относится к анализу веб-контента — независимо от того, содержит ли он уже структурированные данные — лучше всего сделать данные доступными в формате, понятном наибольшему проценту потребителей данных (прежде всего, поисковым системам).

Наборы данных предоставляют дорожную карту для построения графиков знаний

Находите наборы данных и используйте академический поиск из открытых источников данных и https schema.org.

Исследователи ценят ясность в точном анализе глобальных данных и решений для машинного обучения, которые раскрывают динамику рынка. Поисковые маркетологи, стремящиеся измерить тенденции устойчивого маркетинга, полагаются на большие данные для поддержки будущего роста рынка. Когда Google Dataset Search выйдет из бета-версии, у него могут появиться новые возможности для проведения исследований данных, которые могут снизить текущие риски и проблемы, с которыми сталкиваются предприятия. Обширное исследование деталей в ваших данных может улучшить ваши подходы к продажам.

Мы продолжаем искать практические подходы для построения графиков знаний клиентов и возможности их использования для бизнес-приложений. Попробуйте свои силы в этом.

После того, как вы использовали схему набора данных на своем сайте, вы найдете новый отчет в GSC в разделе «Улучшения». Мы используем их для улучшения нашей стратегии маркетинга мобильного контента для пользователей, приходящих с разных устройств.

Функции набора данных и новый отчет Google Enhancement Report

Как и в случае с другими реализациями структурированных данных, только потому, что вы внедрили структурированные данные схемы, вы получаете право на . Однако это не гарантирует появления в поиске Google. Расставьте приоритеты в использовании наборов данных, которые поддерживают продажи и ваши розничные целевые страницы.

Одновременно с анонсом функции структурированных данных появился новый отчет об улучшении набора данных в Google Search Console. Это информирует специалистов по поисковому маркетингу о том, узнал ли Google ваши структурированные данные для вашей схемы набора данных или нет. Прочтите и исправьте все ошибки структурированных данных, как только вы поймете спецификации документации по структурированным данным набора данных. Он будет передавать данные вашего Google Assistant.

Немногие владельцы бизнеса или создатели контента имеют свободное время, чтобы подумать о том, правильно ли отформатированы ваши метаданные. Однако это должно быть сделано для того, чтобы робот GoogleBot мог сканировать ваш сайт, находить ваши данные и индексировать их. К счастью, нам это нравится, и мы в вашем углу.

Разрешения на сборку набора данных

Разрешение на сборку актуально для наборов данных. Когда пользователям предоставляется разрешение на сборку, они могут создавать новый контент на основе существующего набора данных. Это характерно для отчетов, информационных панелей, закрепленных плиток из QandA и Insights Discovery. Они также могут создавать новые записи данных в наборе данных вне Power BI, как правило, листы Excel с помощью анализа в Excel, XMLA и экспортировать базовые данные. Это помогает компаниям проводить анализ клиентов.

Каким бы новым и всеобъемлющим ни было глубокое обучение, Google и другие поисковые системы по-прежнему сталкиваются с проблемами управления данными, которые возникают в контексте конвейеров машинного обучения, развернутых в производственной среде. Новые усилия по пониманию семантических поисковых запросов предназначены для поддержки понимания, проверки, очистки и обогащения обучающих данных. Исходя из этого, мы надеемся, что рост надежных источников базы данных будет расширяться и будет более полезен для увеличения трафика магазина.

Цифровой маркетинг связан потребностью в данных и их использовании в качестве научного подхода.

«Инструмент поиска, подобный этому, хорош настолько, насколько хороши метаданные, которые готовы предоставить издатели данных. Мы надеемся, что многие из вас будут использовать открытые стандарты для описания своих данных, что позволит нашим пользователям находить данные, которые они ищут. Если вы публикуете данные и не видите их в результатах, посетите наши инструкции на нашем сайте для разработчиков, которые также содержат ссылку, чтобы задать вопросы и оставить отзыв». - Google *

«Мы можем понимать структурированные данные на веб-страницах о наборах данных, используя либо разметку набора данных http://schema.org, либо эквивалентные структуры, представленные в формате словаря каталога данных W3C (DCAT)». — комментарий Алана Моррисона в Twitter.

Сводка схемы набора данных Google

Использование наборов данных для удовлетворения потребностей пользователей сайта больше ориентировано на взаимодействие с пользователем и добавление объектов, которые отвечают и информируют. Хотя он, возможно, возник в сообществе специалистов по данным, любой бизнес может его использовать. Мы также рекомендуем обратиться за рецензируемой информацией к экспертам высокого уровня, имеющим опыт разметки структурированных данных для наборов данных.

Hill Web Marketing стремится принять участие в этой инициативе и надеется, что она побудит наших читателей увеличить количество доступных в настоящее время наборов данных. Хотя он, возможно, возник в сообществе специалистов по данным, любой бизнес может его использовать.

Позвоните Джинни Хилл, владелице Hill Web Marketing, специалисту по стратегии цифрового маркетинга, по телефону: 651-206-2410. Запланируйте консультацию, чтобы получить конкурентное преимущество

* https://arxiv.org/pdf/1908.07442.pdf

** https://www.ibm.com/support/knowledgecenter/SSWQ2D_1.1.0/us/create-dataset-image-object-classification.html

*** https://cloud.google.com/retail/recommendations-ai/docs/upload-catalog

**** https://www.blog.google/products/search/making-it-easier-discover-datasets/

***** https://storage.googleapis.com/pub-tools-public-publication-data/pdf/40761.pdf