엔티티 속성 관계 식별

게시 됨: 2022-03-02

2022년 3월 1일에 부여된 이 특허는 본문에서 엔터티-속성 관계를 식별하는 것에 관한 것입니다.

검색 엔진 및 지식 기반과 같은 검색 응용 프로그램은 검색자의 정보 요구를 충족시키고 검색자에게 가장 유리한 리소스를 표시하려고 합니다 .

구조화된 데이터는 속성 관계를 더 잘 식별하는 데 도움이 될 수 있습니다.

속성 엔터티 관계 식별은 구조화된 검색 결과에서 수행됩니다.

구조화된 검색 결과 는 쿼리와 같은 사용자 요청에 지정된 엔터티에 대한 답변과 함께 속성 목록을 표시합니다 .

따라서 "Kevin Durant"에 대한 구조화된 검색 결과에는 급여, 팀, 출생 연도, 가족 등과 같은 속성과 이러한 속성에 대한 정보를 제공하는 답변이 포함될 수 있습니다 .

이러한 구조화된 검색 결과를 구성하려면 엔터티-속성 관계를 식별해야 할 수 있습니다.

엔터티-속성 관계는 용어 쌍 간의 텍스트 관계의 특정 경우입니다.

용어 쌍의 첫 번째 용어는 엔터티, 사람, 장소, 조직 또는 개념입니다.

두 번째 용어는 엔터티의 측면을 설명하는 속성 또는 문자열입니다.

예는 다음과 같습니다.

사람의 "생년월일"
국가의 "인구"
선수의 "급여"
조직의 "CEO"

엔터티에 대한 콘텐츠 및 스키마(및 구조화된 데이터)에 더 많은 정보를 제공하면 검색 엔진에 특정 엔터티에 대한 더 나은 정보를 탐색하고, 데이터를 테스트 및 수집하고, 알고 있는 내용을 명확하게 하고 그것은 알고 있습니다.

엔티티-속성 후보 쌍

이 특허는 엔터티와 속성을 정의하기 위해 엔터티-속성 후보 쌍을 얻습니다. 여기서 속성은 엔터티의 후보 속성입니다 . 구조화된 데이터의 항목에 대한 사실로부터 학습하는 것 외에도 Google은 해당 정보의 컨텍스트를 보고 정보를 사용하고 해당 항목에 대한 다른 단어 및 사실의 벡터 및 동시 발생에서 학습할 수 있습니다.

단어 벡터 특허를 살펴보고 이제 검색 엔진이 단어의 의미와 컨텍스트 및 엔터티에 대한 정보를 더 잘 이해할 수 있는 방법을 알아보세요. (이는 특허 조사를 통해 Google이 현재 수행 중인 작업 중 일부를 어떻게 수행하고 있는지 배울 수 있는 기회입니다.) Google은 색인을 생성하는 항목에 대한 사실과 데이터를 수집하고 색인에 포함된 항목에 대해 배울 수 있습니다. 그들에 대해 알고 있는 속성.

다음에서 수행합니다.

엔터티와 속성을 포함하는 문장으로 속성이 엔터티-속성 후보 쌍에 있는 엔터티의 실제 속성인지 판단

엔터티 및 속성을 포함하는 문장 집합의 단어에 대한 임베딩 생성

알려진 엔터티-속성 쌍을 사용하여 엔터티에 대한 분포 속성 임베딩 생성

문장의 단어 임베딩, 엔티티에 대한 분포 속성 임베딩 및 속성에 대해 엔티티-속성 후보 쌍이 엔티티-속성 후보 쌍에서 엔티티의 필수 속성인지 여부를 기반으로 합니다.

단어 임베딩은 엔터티와 속성으로 문장으로 만들어집니다.

엔티티와 문장 세트의 점 사이에 단어의 첫 번째 임베딩을 지정하는 첫 번째 벡터 표현 작성

문장 세트를 기반으로 엔티티에 대한 이중 임베딩을 정의하는 두 번째 벡터 표현 만들기

문장 세트를 기반으로 속성에 대한 세 번째 임베딩을 위한 세 번째 벡터 표현 구성

알려진 엔터티 속성과 함께 선택은 엔터티에 대한 분포 속성 임베딩을 결합하고 사용 가능한 엔터티-속성 쌍을 사용하여 엔터티에 대한 분포 속성 임베딩을 지정하여 네 번째 벡터 표현을 만드는 것을 의미합니다.

알려진 엔티티-속성 쌍으로 분포 속성 임베딩을 구축한다는 것은 사용 가능한 엔티티-속성 팀과 속성에 대한 분포 속성 임베딩을 사용하여 다섯 번째 벡터 표현을 개발하는 것을 의미합니다 .

문장 집합의 단어에 대한 임베딩, 엔티티에 대한 분포 속성 임베딩 및 속성에 대한 분포 속성 임베딩을 기반으로 엔티티-속성 후보 쌍의 속성이 해당 항목의 필수 속성인지 여부를 결정합니다. 엔터티-속성 후보 쌍

제1 벡터 표현, 제2 벡터 표현, 제3 벡터 표현, 제4 벡터 표현, 및 제5 벡터 표현에 기초하여, 개체-속성 후보 쌍의 속성이 개체 내 개체의 필수 속성인지 판단 -속성 후보 쌍

제1 벡터 표현, 제2 벡터 표현, 제3 벡터 표현, 제4 벡터 표현 및 제5 벡터 표현 중에서 엔티티-속성 후보 쌍의 속성이 엔티티 내 엔티티의 필수 속성인지 여부를 선택- 속성 후보 쌍은 피드포워드 네트워크를 사용하여 수행됩니다.

제1 벡터 표현, 제2 벡터 표현, 제3 벡터 표현, 제4 벡터 표현, 제5 벡터 표현에 기초하여 개체-속성 후보 쌍의 속성이 개체 내 개체의 필수 속성인지 선택 -속성 후보 쌍은 다음으로 구성됩니다.

상기 제1 벡터 표현, 상기 제2 벡터 표현, 상기 제3 벡터 표현, 상기 제4 벡터 표현 및 상기 제5 벡터 표현을 연결하여 단일 벡터 표현을 생성하는 단계; 단일 벡터 표현을 피드포워드 네트워크에 입력

피드포워드 네트워크와 단일 벡터 표현을 사용하여 엔터티-속성 후보 쌍의 속성이 엔터티-속성 후보 쌍의 엔터티의 필수 속성인지 여부를 결정합니다.

알려진 엔티티-속성 쌍을 사용하여 네 번째 벡터 표현을 만드는 것은 엔티티에 대한 분포 속성 임베딩을 지정하는 단계를 포함합니다.

알려진 엔티티 속성 팀의 엔티티와 연관된 속성 세트 식별, 여기서 속성 세트는 속성 생략
속성 집합에서 특성의 가중 합계를 계산하여 엔티티에 대한 분포 속성 임베딩 생성

알려진 엔티티-속성 쌍으로 다섯 번째 벡터 표현을 선택하는 것은 속성에 대한 분포 속성 임베딩을 지정하는 단계를 포함합니다.

알려진 엔터티-속성 커플 중에서 엔터티 집합을 속성을 사용하여 식별하는 단계; 엔터티 컬렉션의 각 엔터티에 대해
속성의 위치에 속성이 포함되지 않은 엔티티와 관련된 기능 세트 결정
속성 모음에서 특성의 가중 합계를 계산하여 엔티티에 대한 분포 속성 임베딩 생성

선행 기술 모델 기반 개체 속성 식별보다 정확한 개체 속성 관계의 이점

이전 기술의 엔터티 속성 식별 기술은 데이터 문장을 기반으로 엔터티 및 속성을 표시하여 엔터티-속성 관계를 식별하는 NLP(자연어 처리) 기능, 원격 감독 및 기존 기계 학습 모델과 같은 모델 기반 접근 방식을 사용했습니다. 이러한 용어가 나타납니다 .

대조적으로, 이 사양에 설명된 혁신은 엔터티 및 속성이 이러한 용어가 나타나는 데이터에서 표현되는 방법에 대한 정보를 사용하고 관련되는 것으로 알려진 다른 기능을 사용하여 엔터티와 속성을 표현함으로써 데이터 세트의 엔터티-속성 관계를 식별합니다. 이러한 조건 . 이를 통해 유사한 엔터티가 공유하는 세부 정보로 엔터티 및 속성을 나타낼 수 있으므로 이러한 용어가 포함된 문장을 고려하여 식별할 수 없는 엔터티-속성 관계를 식별하는 정확도가 향상됩니다 .

예를 들어 데이터 세트에 "Record" 속성을 사용하여 설명되는 "Ronaldo"와 "Messi"라는 두 엔터티가 있는 문장과 "Messi" 엔터티가 "goals"를 사용하여 기술되는 패널티가 포함된 시나리오를 고려하십시오. 속성 . 이러한 시나리오에서, 종래 기술은 (호날두, 기록), (메시, 로그), (메시, 골)과 같은 엔티티 속성 쌍을 식별할 수 있다 . 이 명세서에 기술된 혁신은 이러한 용어가 데이터세트에서 사용되는 방식에 의해 식별되지 않을 수 있는 엔티티-속성 관계를 식별함으로써 이러한 선행 기술 접근 방식을 능가합니다 .

위의 예를 사용하여 이 사양에서 설명하는 혁신은 "Ronaldo"와 "Messi"가 "record" 속성을 공유하고 "goals" 속성을 사용하여 "record" 속성을 나타내기 때문에 유사한 개체라고 결정합니다 . 이러한 방식으로, 예를 들어, 이 명세서에 기술된 혁신은 엔티티-속성 관계(예: (Cristiano, Goals))를 식별하는 것을 가능하게 할 수 있지만, 그러한 관계는 데이터세트에서 식별할 수 없을 수도 있습니다 .

속성 관계 식별 특허

엔티티 속성 관계를 식별하는 순서도

엔티티 속성 관계 식별

발명가: Dan Iter, Xiao Yu 및 Fangtao Li

양수인: Google LLC

미국 특허: 11,263,400

부여: 2022년 3월 1일

출원일: 2019년 7월 5일

추상적인

컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램을 포함하는 방법, 시스템 및 장치로서, 텍스트 말뭉치에서 엔티티-속성 관계를 쉽게 식별할 수 있습니다.
방법에는 후보 엔터티-속성 쌍의 속성이 엔터티-속성 후보 쌍의 엔터티의 실제 속성인지 여부를 결정하는 것이 포함됩니다 .
여기에는 엔터티 및 속성을 포함하는 문장 세트의 단어에 대한 임베딩 생성 및 알려진 엔터티-속성 쌍을 사용하여 생성하는 것이 포함됩니다 .
이것은 또한 알려진 엔터티-속성 쌍으로부터 엔터티와 관련된 다른 속성을 기반으로 엔터티에 대한 속성 분포 임베딩을 생성하는 것과 알려진 속성의 알려진 엔터티와 관련된 알려진 속성을 기반으로 속성에 대한 속성 분포 임베딩을 생성하는 것을 포함합니다. 엔티티-속성 쌍 .
이러한 임베딩을 기반으로 하여 피드포워드 네트워크는 엔티티-속성 후보 쌍의 속성이 엔티티-속성 후보 쌍에 있는 엔티티의 실제 속성인지 여부를 결정합니다 .

텍스트에서 엔터티 속성 관계 식별

후보 개체-속성 쌍(여기서 속성은 개체의 후보 속성임)이 분류 모델에 입력됩니다 . 분류 모델은 경로 임베딩 엔진, 분포 표현 엔진, 속성 엔진 및 피드포워드 네트워크를 사용합니다. 후보 개체-속성 쌍의 속성이 후보 개체-속성 쌍의 필수 개체인지 여부를 결정합니다 .

경로 임베딩 엔진 은 데이터 세트의 문장 세트(예: 30개 이상의 문장)에서 엔티티와 속성의 일상적인 발생을 연결하는 경로 또는 단어의 임베딩을 나타내는 벡터를 생성합니다 . 분포 표현 엔진은 엔터티에 대한 임베딩을 나타내는 벡터를 생성하고 이러한 용어가 문장 세트에 나타나는 컨텍스트를 기반으로 용어를 특성화 합니다. 분포 속성 엔진은 엔티티에 대한 임베딩을 나타내는 벡터와 속성에 대한 임베딩을 나타내는 다른 벡터를 생성합니다 .

엔티티에 대한 속성 배포 엔진의 임베딩은 데이터세트의 엔티티와 연관되는 것으로 알려진 다른 기능(즉, 후보 속성 이외의 속성)을 기반으로 합니다 . 품질에 대한 상세한 배포 엔진의 임베딩은 후보 속성의 알려진 엔터티와 관련된 다양한 기능을 기반으로 합니다 .

분류 모델 은 경로 임베딩 엔진, d 분포 표현 엔진 및 d 분포 속성 엔진의 벡터 표현을 단일 벡터 표현으로 연결합니다. 그런 다음 분류 모델은 단일 벡터 표현을 단일 벡터 표현을 사용하여 후보 개체-속성 쌍의 속성이 후보 개체-속성 쌍에 있는 개체의 필수 속성인지 여부를 결정하는 피드포워드 네트워크에 입력합니다 .

피드포워드 네트워크가 후보 엔터티-속성 쌍의 포인트가 후보 엔터티-속성 쌍의 엔터티에 필요하다고 결정한다고 가정합니다. 이 경우 후보 엔터티-속성 쌍은 다른 알려진/실제 엔터티-속성 쌍과 함께 지식 기반에 저장됩니다 .

엔티티 속성 관계 추출

환경에는 지식 기반의 후보 엔터티-속성 쌍에 대해 후보 엔터티-속성 쌍의 속성이 후보 쌍의 엔터티의 필수 속성인지 여부를 결정하는 분류 모델이 포함됩니다 . 분류 모델은 신경망 모델이며 구성 요소는 아래에 설명되어 있습니다 . 분류 모델은 다른 지도 및 비지도 기계 학습 모델을 사용하여 사용할 수도 있습니다 .

비일시적 데이터 저장 매체(예: 하드 드라이브(들), 플래시 메모리 등)에 저장된 데이터베이스(또는 기타 적절한 데이터 저장 구조)를 포함할 수 있는 지식 기반은 후보 개체-속성 쌍의 집합을 보유합니다 . 후보 엔터티-속성 쌍은 데이터 소스에서 얻은 웹 페이지 및 뉴스 기사와 같은 텍스트 문서의 콘텐츠 세트를 사용하여 얻습니다. 데이터 소스에는 뉴스 웹사이트, 데이터 수집기 플랫폼, 소셜 미디어 플랫폼 등과 같은 모든 콘텐츠 소스가 포함될 수 있습니다 .

데이터 소스는 데이터 수집기 플랫폼에서 뉴스 기사를 가져옵니다. 데이터 소스는 모델을 사용할 수 있습니다. 지도 또는 비지도 기계 학습 모델(자연어 처리 모델)은 품사를 사용하여 기사에서 문장을 추출하고 추출된 문장을 예를 들어 엔터티 및 속성으로 토큰화하고 레이블을 지정하여 후보 엔터티-속성 쌍 집합을 생성합니다. 및 종속성 구문 분석 트리 태그 .

데이터 소스는 추출된 문장을 기계 학습 모델에 입력할 수 있습니다. 예를 들어 훈련 문장 세트와 관련 엔티티-속성 쌍을 사용하여 훈련될 수 있습니다 . 그런 다음 이러한 기계 학습 모델은 입력 추출된 문장에 대한 후보 엔터티 속성 팀을 출력할 수 있습니다 .

지식 기반에서 데이터 소스는 후보 개체-속성 쌍 및 후보 개체-속성 쌍의 단어를 포함하는 데이터 소스에 의해 추출된 문장을 저장합니다 . 후보 엔터티-속성 쌍은 엔터티 및 속성이 있는 문장의 수가 임계값 문장 수(예: 30개 문장)를 충족(예: 충족 또는 초과)하는 경우에만 지식 기반에 저장됩니다 .

분류 모델은 후보 엔터티-속성 쌍(지식 기반에 저장됨)의 속성이 후보 엔터티-속성 쌍에 있는 엔터티의 실제 속성인지 여부를 결정합니다 . 분류 모델은 경로 임베딩 엔진(106), 분포 표현 소스, 속성 엔진 및 피드포워드 네트워크를 포함 합니다. 본 명세서에서 사용되는 바와 같이, 엔진이라는 용어는 일련의 작업을 수행하는 데이터 처리 장치를 지칭한다. 후보 엔터티-속성 쌍의 속성이 엔터티의 필수 속성인지 여부를 결정하는 분류 모델 엔진의 작동 .

엔티티 속성 관계를 식별하는 프로세스의 예

프로세스의 작업은 시스템 구성 요소에 의해 수행되는 것으로 아래에 설명되어 있으며 프로세스의 기능은 설명 목적으로만 아래에 설명되어 있습니다. 프로세스의 작업은 적절한 장치 또는 시스템, 예를 들어, 적용 가능한 데이터 처리 장치에 의해 달성될 수 있습니다 . 프로세스의 기능은 비일시적 컴퓨터 판독 가능 매체에 저장된 명령으로 구현될 수도 있습니다 . 명령의 실행은 데이터 처리 장치가 프로세스의 작업을 수행하도록 합니다 .

지식 기반은 데이터 소스에서 엔터티-속성 후보 쌍을 얻습니다.

지식 기반은 데이터 소스에서 엔터티의 단어와 후보 엔터티-속성 쌍의 속성을 포함하는 문장 세트를 가져옵니다 .

문장 세트와 후보 개체-속성 쌍을 기반으로 분류 모델은 후보 속성이 후보 개체의 실제 속성인지 여부를 결정합니다 . 벌칙 세트는 다수의 문장, 예를 들어 30개 이상의 문장일 수 있습니다.

다음 작업을 수행하는 분류 모델

엔티티와 속성을 포함하는 문장 세트의 단어 임베딩은 아래 프로세스와 관련하여 아래에서 더 자세히 설명됩니다.

알려진 엔터티-속성 쌍을 사용하여 생성, 엔터티에 대한 분포 속성 임베딩, 작업과 관련하여 아래에서 더 자세히 설명

알려진 엔터티-속성 쌍 및 속성에 대한 배포 속성 임베딩을 사용하여 구축, 작동과 관련하여 아래에 더 자세히 설명됨

문장 세트의 단어에 대한 임베딩, 엔티티에 대한 분포 속성 임베딩 및 속성에 대한 분포 속성 임베딩을 기반으로 엔티티-속성 후보 쌍의 속성이 해당 항목의 필수 속성인지 여부를 선택합니다. 엔터티-속성 후보 쌍, 이는 작업과 관련하여 아래에서 더 자세히 설명됩니다 .

경로 임베딩 엔진은 엔티티와 문장의 속성 사이에 임베딩되는 첫 번째 단어를 지정하는 첫 번째 벡터 표현을 생성합니다 . 경로 임베딩 엔진은 문장 세트에서 이러한 용어의 일상적인 발생을 연결하는 경로 또는 단어를 임베딩하여 후보 엔티티 속성 용어 간의 관계를 감지합니다 .

"뱀은 파충류다"라는 문구의 경우 경로 임베딩 엔진은 "is a" 트랙에 대한 임베딩을 생성합니다. 이 임베딩은 예를 들어 속-종 관계를 감지하는 데 사용할 수 있으며 다른 엔터티-속성을 식별하는 데 사용할 수 있습니다. 쌍 .

엔터티와 속성 사이의 단어 생성

경로 임베딩 엔진은 다음을 수행하여 문장의 엔터티와 속성 사이에 단어를 생성합니다 . 문장 세트의 각 문장에 대해 경로 임베딩 엔진은 먼저 엔터티와 속성 간의 종속성 경로(단어 그룹 지정)를 추출합니다 . 경로 임베딩 엔진은 문장을 문자열에서 목록으로 변환합니다. 여기서 첫 번째 용어는 엔터티이고 마지막 용어는 속성입니다(또는 첫 번째 용어는 속성이고 이전 용어는 엔터티) .

종속성 경로의 각 용어(에지라고도 함)는 용어의 보조정리, 품사 태그, 종속성 레이블 및 종속성 경로의 방향(왼쪽 , 오른쪽 또는 루트) . 이러한 각 기능은 포함되고 연결되어 벡터 시퀀스(V.sub.l, V.sub.pos, V.sub.dep , V.sub.dir), {(v) 위의 오른쪽 화살표}.sub.e=[{(v) 위의 오른쪽 화살표}.sub.l,{(v) 위의 오른쪽 화살표} .sub.pos,{(v) 위의 오른쪽 화살표}.sub.dep,{(v) 위의 오른쪽 화살표}.sub.dir]

그런 다음 경로 임베딩 엔진은 다음과 같이 문장(Vsub.s)에 대한 단일 벡터 표현을 생성하는 LSTM(장단기 기억) 네트워크에 각 경로의 용어 또는 모서리에 대한 벡터 시퀀스를 입력합니다. 아래 방정식: {(v) 위의 오른쪽 화살표}.sub.s=LSTM({(v) 위의 오른쪽 화살표}.sub.e.sup.(1) ... {(v) 위의 오른쪽 화살표}.sub .e.sup.(k))

마지막으로 경로 임베딩 엔진은 문장 세트의 모든 문장에 대한 단일 벡터 표현을 다음과 같이 문장 표현(V.sub.sents(e,a))의 가중 평균을 결정하는 주의 메커니즘에 입력합니다. 방정식 아래: {(v) 위의 오른쪽 화살표}.sub.sents(e,a)=ATTN({(v) 위의 오른쪽 화살표}.sub.s.sup.(1) ... {(v) 위의 오른쪽 화살표 )}.sub.s.sup.(n))

분포 표현 모델은 문장을 기반으로 엔티티에 대한 두 번째 벡터 표현과 속성에 대한 세 번째 벡터 표현을 생성합니다 . 분포 표현 엔진은 포인트와 후보 엔터티-속성 쌍의 엔터티가 문장 세트에서 발생하는 컨텍스트를 기반으로 후보 엔터티-속성 용어 간의 관계를 감지합니다 . 예를 들어, 분포 표현 엔진은 이 엔터티가 미국의 도시 또는 주를 참조한다는 것을 암시하는 방식으로 엔터티 "New York"이 문장 모음에 사용된다고 결정할 수 있습니다 .

다른 예로서, 분포 표현 엔진은 이 속성이 주 또는 국가 내의 중요한 도시를 참조한다는 것을 제안하는 방식으로 "자본" 속성이 문장 세트에서 사용된다고 결정할 수 있습니다 . 따라서, 분포 표현 엔진은 개체가 나타나는 컨텍스트(즉, 문장 세트)를 사용하여 개체(V.sub.e)에 대한 임베딩을 지정하는 벡터 표현을 생성합니다 . 분포 표현 엔진은 특징이 나타나는 문장 세트를 사용하여 속성에 대한 임베딩을 지정하는 벡터 표현(V.sub.a)을 생성합니다 .

분포 속성 엔진은 알려진 엔티티-속성 쌍을 사용하여 엔티티에 대한 분포 속성 임베딩을 지정하는 네 번째 벡터 표현을 생성합니다 . 지식 기반에 저장되는 알려진 엔티티-속성 쌍은 엔티티의 각 속성이 속성 쌍은 엔터티-속성 쌍에서 엔터티의 필수 속성입니다 .

분포 속성 엔진은 엔티티가 연관되는 알려진 엔티티-속성 쌍 중에서 일부(예: 가장 일반적인) 또는 모든 다른 알려진 속성을 사용하여 엔티티에 대한 임베딩을 지정하는 분포 속성 임베딩을 결정하기 위해 다음 작업을 수행합니다 .

엔티티의 다른 속성 식별

엔티티 속성 후보 쌍의 엔티티에 대해 배포 속성 엔진은 알려진 엔티티 속성 팀의 엔티티와 연관된 엔티티 속성 후보 쌍에 포함된 속성 이외의 속성을 식별합니다 .

후보 엔터티-속성 쌍(Michael Jordan, 유명)에 있는 엔터티 "Michael Jordan"의 경우, 속성 분배 엔진은 (Michael Jordan, richy) 및 (Michael Jordan, 기록), 풍요 및 설명과 같은 속성을 식별합니다 .

그런 다음 속성 분포 엔진은 식별된 알려진 속성의 가중치 합을 계산하여 엔터티에 대한 임베딩을 생성합니다(이전 단락에서 설명한 대로). 여기서 가중치는 아래 방정식과 같이 주의 메커니즘을 통해 학습됩니다. {right 화살표 (v)}.sub.e=ATTN(.epsilon.(.alpha..sub.1) ... .epsilon.(.alpha..sub.m))

분포 속성 엔진은 알려진 엔티티-속성 쌍을 사용하여 속성에 대한 분포 속성 임베딩을 지정하는 다섯 번째 벡터 표현을 생성합니다 . 분포 속성 엔진은 다음 작업을 수행 하여 후보 속성의 알려진 엔터티와 관련된 알려진 속성 의 일부(가장 일반적인지 여부) 또는 전체를 기반으로 모델을 결정합니다 .

개체-속성 후보 쌍의 포인트에 대해 분포 속성 엔진은 품질이 있는 알려진 개체-속성 쌍 중에서 알려진 개체를 식별합니다 .

식별된 각각의 알려진 엔터티에 대해, 배포 속성 엔진은 알려진 엔터티-속성 팀의 엔터티와 관련된 다른 속성(즉, 엔터티-속성 후보 쌍에 포함된 것과 다른 속성)을 식별합니다 . 분산 속성 엔진은 다음을 통해 식별된 속성 중에서 속성의 하위 집합을 식별할 수 있습니다.

(1) 더 적은 수의 엔터티와 관련된 속성보다 더 많은 수의 엔터티와 관련된 속성에 더 높은 순위를 할당하는 것과 같이 각 엔터티와 관련된 알려진 엔터티의 수를 기반으로 속성 순위 지정)

엔티티 속성 관계 식별

구조화된 데이터는 속성 관계를 더 잘 식별하는 데 도움이 될 수 있습니다.

엔티티-속성 후보 쌍

단어 임베딩은 엔터티와 속성으로 문장으로 만들어집니다.

선행 기술 모델 기반 개체 속성 식별보다 정확한 개체 속성 관계의 이점

속성 관계 식별 특허

텍스트에서 엔터티 속성 관계 식별

엔티티 속성 관계 추출

엔티티 속성 관계를 식별하는 프로세스의 예

다음 작업을 수행하는 분류 모델

엔터티와 속성 사이의 단어 생성

엔티티의 다른 속성 식별

받은 편지함으로 바로 뉴스 검색