Identyfikacja relacji atrybutu podmiotu

Opublikowany: 2022-03-02

Ten patent, przyznany 1 marca 2022 r., dotyczy identyfikowania relacji jednostka-atrybut w treści tekstu.

Aplikacje wyszukujące, takie jak wyszukiwarki i bazy wiedzy, starają się zaspokoić potrzeby informacyjne osoby wyszukującej i pokazać jej najkorzystniejsze zasoby .

Dane strukturalne mogą pomóc w lepszym identyfikowaniu relacji atrybutów

Identyfikowanie relacji między jednostkami atrybutów odbywa się w ustrukturyzowanych wynikach wyszukiwania.
Wyniki wyszukiwania strukturalnego przedstawiają listę atrybutów z odpowiedziami dla jednostki określonej w żądaniu użytkownika, takiej jak zapytanie .
Tak więc ustrukturyzowane wyniki wyszukiwania hasła „Kevin Durant” mogą zawierać atrybuty, takie jak wynagrodzenie, zespół, rok urodzenia, rodzina itp., wraz z odpowiedziami zawierającymi informacje o tych atrybutach .
Konstruowanie takich ustrukturyzowanych wyników wyszukiwania może wymagać zidentyfikowania relacji jednostka-atrybut.
Relacja encja-atrybut jest szczególnym przypadkiem relacji tekstowej między parą terminów.
Pierwszy termin w parze terminów to jednostka, osoba, miejsce, organizacja lub pojęcie.
Drugi termin to atrybut lub ciąg znaków opisujący aspekt jednostki.
Przykłady obejmują:
  • „Data urodzenia” osoby
  • „Ludność” kraju
  • „Wynagrodzenie” sportowca
  • „CEO” organizacji

Dostarczenie większej ilości informacji w treści i schemacie (oraz danych strukturalnych) o podmiotach daje wyszukiwarce więcej informacji do wyszukiwania lepszych informacji o konkretnych podmiotach, testowania i zbierania danych, uściślania tego, co wie, oraz do coraz większego zaufania do podmiotów, które jest tego świadomy.

Pary jednostka-atrybut kandydat

Ten patent pozwala uzyskać parę kandydującą jednostka-atrybut w celu zdefiniowania jednostki i atrybutu, przy czym atrybut jest atrybutem kandydującym jednostki . Oprócz uczenia się na podstawie faktów na temat podmiotów w danych strukturalnych, Google może wykorzystywać informacje, analizując kontekst tych informacji i uczyć się na podstawie wektorów oraz współwystępowania innych słów i faktów dotyczących tych podmiotów.
Przyjrzyj się patentowi na wektory słów, aby dowiedzieć się, w jaki sposób wyszukiwarka może teraz lepiej rozumieć znaczenia i kontekst słów oraz informacje o podmiotach. (Jest to szansa, aby dowiedzieć się z badania patentów o tym, jak Google obecnie robi niektóre z tych rzeczy, które robi.) Google gromadzi fakty i dane o rzeczach, które indeksuje, i może dowiedzieć się o podmiotach, które ma w swoim indeksie, oraz atrybuty, które o nich wie.
Robi to w:
  • Określanie za pomocą zdań zawierających encję i atrybut, czy atrybut jest rzeczywistym atrybutem encji w parze encja-atrybut kandydata
  • Generowanie osadzeń dla słów w zbiorze zdań, które zawierają encję i atrybut
  • Tworzenie, ze znanymi parami encja-atrybut, osadzanie atrybutów dystrybucyjnych dla encji, gdzie osadzanie atrybutów dystrybucyjnych dla encji określa osadzanie dla encji na podstawie innych atrybutów skojarzonych z encją ze znanych par encja-atrybut
  • Na podstawie osadzania słów w zdaniach, osadzania atrybutu dystrybucyjnego dla encji oraz dla atrybutu, czy para kandydująca encja-atrybut jest podstawowym atrybutem jednostki w parze kandydującej encja-atrybut.

Osadzania słów tworzą zdania z jednostką i atrybutem

Budowanie pierwszej reprezentacji wektorowej określającej pierwsze osadzenie słów między jednostką a punktem w zbiorze zdań
  • Tworzenie drugiej reprezentacji wektorowej definiującej podwójne osadzenie dla encji na podstawie zbioru zdań
  • Konstruowanie trzeciej reprezentacji wektorowej dla trzeciego osadzenia atrybutu na podstawie zbioru zdań
  • Wybieranie, ze znanym atrybutem encji, łączy osadzanie atrybutu dystrybucyjnego dla encji, oznacza utworzenie czwartej reprezentacji wektorowej, używając dostępnych par encja-atrybut, określając osadzanie atrybutu dystrybucyjnego dla encji.
  • Tworzenie osadzania atrybutów dystrybucyjnych za pomocą tych znanych par encja-atrybut oznacza opracowanie piątej reprezentacji wektorowej z dostępnymi zespołami encja-atrybut oraz osadzanie atrybutów dystrybucyjnych dla atrybutu .
  • Decydowanie, na podstawie osadzeń słów w zbiorze zdań, osadzenia atrybutu dystrybucyjnego dla encji i osadzenia atrybutu dystrybucyjnego dla atrybutu, czy atrybut w parze encja-kandydat atrybutu jest istotnym atrybutem jednostki w para encja-atrybut kandydat
  • Określanie, na podstawie pierwszej reprezentacji wektorowej, drugiej reprezentacji wektorowej, trzeciej reprezentacji wektorowej, czwartej reprezentacji wektorowej i piątej reprezentacji wektorowej, czy atrybut w parze encja-atrybut kandydujący jest podstawowym atrybutem encji w encji -atrybut pary kandydatów
  • Wybór, z pierwszej reprezentacji wektorowej, drugiej reprezentacji wektorowej, trzeciej reprezentacji wektorowej, czwartej reprezentacji wektorowej i piątej reprezentacji wektorowej, czy atrybut w parze encja-atrybut kandydujący jest niezbędnym atrybutem encji w encji- para kandydujących atrybutów, wykonaj przy użyciu sieci sprzężenia zwrotnego.
  • Wybór, w oparciu o pierwszą reprezentację wektorową, drugą reprezentację wektorową, trzecią reprezentację wektorową, czwartą reprezentację wektorową i piątą reprezentację wektorową, czy atrybut w parze encja-atrybut kandydujący jest istotnym atrybutem encji w encji - para kandydatów atrybutów obejmuje:
  • Generowanie pojedynczej reprezentacji wektorowej przez połączenie pierwszej reprezentacji wektorowej, drugiej reprezentacji wektorowej, trzeciej reprezentacji wektorowej, czwartej reprezentacji wektorowej i piątej reprezentacji wektorowej; wprowadzanie reprezentacji pojedynczego wektora do sieci sprzężenia do przodu
  • Określanie, przez sieć sprzężenia do przodu i przy użyciu reprezentacji pojedynczego wektora, czy atrybut w parze jednostka-kandydat atrybutu jest podstawowym atrybutem jednostki w parze jednostka-kandydat atrybutu
Tworzenie czwartej reprezentacji wektorowej, ze znanymi parami jednostka-atrybut, określająca osadzenie atrybutu dystrybucyjnego dla jednostki obejmuje:
  • Identyfikowanie zestawu atrybutów powiązanych z podmiotem w znanych zespołach podmiot-atrybut, przy czym zestaw atrybutów pomija atrybut
  • Generowanie osadzenia atrybutu dystrybucyjnego dla podmiotu poprzez obliczenie sumy ważonej cech w zbiorze atrybutów
Wybór piątej reprezentacji wektorowej, ze znanymi parami encja-atrybut, określający osadzenie atrybutu dystrybucyjnego dla atrybutu obejmuje
  • Identyfikowanie za pomocą atrybutu zbioru encji spośród znanych par encja-atrybut; dla każdego podmiotu w zbiorze podmiotów
  • Ustalenie zbioru cech powiązanych z podmiotem, gdzie lokalizacja atrybutów nie obejmuje atrybutu
  • Generowanie osadzenia atrybutu dystrybucyjnego dla podmiotu poprzez obliczenie sumy ważonej cech w zbiorze atrybutów

Przewaga dokładniejszych relacji jednostka-atrybut nad identyfikacją jednostek i atrybutów opartą na modelu ze stanu techniki

Wcześniejsze techniki identyfikacji encji i atrybutów w sztuce wykorzystywały podejścia oparte na modelach, takie jak funkcje przetwarzania języka naturalnego (NLP), zdalny nadzór i tradycyjne modele uczenia maszynowego, które identyfikują relacje encja-atrybut poprzez reprezentowanie encji i atrybutów na podstawie zdań danych. Pojawiają się te terminy .
W przeciwieństwie do tego, innowacje opisane w tej specyfikacji identyfikują relacje encja-atrybut w zbiorach danych, wykorzystując informacje o tym, jak encje i atrybuty są wyrażane w danych, w których pojawiają się te terminy, oraz reprezentując encje i atrybuty przy użyciu innych cech, o których wiadomo, że są kojarzone z te warunki . Umożliwia to reprezentowanie encji i atrybutów ze szczegółami współdzielonymi przez podobne encje, poprawiając dokładność identyfikowania relacji encja-atrybut, których inaczej nie można by rozpoznać, biorąc pod uwagę zdania, w których występują te terminy .
Rozważmy na przykład scenariusz, w którym zbiór danych zawiera zdania, które mają dwie encje, „Ronaldo” i „Messi”, opisane za pomocą atrybutu „rekord” oraz karę, w której encja „Messi” zostaje opisana za pomocą „celi” atrybut . W takim scenariuszu techniki ze stanu techniki mogą identyfikować następujące pary atrybutów jednostki: (Ronaldo, zapis), (Messi, log) i (Messi, cele) . Innowacje opisane w tej specyfikacji wykraczają poza te podejścia ze stanu techniki, identyfikując relacje jednostka-atrybut, których nie można rozróżnić na podstawie tego, jak te terminy są używane w zbiorze danych .
Korzystając z powyższego przykładu, innowacja opisana w tej specyfikacji określa, że ​​„Ronaldo” i „Messi” są podobnymi podmiotami, ponieważ mają wspólny atrybut „rekord”, a następnie reprezentują atrybut „rekord” za pomocą atrybutu „goals” . W ten sposób innowacje opisane w tej specyfikacji mogą na przykład umożliwić identyfikację relacji encja-atrybut, np. (Cristiano, Goals), nawet jeśli taka relacja może nie być dostrzegalna ze zbioru danych .

Patent na powiązania atrybutów identyfikujących

identyfikacja schematu blokowego relacji atrybutów encji

Identyfikowanie relacji atrybutów encji
Wynalazcy: Dan Iter, Xiao Yu i Fangtao Li
Pełnomocnik: Google LLC
Patent USA: 11 263 400
Przyznano: 1 marca 2022
Złożono: 5 lipca 2019 r.
Abstrakcyjny
Metody, systemy i aparatura, w tym programy komputerowe zakodowane na komputerowym nośniku pamięci, które ułatwiają identyfikację relacji jednostka-atrybut w korpusach tekstowych .
Metody obejmują określenie, czy atrybut w parze kandydująca jednostka-atrybut jest rzeczywistym atrybutem jednostki w parze kandydująca jednostka-atrybut .
Obejmuje to generowanie osadzeń dla słów w zbiorze zdań zawierających encję i atrybut oraz generowanie przy użyciu znanych par encja-atrybut .
Obejmuje to również generowanie osadzania dystrybucyjnego atrybutu dla jednostki na podstawie innych atrybutów powiązanych z jednostką ze znanych par jednostka-atrybut oraz generowanie osadzania dystrybucyjnego atrybutu dla atrybutu na podstawie znanych atrybutów powiązanych ze znanymi jednostkami atrybutu w znanym pary jednostka-atrybut .
Na podstawie tych osadzeń sieć feedforward określa, czy atrybut w parze jednostka-kandydat atrybutu jest rzeczywistym atrybutem jednostki w parze jednostka-kandydat atrybutu .

Identyfikowanie relacji atrybutów encji w tekście

Para encja-atrybut kandydata (gdzie atrybut jest atrybutem kandydata encji) jest wprowadzana do modelu klasyfikacji . Model klasyfikacji wykorzystuje aparat osadzania ścieżki, aparat reprezentacji dystrybucji, aparat atrybutów i sieć przekazywania. Określa, czy atrybut w parze encja-atrybut kandydujący jest jednostką podstawową w parze encja-atrybut kandydujący .
Mechanizm osadzania ścieżek generuje wektor reprezentujący osadzanie ścieżek lub słów łączących codzienne wystąpienia jednostki i atrybutu w zestawie zdań (np. 30 lub więcej zdań) zestawu danych . Mechanizm reprezentacji dystrybucyjnej generuje wektory reprezentujące osadzanie dla jednostki i terminy atrybutów na podstawie kontekstu, w którym te terminy pojawiają się w zbiorze zdań . Dystrybucyjny aparat atrybutów generuje wektor reprezentujący osadzanie dla jednostki i inny wektor reprezentujący osadzanie dla atrybutu .
Osadzanie aparatu dystrybucji atrybutów dla jednostki jest oparte na innych cechach (tj. atrybutach innych niż atrybut kandydata), o których wiadomo, że są powiązane z jednostką w zbiorze danych . Osadzanie szczegółowego silnika dystrybucyjnego dla jakości jest oparte na różnych cechach powiązanych ze znanymi encjami atrybutu kandydata .
Model klasyfikacji łączy reprezentacje wektorowe z mechanizmu osadzania ścieżki, mechanizmu reprezentacji dystrybucyjnej i mechanizmu atrybutów dystrybucyjnych w jedną reprezentację wektorową. Model klasyfikacji następnie wprowadza reprezentację pojedynczego wektora do sieci sprzężenia do przodu, która za pomocą reprezentacji pojedynczego wektora określa, czy atrybut w kandydującej parze jednostka-atrybut jest podstawowym atrybutem jednostki w kandydującej parze jednostka-atrybut .
Załóżmy, że sieć feedforward określa, że ​​punkt w kandydującej parze jednostka-atrybut jest niezbędny dla jednostki w kandydującej parze jednostka-atrybut. W takim przypadku kandydująca para encja-atrybut jest przechowywana w bazie wiedzy wraz z innymi znanymi/rzeczywistymi parami encja-atrybut .

Wyodrębnianie relacji atrybutów encji

Środowisko obejmuje model klasyfikacji, który w przypadku kandydujących par encja-atrybut w bazie wiedzy określa, czy atrybut w kandydującej parze encja-atrybut jest podstawowym atrybutem encji w parze kandydującej . Model klasyfikacji jest modelem sieci neuronowej, a komponenty zostały opisane poniżej . Model klasyfikacji może być również używany z innymi nadzorowanymi i nienadzorowanymi modelami uczenia maszynowego .
Baza wiedzy, która może obejmować bazy danych (lub inne odpowiednie struktury przechowywania danych) przechowywane na nośnikach przechowywania danych nieprzemijających (np. dyskach twardych, pamięci flash itp.), zawiera zestaw kandydujących par encja-atrybut . Kandydujące pary jednostka-atrybut są uzyskiwane przy użyciu zestawu treści w dokumentach tekstowych, takich jak strony internetowe i artykuły z wiadomościami, uzyskanego ze źródła danych. Źródło danych może obejmować dowolne źródło treści, takie jak witryna z wiadomościami, platforma agregatorów danych, platforma mediów społecznościowych itp .
Źródło danych pozyskuje artykuły prasowe z platformy agregatora danych. Źródło danych może korzystać z modelu. Nadzorowany lub nienadzorowany model uczenia maszynowego (model przetwarzania języka naturalnego) generuje zestaw kandydujących par encja-atrybut, wyodrębniając zdania z artykułów oraz tokenizując i oznaczając wyodrębnione zdania, np. jako encje i atrybuty, przy użyciu części mowy i zależności analizują tagi drzewa .
Źródło danych może wprowadzić wyodrębnione zdania do modelu uczenia maszynowego. Na przykład może zostać przeszkolony za pomocą zestawu zdań szkoleniowych i powiązanych z nimi par encja-atrybut . Taki model uczenia maszynowego może następnie wyprowadzać kandydujące zespoły encji i atrybutów dla danych wejściowych wyodrębnionych zdań .
W bazie wiedzy źródło danych przechowuje kandydujące pary jednostka-atrybut oraz zdania wyodrębnione ze źródła danych, które zawierają słowa kandydujących par jednostka-atrybut . Kandydujące pary encja-atrybut są przechowywane w bazie wiedzy tylko wtedy, gdy liczba zdań, w których występuje encja i atrybut, spełnia (np. spełnia lub przekracza) progową liczbę zdań (np. 30 zdań) .
Model klasyfikacji określa, czy atrybut w kandydującej parze encja-atrybut (przechowywany w bazie wiedzy) jest rzeczywistym atrybutem encji w kandydującej parze encja-atrybut . Model klasyfikacji obejmuje mechanizm osadzania ścieżki 106, dystrybucyjne źródło reprezentacji, mechanizm atrybutów i sieć ze sprzężeniem do przodu . Stosowany tu termin silnik odnosi się do urządzenia do przetwarzania danych, które wykonuje zestaw zadań. Operacje tych aparatów modelu klasyfikacji podczas określania, czy atrybut w parze encja-atrybut kandydata jest podstawowym atrybutem encji .

Przykładowy proces identyfikacji relacji atrybutów jednostek

Operacje procesu są opisane poniżej jako wykonywane przez komponenty systemu, a funkcje procesu są opisane poniżej wyłącznie w celach ilustracyjnych. Operacje procesu mogą być realizowane przez dowolne odpowiednie urządzenie lub system, np. dowolne odpowiednie urządzenie do przetwarzania danych . Funkcje procesu mogą również zostać zaimplementowane jako instrukcje przechowywane na trwałym nośniku do odczytu komputerowego . Wykonanie instrukcji powoduje, że aparat przetwarzający dane wykonuje operacje procesu .
Baza wiedzy uzyskuje parę kandydatów encja-atrybut ze źródła danych.
Baza wiedzy uzyskuje zestaw zdań ze źródła danych, które zawierają słowa encji i atrybut w kandydującej parze encja-atrybut .
Na podstawie zestawu zdań i pary encja-atrybut kandydata model klasyfikacji określa, czy atrybut kandydata jest rzeczywistym atrybutem encji kandydata . Zestaw kar może składać się z dużej liczby zdań, np. 30 lub więcej zdań.

Model klasyfikacji wykonujący następujące operacje

  • Osadzania słów w zbiorze zdań, które zawierają encję i atrybut, opisano bardziej szczegółowo poniżej w odniesieniu do poniższego procesu
  • Utworzony przy użyciu znanych par encja-atrybut, osadzenie atrybutu dystrybucyjnego dla encji, który zostanie szczegółowo opisany poniżej dotyczący operacji
  • Budowanie przy użyciu znanych par encja-atrybut oraz osadzenie atrybutu dystrybucyjnego dla atrybutu, który zostanie szczegółowo opisany poniżej dotyczący działania
  • Wybór, w oparciu o osadzania słów w zbiorze zdań, osadzanie atrybutu dystrybucyjnego dla encji i osadzanie atrybutu dystrybucyjnego dla atrybutu, czy atrybut w parze encja-kandydat atrybutu jest istotnym atrybutem jednostki w para kandydująca jednostka-atrybut, która zostanie szczegółowo opisana poniżej w odniesieniu do operacji .
Mechanizm osadzania ścieżki generuje pierwszą reprezentację wektorową, określając pierwsze słowa osadzone między jednostką a atrybutem w zdaniach . Mechanizm osadzania ścieżek wykrywa relacje między kandydującymi terminami atrybutów encji, osadzając ścieżki lub słowa, które łączą codzienne wystąpienia tych terminów w zestawie zdań .
W przypadku wyrażenia „wąż jest gadem” silnik osadzania ścieżki generuje osadzanie dla ścieżki „jest a”, które można wykorzystać do wykrywania np. relacji rodzaj-gatunek, które można następnie przyzwyczaić do identyfikacji innej jednostki-atrybutu pary .

Generowanie słów między bytem a atrybutem

Mechanizm osadzania ścieżki wykonuje następujące czynności, aby wygenerować słowa między jednostką a atrybutem w zdaniach . Dla każdego zdania w zestawie zdań aparat osadzania ścieżki najpierw wyodrębnia ścieżkę zależności (która określa grupę słów) między jednostką a atrybutem . Mechanizm osadzania ścieżki konwertuje zdanie z ciągu na listę, gdzie pierwszy termin to jednostka, a ostatni to atrybut (lub pierwszy termin to atrybut, a poprzedni to jednostka) .
Każdy termin (nazywany również krawędzią) na ścieżce zależności jest reprezentowany za pomocą następujących funkcji: lemat terminu, znacznik części mowy, etykieta zależności i kierunek ścieżki zależności (po lewej , prawo lub korzeń) . Każda z tych cech zostaje osadzona i połączona w celu wytworzenia reprezentacji wektorowej terminu lub krawędzi (Ve), która zawiera sekwencję wektorów (Vl, Vpos, Vdep , Vdir), jak pokazano w poniższym równaniu: {strzałka w prawo nad (v)}.e=[{strzałka w prawo nad (v)}.l,{strzałka w prawo nad (v)} .sub.pos,{strzałka w prawo nad (v)}.sub.dep,{strzałka w prawo nad (v)}.sub.dir]
Silnik osadzania ścieżki następnie wprowadza sekwencję wektorów dla terminów lub krawędzi w każdej ścieżce do sieci pamięci długo-krótkotrwałej (LSTM), która tworzy pojedynczą reprezentację wektorową dla zdania (Vs), jak pokazano za pomocą poniższe równanie: {strzałka w prawo nad (v)}.s=LSTM({strzałka w prawo nad (v)}.e(1) .. {strzałka w prawo nad (v)}.sub np.(k))
Wreszcie, mechanizm osadzania ścieżki wprowadza reprezentację pojedynczego wektora dla wszystkich zdań w zbiorze zdań do mechanizmu uwagi, który określa średnią ważoną reprezentacji zdań (Vsub.sents(e,a)), jak pokazano poniżej równanie: {strzałka w prawo nad (v)}.sents(e,a)=ATTN({strzałka w prawo nad (v)}.ssup.(1) ... {strzałka w prawo nad (v ) )}.sub.sup.(n))
Dystrybucyjny model reprezentacyjny generuje drugą reprezentację wektorową dla encji i trzecią reprezentację wektorową dla atrybutu na podstawie zdań . Aparat reprezentacji dystrybucyjnej wykrywa relacje między kandydującymi terminami encja-atrybut na podstawie kontekstu, w którym punkt i encja kandydującej pary encja-atrybut występują w zbiorze zdań . Na przykład mechanizm reprezentacji dystrybucji może określić, że encja „Nowy Jork” zostanie użyta w zbiorze zdań w sposób sugerujący, że ta encja odnosi się do miasta lub stanu w Stanach Zjednoczonych .
Jako inny przykład, mechanizm reprezentacji dystrybucji może określić, że atrybut „kapitał” jest używany w zbiorze zdań w sposób sugerujący, że ten atrybut odnosi się do znaczącego miasta w stanie lub kraju . W ten sposób silnik reprezentacji dystrybucyjnej generuje reprezentację wektorową określającą osadzenie jednostki (Ve) przy użyciu kontekstu (tj. zbioru zdań), w którym pojawia się jednostka . Mechanizm reprezentacji dystrybucyjnej generuje reprezentację wektorową (Va) określając osadzanie atrybutu przy użyciu zestawu zdań, w których pojawia się cecha .
Aparat atrybutów dystrybucyjnych generuje czwartą reprezentację wektorową, określając osadzanie atrybutów dystrybucyjnych dla jednostki przy użyciu znanych par jednostka-atrybut . Znane pary encja-atrybut, które są przechowywane w bazie wiedzy, są parami encja-atrybut, dla których potwierdzono (np. przy użyciu wcześniejszego przetwarzania przez model klasyfikacji lub na podstawie oceny przez człowieka), że każdy atrybut w encji- para atrybutów jest podstawowym atrybutem jednostki w parze jednostka-atrybut .
Aparat atrybutów dystrybucyjnych wykonuje następujące operacje w celu określenia osadzania atrybutów dystrybucyjnych, które określa osadzanie dla jednostki przy użyciu niektórych (np. najbardziej powszechnych) lub wszystkich innych znanych atrybutów spośród znanych par jednostka-atrybut, z którymi ta jednostka jest skojarzona .

Identyfikacja innych atrybutów jednostek

W przypadku jednostek w parze jednostka-atrybut aparat atrybutów dystrybucyjnych identyfikuje atrybuty inne niż te, które znajdują się w parze jednostka-atrybut skojarzona z jednostką w znanych zespołach jednostka-atrybut .
W przypadku encji „Michael Jordan” w kandydującej parze encja-atrybut (Michael Jordan, sławny) aparat dystrybucji atrybutów może używać znanych par encja-atrybut dla Michaela Jordana, takich jak (Michael Jordan, bogaty) i (Michael Jordan, rekord), aby zidentyfikować atrybuty, takie jak zamożność i opis .
Silnik dystrybucji atrybutów generuje następnie osadzanie dla jednostki, obliczając ważoną sumę zidentyfikowanych znanych atrybutów (jak opisano w poprzednim akapicie), gdzie wagi są poznawane za pomocą mechanizmu uwagi, jak pokazano w poniższym równaniu: {right strzałka nad (v)}.e=ATTN(.epsilon.(alfa.1) .....epsilon .(.alfa.m))
Aparat atrybutów dystrybucyjnych generuje piątą reprezentację wektora, określając osadzanie atrybutu dystrybucyjnego dla atrybutu przy użyciu znanych par jednostka-atrybut . Aparat atrybutów dystrybucyjnych wykonuje następujące operacje w celu określenia modelu na podstawie niektórych (najczęstszych) lub wszystkich znanych atrybutów skojarzonych ze znanymi jednostkami atrybutu kandydata .
Dla punktu w parze encja-atrybut aparat atrybutów dystrybucyjnych identyfikuje znane encje wśród znanych par encja-atrybut, które mają jakość .
Dla każdej zidentyfikowanej znanej jednostki mechanizm atrybutów dystrybucyjnych identyfikuje inne atrybuty (tj. atrybuty inne niż te zawarte w parze encja-atrybut kandydata) powiązane z encją w znanych zespołach jednostka-atrybut . Mechanizm atrybutów dystrybucyjnych może identyfikować podzbiór atrybutów spośród zidentyfikowanych atrybutów poprzez:
(1) Atrybuty rankingowe oparte na liczbie znanych podmiotów powiązanych z każdym podmiotem, takie jak przypisanie wyższej rangi atrybutom powiązanym z większą liczbą podmiotów niż atrybutom powiązanym z mniejszą liczbą podmiotów)

Przeszukaj wiadomości prosto do skrzynki odbiorczej

To pole służy do celów walidacji i należy je pozostawić bez zmian.

*Wymagany