การระบุความสัมพันธ์ของแอตทริบิวต์เอนทิตี

เผยแพร่แล้ว: 2022-03-02

สิทธิบัตรนี้ ซึ่งได้รับเมื่อวันที่ 1 มีนาคม พ.ศ. 2565 เป็นเรื่องเกี่ยวกับการระบุความสัมพันธ์ของเอนทิตี-แอตทริบิวต์ในเนื้อความของข้อความ

แอปพลิเคชันการค้นหา เช่น เสิร์ชเอ็นจิ้นและฐานความรู้ พยายามตอบสนองความต้องการด้านข้อมูลของผู้ค้นหา และแสดงแหล่งข้อมูลที่ได้เปรียบที่สุดแก่ผู้ค้นหา

ข้อมูลที่มีโครงสร้างอาจช่วยในการระบุความสัมพันธ์ของแอตทริบิวต์ได้ดีขึ้น

ระบุความสัมพันธ์ของเอนทิตีแอตทริบิวต์ในผลการค้นหาที่มีโครงสร้าง
ผลการค้นหาที่มีโครงสร้าง แสดงรายการแอตทริบิวต์พร้อมคำตอบสำหรับเอนทิตีที่ระบุในคำขอของผู้ใช้ เช่น ข้อความ ค้นหา
ดังนั้น ผลการค้นหาที่มีโครงสร้างสำหรับ "เควิน ดูแรนท์" อาจรวมแอตทริบิวต์ต่างๆ เช่น เงินเดือน ทีม ปีเกิด ครอบครัว ฯลฯ พร้อมด้วยคำตอบที่ให้ข้อมูลเกี่ยวกับคุณลักษณะเหล่า นี้
การสร้างผลการค้นหาที่มีโครงสร้างดังกล่าวอาจจำเป็นต้องระบุความสัมพันธ์ของเอนทิตีและแอตทริบิวต์
ความสัมพันธ์ของเอนทิตี-แอตทริบิวต์เป็นกรณีเฉพาะของความสัมพันธ์แบบข้อความระหว่างคู่ของเงื่อนไข
เทอมแรกในคู่ของเงื่อนไขคือ เอนทิตี บุคคล สถานที่ องค์กร หรือแนวคิด
เทอมที่สองคือแอตทริบิวต์หรือสตริงที่อธิบายลักษณะของเอนทิตี
ตัวอย่าง ได้แก่
  • “วันเดือนปีเกิด” ของบุคคล
  • “ประชากร” ของประเทศ
  • “เงินเดือน” ของนักกีฬา
  • “CEO” ขององค์กร

การให้ข้อมูลเพิ่มเติมในเนื้อหาและสคีมา (และข้อมูลที่มีโครงสร้าง) เกี่ยวกับเอนทิตีทำให้เครื่องมือค้นหามีข้อมูลเพิ่มเติมในการสำรวจข้อมูลที่ดีขึ้นเกี่ยวกับเอนทิตีที่เฉพาะเจาะจง เพื่อทดสอบและรวบรวมข้อมูล แยกแยะสิ่งที่รู้ และมีความมั่นใจมากขึ้นเกี่ยวกับเอนทิตีที่ มันตระหนักถึง

คู่สมัครนิติบุคคล-แอตทริบิวต์

สิทธิบัตรนี้ได้รับคู่ผู้สมัครแอตทริบิวต์เอนทิตี-แอตทริบิวต์เพื่อกำหนดเอนทิตีและแอตทริบิวต์ โดยแอตทริบิวต์เป็นแอตทริบิวต์ผู้สมัครของเอนทิ ตี นอกเหนือจากการเรียนรู้จากข้อเท็จจริงเกี่ยวกับเอนทิตีในข้อมูลที่มีโครงสร้างแล้ว Google สามารถใช้ข้อมูลโดยดูจากบริบทของข้อมูลนั้นและเรียนรู้จากเวกเตอร์และการเกิดขึ้นร่วมกันของคำอื่นๆ และข้อเท็จจริงเกี่ยวกับเอนทิตีเหล่านั้นด้วย
ดูคำว่า vectors Patent เพื่อทำความเข้าใจว่าเสิร์ชเอ็นจิ้นสามารถเข้าใจความหมายและบริบทของคำและข้อมูลเกี่ยวกับเอนทิตีได้ดีขึ้นได้อย่างไร (นี่เป็นโอกาสที่จะได้เรียนรู้จากการสำรวจสิทธิบัตรว่าขณะนี้ Google กำลังทำอะไรบางอย่างที่กำลังทำอยู่) Google รวบรวมข้อเท็จจริงและข้อมูลเกี่ยวกับสิ่งต่างๆ ที่จัดทำดัชนี และอาจเรียนรู้เกี่ยวกับหน่วยงานที่มีอยู่ในดัชนี และ คุณลักษณะที่มันรู้เกี่ยวกับพวกเขา
มันทำสิ่งนี้ใน:
  • การพิจารณาด้วยประโยคที่รวมเอนทิตีและแอตทริบิวต์ว่าแอตทริบิวต์นั้นเป็นแอตทริบิวต์ที่แท้จริงของเอนทิตีในคู่ผู้สมัครแอตทริบิวต์เอนทิตีหรือไม่
  • การสร้างการฝังคำในชุดประโยคที่มีเอนทิตีและแอตทริบิวต์
  • การสร้างด้วยคู่ของเอนทิตี-แอตทริบิวต์ที่รู้จัก การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี โดยที่แอตทริบิวต์การแจกจ่ายที่ฝังสำหรับเอนทิตีจะระบุการฝังสำหรับเอนทิตีตามแอตทริบิวต์อื่นๆ ที่เกี่ยวข้องกับเอนทิตีจากคู่แอตทริบิวต์-แอตทริบิวต์ที่รู้จัก
  • ขึ้นอยู่กับการฝังคำในประโยค การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี และสำหรับแอตทริบิวต์ ไม่ว่าคู่ผู้สมัครแอตทริบิวต์แอตทริบิวต์เป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในคู่ผู้สมัครแอตทริบิวต์แอตทริบิวต์หรือไม่

Embeddings For Words สร้างขึ้นจากประโยคที่มีเอนทิตีและแอตทริบิวต์

การสร้างการแสดงเวกเตอร์แรกที่ระบุการฝังคำครั้งแรกระหว่างเอนทิตีและจุดในชุดประโยค
  • การสร้างภาพเวกเตอร์ที่สองโดยกำหนดการฝังสองครั้งสำหรับเอนทิตีตามชุดของประโยค
  • การสร้างการแสดงเวกเตอร์ที่สามสำหรับการฝังที่สามสำหรับแอตทริบิวต์ตามชุดของประโยค
  • การเลือกด้วยแอตทริบิวต์ของเอนทิตีที่รู้จัก จะรวมแอตทริบิวต์การแจกจ่ายที่ฝังไว้สำหรับเอนทิตี ซึ่งหมายถึงการแสดงเวกเตอร์ที่สี่ โดยใช้คู่แอตทริบิวต์ของเอนทิตี-แอตทริบิวต์ที่มีอยู่ การระบุแอตทริบิวต์การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี
  • การสร้างแอตทริบิวต์การกระจายที่ฝังด้วยคู่แอตทริบิวต์ที่รู้จักเหล่านั้นหมายถึงการพัฒนาการแสดงเวกเตอร์ที่ห้าด้วยทีมแอตทริบิวต์แอตทริบิวต์ที่มีอยู่และการฝังแอตทริบิวต์การแจกจ่ายสำหรับ แอตทริบิวต์
  • การตัดสินใจ โดยอิงจากการฝังคำในชุดประโยค การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี และการฝังแอตทริบิวต์การกระจายสำหรับแอตทริบิวต์ ว่าแอตทริบิวต์ในคู่ผู้สมัครแอตทริบิวต์เอนทิตีเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีใน คู่ผู้สมัครแอตทริบิวต์เอนทิตี
  • การพิจารณาตามการแสดงเวกเตอร์แรก การแทนค่าเวกเตอร์ที่สอง การแทนค่าเวกเตอร์ที่สาม การแทนค่าเวกเตอร์ที่สี่ และการแสดงเวกเตอร์ที่ห้า ว่าแอตทริบิวต์ในคู่ผู้สมัครแอตทริบิวต์ของเอนทิตีเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในเอนทิตีหรือไม่ - คุณสมบัติผู้สมัครคู่
  • การเลือกจากการแสดงเวกเตอร์แรก การแทนค่าเวกเตอร์ที่สอง การแทนค่าเวกเตอร์ที่สาม การแทนค่าเวกเตอร์ที่สี่ และการแทนค่าเวกเตอร์ที่ห้า ไม่ว่าแอตทริบิวต์ในคู่ผู้สมัครแอตทริบิวต์ของเอนทิตีจะเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในเอนทิตี- แอตทริบิวต์คู่ของผู้สมัคร ดำเนินการโดยใช้เครือข่าย feedforward
  • การเลือก ขึ้นอยู่กับการแสดงเวกเตอร์แรก การแทนค่าเวกเตอร์ที่สอง การแทนค่าเวกเตอร์ที่สาม การแทนค่าเวกเตอร์ที่สี่ และการแสดงเวกเตอร์ที่ห้า ไม่ว่าแอตทริบิวต์ในคู่ผู้สมัครแอตทริบิวต์ของเอนทิตีจะเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในเอนทิตีหรือไม่ -แอตทริบิวต์คู่ผู้สมัคร ประกอบด้วย:
  • การสร้างการแสดงเวกเตอร์เดี่ยวโดยเชื่อมการแสดงเวกเตอร์แรก การแทนค่าเวกเตอร์ที่สอง การแทนค่าเวกเตอร์ที่สาม การแทนค่าเวกเตอร์ที่สี่ และการแทนค่าเวกเตอร์ที่ห้า การป้อนการแทนค่าเวกเตอร์เดียวลงในเครือข่าย feedforward
  • การพิจารณาโดยเครือข่าย feedforward และการใช้การแสดงเวกเตอร์เดียว ว่าแอตทริบิวต์ในคู่ผู้สมัครแอตทริบิวต์ของเอนทิตีเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในคู่ผู้สมัครแอตทริบิวต์เอนทิตีหรือไม่
การสร้างการแสดงเวกเตอร์ที่สี่ ด้วยคู่ของเอนทิตี-แอตทริบิวต์ที่รู้จัก การระบุแอตทริบิวต์การแจกจ่ายที่ฝังสำหรับเอนทิตีประกอบด้วย:
  • การระบุชุดของแอตทริบิวต์ที่เกี่ยวข้องกับเอนทิตีในทีมแอตทริบิวต์ที่รู้จัก โดยที่ชุดของแอตทริบิวต์ละเว้นแอตทริบิวต์
  • การสร้างการฝังแอตทริบิวต์การกระจายสำหรับเอนทิตีโดยการคำนวณผลรวมถ่วงน้ำหนักของคุณลักษณะในชุดของแอตทริบิวต์
การเลือกการแสดงเวกเตอร์ที่ห้า ด้วยคู่ของเอนทิตี-แอตทริบิวต์ที่รู้จัก การระบุแอตทริบิวต์การกระจายที่ฝังสำหรับแอตทริบิวต์ประกอบด้วย
  • การระบุ โดยใช้แอตทริบิวต์ ชุดของเอนทิตีจากคู่ของเอนทิตี-แอตทริบิวต์ที่รู้จัก สำหรับแต่ละเอนทิตีในการรวบรวมเอนทิตี
  • การกำหนดชุดคุณลักษณะที่เกี่ยวข้องกับเอนทิตี โดยที่ตำแหน่งของแอตทริบิวต์ไม่รวมแอตทริบิวต์
  • การสร้างการฝังแอตทริบิวต์การกระจายสำหรับเอนทิตีโดยการคำนวณผลรวมถ่วงน้ำหนักของคุณลักษณะในชุดของแอตทริบิวต์

ข้อได้เปรียบของความสัมพันธ์ระหว่างเอนทิตีกับแอตทริบิวต์ที่แม่นยำกว่าการระบุแอตทริบิวต์เอนทิตีและแอตทริบิวต์ตามแบบจำลองงานศิลปะก่อนหน้า

เทคนิคการระบุแอตทริบิวต์เอนทิตีศิลปะก่อนหน้านี้ใช้วิธีการที่อิงตามแบบจำลอง เช่น คุณลักษณะการประมวลผลภาษาธรรมชาติ (NLP) การนิเทศทางไกล และโมเดลการเรียนรู้ด้วยเครื่องแบบดั้งเดิม ซึ่งระบุความสัมพันธ์ของแอตทริบิวต์เอนทิตีโดยแสดงเอนทิตีและแอตทริบิวต์ตามประโยคข้อมูล เงื่อนไขเหล่านี้ปรากฏ ขึ้น
ในทางตรงกันข้าม นวัตกรรมที่อธิบายไว้ในข้อกำหนดนี้จะระบุความสัมพันธ์ของเอนทิตี-แอตทริบิวต์ในชุดข้อมูลโดยใช้ข้อมูลเกี่ยวกับวิธีที่เอนทิตีและแอตทริบิวต์แสดงในข้อมูลภายในที่ข้อกำหนดเหล่านี้ปรากฏขึ้น และโดยการแสดงเอนทิตีและแอตทริบิวต์โดยใช้คุณลักษณะอื่นๆ ที่ทราบว่ามีความเกี่ยวข้องกับ เงื่อนไขเหล่า นี้ ซึ่งช่วยให้แสดงเอนทิตีและแอตทริบิวต์ที่มีรายละเอียดร่วมกันโดยเอนทิตีที่คล้ายคลึงกัน ปรับปรุงความถูกต้องของการระบุความสัมพันธ์ของเอนทิตีกับแอตทริบิวต์ที่ไม่สามารถมองเห็นได้ด้วยการพิจารณาประโยคภายในที่เงื่อนไขเหล่านี้ ปรากฏ
ตัวอย่างเช่น พิจารณาสถานการณ์สมมติที่ชุดข้อมูลประกอบด้วยประโยคที่มีสองเอนทิตี "โรนัลโด" และ "เมสซี" ซึ่งอธิบายโดยใช้แอตทริบิวต์ "บันทึก" และบทลงโทษที่เอนทิตี "เมสซี" ถูกกำหนดโดยใช้ "เป้าหมาย" คุณลักษณะ _ ในสถานการณ์ดังกล่าว เทคนิคศิลปะก่อนหน้านี้อาจระบุคู่แอตทริบิวต์ของเอนทิตีต่อไปนี้: (โรนัลโด้ บันทึก) (เมสซี บันทึก) และ (เมสซี เป้าหมาย ) นวัตกรรมที่อธิบายไว้ในข้อกำหนดนี้มีมากกว่าแนวทางศิลปะก่อนหน้านี้โดยการระบุความสัมพันธ์ของเอนทิตีกับแอตทริบิวต์ที่อาจไม่สามารถแยกแยะได้ว่าคำศัพท์เหล่านี้ถูกนำมาใช้ในชุดข้อมูล อย่างไร
จากตัวอย่างข้างต้น นวัตกรรมที่อธิบายในข้อกำหนดนี้กำหนดว่า “โรนัลโด” และ “เมสซี” เป็นองค์ประกอบที่คล้ายคลึงกัน เพราะพวกเขาใช้แอตทริบิวต์ “บันทึก” ร่วมกัน จากนั้นจึงแสดงแอตทริบิวต์ “บันทึก” โดยใช้แอตทริบิวต์ “เป้าหมาย ด้วยวิธีนี้ นวัตกรรมที่อธิบายในข้อกำหนดนี้ ตัวอย่างเช่น สามารถเปิดใช้งานการระบุความสัมพันธ์ของเอนทิตี-แอตทริบิวต์ เช่น (Cristiano, Goals) แม้ว่าความสัมพันธ์ดังกล่าวอาจไม่สามารถมองเห็นได้จากชุด ข้อมูล

สิทธิบัตร การระบุความสัมพันธ์ของคุณสมบัติ

การระบุแผนผังความสัมพันธ์แอตทริบิวต์เอนทิตี

การระบุความสัมพันธ์แอตทริบิวต์ของเอนทิตี
ผู้ประดิษฐ์: Dan Iter, Xiao Yu และ Fangtao Li
ผู้รับมอบหมาย: Google LLC
สิทธิบัตรสหรัฐอเมริกา: 11,263,400
ได้รับ: 1 มีนาคม 2022
ยื่น: กรกฎาคม 5, 2019
เชิงนามธรรม
วิธีการ ระบบ และอุปกรณ์ รวมถึงโปรแกรมคอมพิวเตอร์ที่เข้ารหัสบนสื่อจัดเก็บข้อมูลคอมพิวเตอร์ ซึ่งช่วยให้ระบุความสัมพันธ์ของเอนทิตี-แอตทริบิวต์ใน text corpora ได้ง่ายขึ้น
วิธีการต่างๆ รวมถึงการพิจารณาว่าแอตทริบิวต์ในคู่ของเอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือกเป็นแอตทริบิวต์ที่แท้จริงของเอนทิตีในคู่ตัวเลือกของเอนทิตี-แอตทริบิวต์ หรือไม่
ซึ่งรวมถึงการสร้างการฝังคำในชุดประโยคที่รวมเอนทิตีและแอตทริบิวต์และการสร้าง โดยใช้คู่เอนทิตี-แอตทริบิวต์ที่ รู้จัก
นอกจากนี้ยังรวมถึงการสร้างการฝังการกระจายแอตทริบิวต์สำหรับเอนทิตีตามแอตทริบิวต์อื่นๆ ที่เกี่ยวข้องกับเอนทิตีจากคู่แอตทริบิวต์-แอตทริบิวต์ที่รู้จัก และการสร้างการฝังการกระจายแอตทริบิวต์สำหรับแอตทริบิวต์ตามแอตทริบิวต์ที่รู้จักที่เกี่ยวข้องกับเอนทิตีที่รู้จักของแอตทริบิวต์ในแอตทริบิวต์ที่รู้จัก คู่เอน ทิ ตี-แอตทริบิวต์
ตามการฝังเหล่านี้ เครือข่าย feedforward จะกำหนดว่าแอตทริบิวต์ในคู่ตัวเลือกเอนทิตี-แอตทริบิวต์เป็นแอตทริบิวต์ที่แท้จริงของเอนทิตีในคู่ตัวเลือกแอตทริบิวต์เอนทิตี-แอตทริบิวต์ หรือไม่

การระบุความสัมพันธ์ของแอตทริบิวต์เอนทิตีในข้อความ

คู่เอนทิตี-แอตทริบิวต์ของผู้สมัคร (โดยที่แอตทริบิวต์เป็นแอตทริบิวต์ผู้สมัครของเอนทิตี) จะถูกป้อนเข้าสู่แบบจำลองการจัดหมวด หมู่ โมเดลการจัดประเภทใช้เอ็นจินการฝังพาธ เอ็นจินการแทนค่าการกระจาย เอ็นจิ้นแอททริบิวต์ และเครือข่าย feedforward กำหนดว่าแอตทริบิวต์ในคู่เอนทิตี-แอตทริบิวต์ของผู้สมัครเป็นเอนทิตีที่จำเป็นในคู่แอตทริบิวต์-แอตทริบิวต์ของผู้สมัคร หรือไม่
เอ็น จิ้นการฝังพาธ จะสร้างเวกเตอร์ที่แสดงถึงการฝังพาธหรือคำที่เชื่อมโยงการเกิดขึ้นประจำวันของเอนทิตีและแอตทริบิวต์ในชุดประโยค (เช่น 30 ประโยคขึ้นไป) ของชุด ข้อมูล กลไกการเป็นตัวแทนการกระจายจะสร้างเวกเตอร์ที่แสดงถึงการฝังสำหรับเงื่อนไขของเอนทิตีและแอตทริบิวต์ตามบริบทภายในที่คำศัพท์เหล่านี้ปรากฏในชุดของ ประโยค เครื่องมือแอตทริบิวต์การกระจายสร้างเวกเตอร์ที่แสดงถึงการฝังสำหรับเอนทิตีและเวกเตอร์อื่นที่แสดงถึงการฝังสำหรับ แอตทริบิวต์
การฝังกลไกการกระจายแอตทริบิวต์ สำหรับเอนทิตีได้รับตามคุณลักษณะอื่นๆ (เช่น แอตทริบิวต์อื่นที่ไม่ใช่แอตทริบิวต์ตัวเลือก) ที่ทราบว่าเชื่อมโยงกับเอนทิตีในชุด ข้อมูล การฝังกลไกการกระจายโดยละเอียดสำหรับคุณภาพนั้นขึ้นอยู่กับคุณลักษณะต่างๆ ที่เกี่ยวข้องกับเอนทิตีที่ทราบของแอตทริบิวต์ผู้ สมัคร
โมเดลการจำแนกประเภท เชื่อมการแสดงเวกเตอร์จากเอ็นจินการ ฝัง p ath, เอ็นจิ้นการ แทนค่า d และ เอ็นจินแอ ททริบิวต์ d ในการแทนค่าเวกเตอร์เดียว จากนั้น โมเดลการจัดหมวดหมู่จะป้อนการแสดงเวกเตอร์เดี่ยวลงในเครือข่าย feedforward ที่กำหนด โดยใช้การแสดงเวกเตอร์เดียว ว่าแอตทริบิวต์ในคู่ของเอนทิตี-แอตทริบิวต์ที่สมัครเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในคู่เอนทิตี-แอตทริบิวต์ที่สมัคร หรือไม่
สมมติว่าเครือข่าย feedforward กำหนดว่าจุดในคู่เอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือกนั้นจำเป็นสำหรับเอนทิตีในคู่ของเอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือก ในกรณีนั้น คู่เอนทิตี-แอททริบิวต์ของผู้สมัครจะถูกจัดเก็บไว้ในฐานความรู้พร้อมกับคู่เอนทิตี-แอททริบิวต์ที่ทราบ/จริงอื่น

การแยกความสัมพันธ์ของแอตทริบิวต์เอนทิตี

สภาพแวดล้อมรวมถึงแบบจำลองการจัดประเภทที่ สำหรับคู่เอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือกในฐานความรู้ จะกำหนดว่าแอตทริบิวต์ในคู่แอตทริบิวต์ของผู้สมัครเป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในคู่ของผู้สมัคร หรือไม่ โมเดลการจัดหมวดหมู่เป็นโมเดลโครงข่ายประสาทเทียม และส่วนประกอบต่างๆ ได้อธิบายไว้ด้าน ล่าง โมเดลการจัดหมวดหมู่ยังสามารถใช้โมเดลแมชชีนเลิ ร์น นิงอื่นๆ ที่มีการควบคุมดูแลและไม่ได้รับการดูแล
ฐานความรู้ ซึ่งสามารถรวมฐานข้อมูล (หรือโครงสร้างการจัดเก็บข้อมูลที่เหมาะสมอื่นๆ) ที่จัดเก็บไว้ในสื่อจัดเก็บข้อมูลที่ไม่ใช่การส่งต่อ (เช่น ฮาร์ดไดรฟ์ หน่วยความจำแฟลช ฯลฯ) มีชุดของคู่เอนทิตี-แอตทริบิวต์ที่เป็น ตัวเลือก คู่เอนทิตี-แอตทริบิวต์ของผู้สมัครรับมาโดยใช้ชุดเนื้อหาในเอกสารข้อความ เช่น หน้าเว็บและบทความข่าว ที่ได้รับจากแหล่งข้อมูล แหล่งข้อมูลสามารถรวมแหล่งที่มาของเนื้อหาใดก็ได้ เช่น เว็บไซต์ข่าว แพลตฟอร์มรวบรวมข้อมูล แพลตฟอร์มโซเชียลมีเดีย ฯลฯ
แหล่งข้อมูลรับบทความข่าวจากแพลตฟอร์มรวบรวมข้อมูล แหล่งข้อมูลสามารถใช้แบบจำลองได้ โมเดลแมชชีนเลิร์นนิงภายใต้การดูแลหรือไม่มีผู้ดูแล (โมเดลการประมวลผลภาษาธรรมชาติ) จะสร้างชุดของคู่เอนทิตี-แอตทริบิวต์ของผู้สมัครโดยแยกประโยคจากบทความและแปลงเป็นโทเค็นและติดป้ายกำกับประโยคที่แยกออกมา เช่น เป็นเอนทิตีและแอตทริบิวต์ โดยใช้ส่วนของคำพูด และแท็ ต้นไม้แยกวิเคราะห์การพึ่งพา
แหล่งข้อมูลสามารถป้อนประโยคที่แยกออกมาในรูปแบบการเรียนรู้ของเครื่อง ตัวอย่างเช่น สามารถรับการฝึกอบรมโดยใช้ชุดประโยคการฝึกและคู่เอนทิตี-แอตทริบิวต์ที่ เกี่ยวข้อง โมเดลแมชชีนเลิร์นนิงดังกล่าวสามารถส่งออกทีมแอตทริบิวต์ของผู้สมัครสำหรับประโยคที่ดึงข้อมูล เข้า
ในฐานความรู้ แหล่งข้อมูลจะจัดเก็บคู่เอนทิตี-แอททริบิวต์ของผู้สมัคร และประโยคที่แยกโดยแหล่งข้อมูลที่มีคำของคู่เอนทิตี-แอททริบิ วต์ ของผู้สมัคร คู่คู่ของเอนทิตี-แอตทริบิวต์ของผู้สมัครจะถูกเก็บไว้ในฐานความรู้ก็ต่อเมื่อจำนวนประโยคที่มีเอนทิตีและแอตทริบิวต์อยู่ตรง (เช่น ตรงหรือเกินกว่า) จำนวนประโยคตามเกณฑ์ (เช่น 30 ประโยค )
แบบจำลองการจัดประเภทกำหนดว่าแอตทริบิวต์ในคู่เอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือก (เก็บไว้ในฐานความรู้) เป็นแอตทริบิวต์ที่แท้จริงของเอนทิตีในคู่แอตทริบิวต์ของเอนทิตีที่สมัคร หรือไม่ โมเดลการจัดหมวดหมู่ประกอบด้วยเอ็นจินการฝังพาธ 106 แหล่งการแทนการแจกแจง เอ็นจิ้นแอททริบิวต์ และเครือข่ายฟีด ฟอร์เวิร์ด ตามที่ใช้ในที่นี้ คำว่าเอ็นจิ้นหมายถึงเครื่องมือประมวลผลข้อมูลที่ดำเนินการชุดของงาน การทำงานของเอ็นจิ้นเหล่านี้ของแบบจำลองการจัดหมวดหมู่ในการพิจารณาว่าแอตทริบิวต์ในคู่ของเอนทิตี-แอตทริบิวต์ของผู้สมัครเป็นแอตทริบิวต์ที่สำคัญของเอนทิตี หรือไม่

กระบวนการตัวอย่างสำหรับการระบุความสัมพันธ์ของแอตทริบิวต์ของเอนทิตี

มีการอธิบายการทำงานของกระบวนการด้านล่างว่าดำเนินการโดยส่วนประกอบของระบบ และหน้าที่ ของกระบวนการได้อธิบายไว้ด้านล่างเพื่อจุดประสงค์ในการอธิบายเท่านั้น การดำเนินการของกระบวนการสามารถทำได้โดยอุปกรณ์หรือระบบที่เหมาะสม เช่น เครื่องมือประมวลผลข้อมูลใดๆ ที่ เกี่ยวข้อง ฟังก์ชันของกระบวนการนี้ยังสามารถนำไปใช้เป็นคำแนะนำที่จัดเก็บไว้ในสื่อที่คอมพิวเตอร์อ่านไม่ได้ ชั่วคราว การดำเนินการตามคำสั่งทำให้อุปกรณ์ประมวลผลข้อมูลดำเนินการตาม กระบวนการ
ฐานความรู้ได้รับคู่ผู้สมัครแอตทริบิวต์เอนทิตีจากแหล่งข้อมูล
ฐานความรู้ได้รับชุดของประโยคจากแหล่งข้อมูลที่รวมคำของเอนทิตีและแอตทริบิวต์ในคู่เอนทิตี-แอตทริบิวต์ของผู้ สมัคร
ขึ้นอยู่กับชุดของประโยคและคู่เอนทิตี-แอตทริบิวต์ของผู้สมัคร โมเดลการจัดหมวดหมู่จะกำหนดว่าแอตทริบิวต์ผู้สมัครเป็นแอตทริบิวต์จริงของเอนทิตีผู้สมัคร หรือไม่ ชุดของบทลงโทษสามารถเป็นประโยคจำนวนมากได้ เช่น 30 ประโยคขึ้นไป

แบบจำลองการจำแนกที่ดำเนินการดังต่อไปนี้

  • การฝังคำในชุดประโยคที่มีเอนทิตีและแอตทริบิวต์มีรายละเอียดเพิ่มเติมด้านล่างเกี่ยวกับกระบวนการด้านล่าง
  • สร้างโดยใช้คู่ของเอนทิตี-แอตทริบิวต์ที่รู้จัก การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี ซึ่งอธิบายรายละเอียดเพิ่มเติมด้านล่างเกี่ยวกับการดำเนินการ
  • การสร้าง โดยใช้คู่ของเอนทิตี-แอตทริบิวต์ที่รู้จักและการฝังแอตทริบิวต์การกระจายสำหรับแอตทริบิวต์ ซึ่งอธิบายรายละเอียดเพิ่มเติมด้านล่างเกี่ยวกับการดำเนินการ
  • การเลือก โดยอิงจากการฝังคำในชุดประโยค การฝังแอตทริบิวต์การกระจายสำหรับเอนทิตี และการฝังแอตทริบิวต์การกระจายสำหรับแอตทริบิวต์ ไม่ว่าแอตทริบิวต์ในคู่ตัวเลือกเอนทิตี-แอตทริบิวต์เป็นแอตทริบิวต์ที่สำคัญของเอนทิตีใน คู่ตัวเลือกเอนทิตี-แอตทริบิวต์ ซึ่งมีรายละเอียดเพิ่มเติมด้านล่างเกี่ยวกับการดำเนิน การ
เอ็นจินการฝังพาธจะสร้างการแสดงเวกเตอร์แรกโดยระบุคำแรกที่ฝังระหว่างเอนทิตีและแอตทริบิวต์ใน ประโยค เอ็นจินการฝังพาธจะตรวจจับความสัมพันธ์ระหว่างเงื่อนไขของเอนทิตี-แอตทริบิวต์ที่เป็นตัวเลือก โดยการฝังพาธหรือคำที่เชื่อมโยงการเกิดขึ้นทุกวันของคำศัพท์เหล่านี้ในชุด ประโยค
สำหรับวลี "งูเป็นสัตว์เลื้อยคลาน" เอ็นจิ้นการฝังเส้นทางจะสร้างการฝังสำหรับแทร็ก "เป็น" ซึ่งสามารถใช้เพื่อตรวจจับได้ เช่น ความสัมพันธ์ระหว่างสกุล ซึ่งสามารถใช้เพื่อระบุแอตทริบิวต์เอนทิตีอื่น ๆ คู่ .

การสร้างคำระหว่างเอนทิตีและคุณลักษณะ

เอ็นจินการฝังพาธทำสิ่งต่อไปนี้เพื่อสร้างคำระหว่างเอนทิตีและแอตทริบิวต์ใน ประโยค สำหรับแต่ละประโยคในชุดประโยค เอ็นจินการฝังพาธจะแยกพาธการพึ่งพา (ซึ่งระบุกลุ่มคำ) ระหว่างเอนทิตีและแอตทริบิวต์ ก่อน เอ็นจิ้นการฝังพาธจะแปลงประโยคจากสตริงเป็นรายการ โดยที่เทอมแรกคือเอนทิตี และเทอมสุดท้ายคือแอททริบิวต์ (หรือเทอมแรกคือแอททริบิวต์ และเทอมก่อนหน้าคือเอนทิตี )
แต่ละคำ (ซึ่งเรียกอีกอย่างว่าขอบ) ในเส้นทางการขึ้นต่อกันจะถูกแสดงโดยใช้คุณสมบัติต่อไปนี้: บทแทรกของคำศัพท์ แท็กส่วนหนึ่งของคำพูด ป้ายการขึ้นต่อกัน และทิศทางของเส้นทางการขึ้นต่อกัน (ซ้าย , ขวาหรือรูท) . แต่ละคุณลักษณะเหล่านี้ได้รับการฝังและต่อกันเพื่อสร้างการแสดงเวกเตอร์สำหรับคำหรือขอบ (V.sub.e) ซึ่งประกอบด้วยลำดับของเวกเตอร์ (V.sub.l, V.sub.pos, V.sub.dep , V.sub.dir) ดังที่แสดงโดยสมการด้านล่าง: {right arrow over (v)}.sub.e=[{right arrow over (v)}.sub.l,{right arrow over (v)} .sub.pos,{ลูกศรขวาเหนือ (v)}.sub.dep,{ลูกศรขวาเหนือ (v)}.sub.dir]
จากนั้นเอ็นจิ้นการฝังพาธจะป้อนลำดับของเวกเตอร์สำหรับเงื่อนไขหรือขอบในแต่ละเส้นทางลงในเครือข่ายหน่วยความจำระยะสั้น (LSTM) ซึ่งสร้างการแสดงเวกเตอร์เดียวสำหรับประโยค (V.sub.s) ดังที่แสดงโดย สมการด้านล่าง: {right arrow over (v)}.sub.s=LSTM({right arrow over (v)}.sub.e.sup.(1) . . . {right arrow over (v)}.sub .e.sup.(k))
สุดท้าย เอ็นจิ้นการฝังพาธจะป้อนการแสดงเวกเตอร์เดียวสำหรับประโยคทั้งหมดในชุดประโยคลงในกลไกการเอาใจใส่ ซึ่งกำหนดค่าเฉลี่ยถ่วงน้ำหนักของการแสดงประโยค (V.sub.sents(e,a)) ดังที่แสดงโดย สมการด้านล่าง: {right arrow over (v)}.sub.sents(e,a)=ATTN({right arrow over (v)}.sub.s.sup.(1) . . . { right arrow over (v) )}.sub.s.sup.(n))
รูปแบบการแสดงแทนการกระจายจะสร้างการแสดงเวกเตอร์ที่สองสำหรับเอนทิตีและการแสดงเวกเตอร์ ที่ สามสำหรับแอตทริบิวต์ตามประโยค กลไกการเป็นตัวแทนการกระจายจะตรวจจับความสัมพันธ์ระหว่างเงื่อนไขของเอนทิตี-แอตทริบิวต์ของผู้สมัครตามบริบทภายในจุดนั้นและเอนทิตีของคู่เอนทิตี-แอตทริบิวต์ที่สมัครอยู่ในชุดของ ประโยค ตัวอย่างเช่น กลไกการเป็นตัวแทนแบบกระจายอาจกำหนดว่าเอนทิตี "นิวยอร์ก" ถูกใช้ในการรวบรวมประโยคในลักษณะที่บ่งชี้ว่าเอนทิตีนี้อ้างถึงเมืองหรือรัฐใน สหรัฐอเมริกา
อีกตัวอย่างหนึ่ง เครื่องมือแสดงการแจกแจงแบบกระจายอาจกำหนดว่ามีการใช้แอตทริบิวต์ "ทุน" ในชุดประโยคในลักษณะที่แสดงให้เห็นว่าแอตทริบิวต์นี้อ้างอิงถึงเมืองที่สำคัญภายในรัฐหรือ ประเทศ ดังนั้นกลไกการเป็นตัวแทนการกระจายจะสร้างการแสดงเวกเตอร์ที่ระบุการฝังสำหรับเอนทิตี (V.sub.e) โดยใช้บริบท (เช่น ชุดของประโยค) ภายในที่เอนทิตีปรากฏ ขึ้น เอ็นจิ้นการแทนค่าแบบกระจายจะสร้างการแสดงเวกเตอร์ (V.sub.a) ซึ่งระบุการฝังสำหรับแอตทริบิวต์โดยใช้ชุดของประโยคที่แสดงคุณลักษณะ นั้น
กลไกจัดการแอตทริบิวต์การกระจายจะสร้างการแสดงเวกเตอร์ที่สี่ซึ่งระบุการฝังแอตทริบิวต์การกระจายสำหรับเอนทิตีโดยใช้คู่แอตทริบิวต์-แอตทริบิวต์ที่ รู้จัก คู่เอนทิตี-แอตทริบิวต์ที่รู้จัก ซึ่งจัดเก็บไว้ในฐานความรู้ เป็นคู่แอตทริบิวต์-แอตทริบิวต์ที่ได้รับการยืนยัน (เช่น ใช้การประมวลผลก่อนหน้าโดยแบบจำลองการจัดหมวดหมู่หรือตามการประเมินของมนุษย์) ที่แต่ละแอตทริบิวต์ในเอนทิตี- คู่แอตทริบิวต์เป็นแอตทริบิวต์ที่สำคัญของเอนทิตีในคู่แอตทริบิวต์ของเอนทิ ตี
เอ็นจินแอ็ตทริบิวต์การกระจายดำเนินการต่อไปนี้เพื่อกำหนดแอ็ตทริบิวต์การฝังแอตทริบิวต์การแจกจ่ายที่ระบุการฝังสำหรับเอนทิตีโดยใช้บางแอตทริบิวต์ (เช่น ทั่วไปมากที่สุด) หรือแอตทริบิวต์ที่รู้จักอื่นๆ ทั้งหมดระหว่างคู่ของเอนทิตี-แอตทริบิวต์ที่รู้จักซึ่งเอนทิตีได้รับการเชื่อม โยง

การระบุคุณสมบัติอื่นๆ สำหรับนิติบุคคล

สำหรับเอนทิตีในคู่ตัวเลือกเอนทิตี-แอตทริบิวต์เอ็นจินการแจกจ่ายแอตทริบิวต์ระบุแอตทริบิวต์อื่นนอกเหนือจากที่รวมอยู่ในคู่ผู้สมัครแอตทริบิวต์เอนทิตีที่เกี่ยวข้องกับเอนทิตีในทีมแอตทริบิวต์ที่ รู้จัก
สำหรับเอนทิตี "Michael Jordan" ในคู่เอนทิตี-แอตทริบิวต์ผู้สมัคร (Michael Jordan, มีชื่อเสียง) กลไกการกระจายแอตทริบิวต์สามารถใช้คู่เอนทิตี-แอตทริบิวต์ที่รู้จักสำหรับ Michael Jordan เช่น (Michael Jordan, มั่งคั่ง) และ (Michael Jordan, บันทึก) เพื่อระบุคุณลักษณะเช่นความร่ำรวยและคำอธิบาย
จากนั้นกลไกการกระจายแอตทริบิวต์จะสร้างการฝังสำหรับเอนทิตีโดยคำนวณผลรวมถ่วงน้ำหนักของแอตทริบิวต์ที่ทราบที่ระบุ (ตามที่อธิบายไว้ในย่อหน้าก่อนหน้า) โดยที่น้ำหนักจะเรียนรู้โดยใช้กลไกการตั้งใจ ดังที่แสดงในสมการด้านล่าง: {right arrow over (v)}.sub.e=ATTN(.epsilon.(.alpha..sub.1) . . . .epsilon.(.alpha..sub.m))
เอ็นจิ้นแอตทริบิวต์การกระจายสร้างการแสดงเวกเตอร์ที่ห้าซึ่งระบุการฝังแอตทริบิวต์การกระจายสำหรับแอตทริบิวต์โดยใช้คู่แอตทริบิวต์-แอตทริบิวต์ที่ รู้จัก เอ็นจิ้นแอ็ตทริบิวต์ การกระจาย ดำเนินการต่อไปนี้เพื่อกำหนดแบบจำลองโดยยึดตามบางส่วน (ไม่ว่าจะพบบ่อยที่สุด) หรือ แอตทริบิวต์ที่รู้จัก ทั้งหมด ที่เกี่ยวข้องกับเอนทิตีที่รู้จักของแอตทริบิวต์ ตัวเลือก
สำหรับจุดในคู่ตัวเลือกเอนทิตี-แอตทริบิวต์เอ็นจินการแจกจ่ายแอตทริบิวต์ระบุเอนทิตีที่รู้จักระหว่างคู่แอตทริบิวต์เอนทิตี-แอตทริบิวต์ที่รู้จักที่มี คุณภาพ
สำหรับแต่ละเอนทิตีที่รู้จักที่ระบุ เอ็นจินการแจกจ่ายแอตทริบิวต์จะระบุแอตทริบิวต์อื่นๆ (เช่น แอตทริบิวต์อื่นที่ไม่ใช่แอตทริบิวต์ที่รวมอยู่ในคู่ผู้สมัครแอตทริบิวต์เอนทิตี-แอตทริบิวต์) ที่เกี่ยวข้องกับเอนทิตีในทีมแอตทริบิวต์ที่ รู้จัก กลไกจัดการแอตทริบิวต์แบบกระจายสามารถระบุชุดย่อยของแอตทริบิวต์จากแอตทริบิวต์ที่ระบุได้โดย:
(1) คุณลักษณะการจัดอันดับตามจำนวนเอนทิตีที่รู้จักซึ่งเชื่อมโยงกับแต่ละเอนทิตี เช่น การกำหนดอันดับที่สูงกว่าให้กับแอตทริบิวต์ที่เกี่ยวข้องกับจำนวนเอนทิตีที่สูงกว่าแอตทริบิวต์ที่เกี่ยวข้องกับเอนทิตีที่น้อยกว่า)

ค้นหาข่าวตรงไปยังกล่องจดหมายของคุณ

ช่องนี้มีไว้เพื่อวัตถุประสงค์ในการตรวจสอบและไม่ควรเปลี่ยนแปลง

*ที่จำเป็น