คำถามและคำตอบในการสัมภาษณ์ Hadoop มากกว่า 30 รายการ
เผยแพร่แล้ว: 2022-12-01สถิติจาก Forbes ระบุว่ากว่า 90% ขององค์กรระดับโลกใช้การวิเคราะห์ข้อมูลขนาดใหญ่เพื่อสร้างรายงานการลงทุนของตน
ด้วยความนิยมที่เพิ่มขึ้นของ Big Data ส่งผลให้โอกาสในการทำงานของ Hadoop เพิ่มมากขึ้นกว่าเมื่อก่อน
ดังนั้น เพื่อช่วยให้คุณได้รับบทบาทเป็นผู้เชี่ยวชาญ Hadoop คุณสามารถใช้คำถามและคำตอบในการสัมภาษณ์เหล่านี้ที่เรารวบรวมไว้ให้คุณในบทความนี้เพื่อช่วยให้คุณผ่านการสัมภาษณ์
บางทีการรู้ข้อเท็จจริง เช่น ช่วงเงินเดือนที่ทำให้ Hadoop และบทบาท Big Data มีกำไร อาจกระตุ้นให้คุณผ่านการสัมภาษณ์นั้นใช่ไหม
- จากข้อมูลของ Indeed.com นักพัฒนา Big Data Hadoop ในสหรัฐอเมริกาได้รับเงินเดือนเฉลี่ย 144,000 ดอลลาร์
- ตาม itjobswatch.co.uk เงินเดือนเฉลี่ยของนักพัฒนา Big Data Hadoop คือ 66,750 ปอนด์
- ในอินเดีย แหล่งข่าวของ Indeed.com ระบุว่าพวกเขาจะได้รับเงินเดือนเฉลี่ย ₹16,00,000
ร่ำรวยคุณไม่คิดเหรอ? ตอนนี้เรามาเรียนรู้เกี่ยวกับ Hadoop กัน
Hadoop คืออะไร?
Hadoop เป็นเฟรมเวิร์กยอดนิยมที่เขียนด้วย Java ซึ่งใช้โมเดลการเขียนโปรแกรมเพื่อประมวลผล จัดเก็บ และวิเคราะห์ชุดข้อมูลขนาดใหญ่
ตามค่าเริ่มต้น การออกแบบอนุญาตให้ขยายขนาดจากเซิร์ฟเวอร์เครื่องเดียวเป็นหลายเครื่องที่มีการคำนวณและการจัดเก็บภายในเครื่อง นอกจากนี้ ความสามารถในการตรวจจับและจัดการกับความล้มเหลวของชั้นแอปพลิเคชัน ซึ่งส่งผลให้บริการมีความพร้อมใช้งานสูง ทำให้ Hadoop ค่อนข้างน่าเชื่อถือ
มาดูคำถามสัมภาษณ์ Hadoop ที่พบบ่อยและคำตอบที่ถูกต้องกัน
คำถามและคำตอบในการสัมภาษณ์ของ Hadoop

หน่วยเก็บข้อมูลใน Hadoop คืออะไร
คำตอบ : หน่วยเก็บข้อมูลของ Hadoop เรียกว่า Hadoop Distributed File System (HDFS)
Network Attached Storage แตกต่างจาก Hadoop Distributed File System อย่างไร
คำตอบ : HDFS ซึ่งเป็นที่เก็บข้อมูลหลักของ Hadoop เป็นระบบไฟล์แบบกระจายที่เก็บไฟล์ขนาดใหญ่โดยใช้ฮาร์ดแวร์สินค้าโภคภัณฑ์ ในทางกลับกัน NAS เป็นเซิร์ฟเวอร์จัดเก็บข้อมูลคอมพิวเตอร์ระดับไฟล์ที่ให้กลุ่มลูกค้าที่แตกต่างกันสามารถเข้าถึงข้อมูลได้
ในขณะที่การจัดเก็บข้อมูลใน NAS อยู่บนฮาร์ดแวร์เฉพาะ HDFS จะกระจายบล็อคข้อมูลไปยังเครื่องทั้งหมดภายในคลัสเตอร์ Hadoop
NAS ใช้อุปกรณ์จัดเก็บข้อมูลระดับไฮเอนด์ซึ่งค่อนข้างแพง ในขณะที่ฮาร์ดแวร์สินค้าโภคภัณฑ์ที่ใช้ใน HDFS นั้นคุ้มค่า
NAS จัดเก็บข้อมูลแยกต่างหากจากการคำนวณ ดังนั้นจึงไม่เหมาะสำหรับ MapReduce ในทางตรงกันข้าม การออกแบบของ HDFS ช่วยให้สามารถทำงานร่วมกับเฟรมเวิร์ก MapReduce ได้ การคำนวณจะย้ายไปยังข้อมูลในเฟรมเวิร์ก MapReduce แทนที่จะเป็นข้อมูลในการคำนวณ
อธิบาย MapReduce ใน Hadoop และ Shuffling
คำตอบ : MapReduce อ้างถึงงานที่แตกต่างกันสองอย่างที่โปรแกรม Hadoop ดำเนินการเพื่อเปิดใช้งานความสามารถในการปรับขยายขนาดใหญ่ในเซิร์ฟเวอร์หลายร้อยถึงพันเครื่องภายในคลัสเตอร์ Hadoop ในทางกลับกัน การสับเปลี่ยนจะถ่ายโอนเอาต์พุตแผนที่จาก Mappers ไปยังตัวลดขนาดที่จำเป็นใน MapReduce
ให้ภาพรวมในสถาปัตยกรรม Apache Pig

คำตอบ : สถาปัตยกรรม Apache Pig มีล่าม Pig Latin ที่ประมวลผลและวิเคราะห์ชุดข้อมูลขนาดใหญ่โดยใช้สคริปต์ Pig Latin
Apache pig ยังประกอบด้วยชุดของชุดข้อมูลที่ดำเนินการกับข้อมูล เช่น เข้าร่วม โหลด กรอง เรียงลำดับ และจัดกลุ่ม
ภาษา Pig Latin ใช้กลไกการดำเนินการเช่น Grant shell, UDF และ Embedded สำหรับการเขียนสคริปต์ Pig ที่ทำงานที่จำเป็น
Pig ทำให้การทำงานของโปรแกรมเมอร์ง่ายขึ้นด้วยการแปลงสคริปต์ที่เขียนเหล่านี้เป็นชุดงาน Map-Reduce
ส่วนประกอบสถาปัตยกรรม Apache Pig ประกอบด้วย:
- Parser – จัดการ Pig Scripts โดยการตรวจสอบไวยากรณ์ของสคริปต์และดำเนินการตรวจสอบประเภท เอาต์พุตของโปรแกรมแยกวิเคราะห์แสดงคำสั่งของ Pig Latin และตัวดำเนินการเชิงตรรกะ และเรียกว่า DAG (กราฟกำกับแบบ acyclic)
- เครื่องมือเพิ่มประสิทธิภาพ – เครื่องมือเพิ่มประสิทธิภาพใช้การปรับให้เหมาะสมเชิงตรรกะ เช่น การฉายภาพและการเลื่อนลงบน DAG
- คอมไพเลอร์ – รวบรวมแผนตรรกะที่ปรับให้เหมาะสมจากเครื่องมือเพิ่มประสิทธิภาพเป็นชุดของงาน MapReduce
- Execution Engine – นี่คือที่การดำเนินการขั้นสุดท้ายของงาน MapReduce ในเอาต์พุตที่ต้องการ
- โหมดการดำเนินการ – โหมด การดำเนินการใน Apache pig ส่วนใหญ่ประกอบด้วยโหมดท้องถิ่นและการลดแผนที่
แสดงรายการความแตกต่างระหว่าง Local Metastore และ Remote Metastore
คำตอบ : บริการ Metastore ใน Local Metastore ทำงานใน JVM เดียวกันกับ Hive แต่เชื่อมต่อกับฐานข้อมูลที่ทำงานในกระบวนการแยกต่างหากบนเครื่องเดียวกันหรือเครื่องระยะไกล ในทางกลับกัน Metastore ใน Remote Metastore ทำงานใน JVM โดยแยกจากบริการ Hive JVM
Five V's ของ Big Data คืออะไร?
คำตอบ : V ทั้งห้านี้แสดงถึงลักษณะสำคัญของ Big Data พวกเขารวมถึง:
- มูลค่า : ข้อมูลขนาดใหญ่พยายามที่จะให้ประโยชน์ที่สำคัญจากผลตอบแทนจากการลงทุน (ROI) สูงแก่องค์กรที่ใช้ข้อมูลขนาดใหญ่ในการดำเนินงานข้อมูลของตน ข้อมูลขนาดใหญ่นำคุณค่านี้มาจากการค้นพบข้อมูลเชิงลึกและการจดจำรูปแบบ ซึ่งส่งผลให้ลูกค้าสัมพันธ์แน่นแฟ้นยิ่งขึ้นและการดำเนินงานที่มีประสิทธิภาพยิ่งขึ้น รวมถึงประโยชน์อื่นๆ
- ความ หลากหลาย : สิ่งนี้แสดงถึงความแตกต่างของประเภทข้อมูลที่รวบรวม รูปแบบต่างๆ ได้แก่ CSV วิดีโอ เสียง ฯลฯ
- ปริมาณ : กำหนดจำนวนและขนาดที่สำคัญของข้อมูลที่จัดการและวิเคราะห์โดยองค์กร ข้อมูลนี้แสดงถึงการเติบโตแบบทวีคูณ
- ความเร็ว : นี่คืออัตราความเร็วแบบทวีคูณสำหรับการเติบโตของข้อมูล
- ความ จริง : ความจริงหมายถึงข้อมูลที่ 'ไม่แน่นอน' หรือ 'ไม่ถูกต้อง' มีอยู่อย่างไร เนื่องจากข้อมูลไม่สมบูรณ์หรือไม่สอดคล้องกัน
อธิบายประเภทข้อมูลต่างๆ ของ Pig Latin
คำตอบ : ประเภทข้อมูลใน Pig Latin รวมถึงประเภทข้อมูลอะตอมและประเภทข้อมูลที่ซับซ้อน
ชนิดข้อมูล Atomic เป็นชนิดข้อมูลพื้นฐานที่ใช้ในทุกภาษา รวมถึงสิ่งต่อไปนี้:
- Int – ชนิดข้อมูลนี้กำหนดจำนวนเต็ม 32 บิตที่เซ็นชื่อ ตัวอย่าง: 13
- ยาว – ยาวกำหนดจำนวนเต็ม 64 บิต ตัวอย่าง: 10L
- Float – กำหนดจุดลอยตัว 32 บิตที่เซ็นชื่อ ตัวอย่าง: 2.5F
- สองเท่า – กำหนดจุดลอยตัว 64 บิตที่เซ็นชื่อ ตัวอย่าง: 23.4
- บูลีน – กำหนดค่าบูลีน ประกอบด้วย: จริง/เท็จ
- วันที่และเวลา – กำหนดค่าวันที่-เวลา ตัวอย่าง: 1980-01-01T00:00.00.000+00:00
ประเภทข้อมูลที่ซับซ้อนประกอบด้วย:
- Map- แผนที่หมายถึงชุดคู่ของคีย์-ค่า ตัวอย่าง: ['สี'#'สีเหลือง', 'หมายเลข'#3]
- กระเป๋า – เป็นชุดของชุดของทูเพิล และใช้สัญลักษณ์ '{}' ตัวอย่าง: {(เฮนรี่ 32), (กิติ 47)}
- ทูเพิล – ทูเพิลกำหนดชุดของฟิลด์ที่เรียงลำดับ ตัวอย่าง : (อายุ 33 ปี)
Apache Oozie และ Apache ZooKeeper คืออะไร
คำตอบ : Apache Oozie เป็นตัวกำหนดตารางเวลา Hadoop ที่รับผิดชอบการจัดตารางเวลาและเชื่อมโยงงาน Hadoop เข้าด้วยกันเป็นงานเชิงตรรกะเดียว
ในทางกลับกัน Apache Zookeeper ประสานงานกับบริการต่างๆ ในสภาพแวดล้อมแบบกระจาย ช่วยประหยัดเวลาของนักพัฒนาโดยเพียงแค่เปิดเผยบริการง่ายๆ เช่น การซิงโครไนซ์ การจัดกลุ่ม การบำรุงรักษาการกำหนดค่า และการตั้งชื่อ นอกจากนี้ Apache Zookeeper ยังให้การสนับสนุนแบบสำเร็จรูปสำหรับการจัดคิวและการเลือกผู้นำ
บทบาทของ Combiner, RecordReader และ Partitioner ในการดำเนินการ MapReduce คืออะไร
คำตอบ : ตัวรวมทำหน้าที่เหมือนตัวลดขนาดเล็ก รับและทำงานกับข้อมูลจากงานแผนที่ แล้วส่งผ่านข้อมูลออกไปยังเฟสตัวลด
RecordHeader สื่อสารกับ InputSplit และแปลงข้อมูลเป็นคู่คีย์-ค่าเพื่อให้ Mapper อ่านได้อย่างเหมาะสม
Partitioner มีหน้าที่ตัดสินใจจำนวนงานที่ลดลงที่จำเป็นในการสรุปข้อมูลและยืนยันว่าผลลัพธ์ของ Combiner ถูกส่งไปยังตัวลดขนาดอย่างไร ตัวแบ่งพาร์ติชันยังควบคุมการแบ่งคีย์ของเอาต์พุตแผนที่ระดับกลาง
กล่าวถึงการกระจาย Hadoop เฉพาะผู้ขายที่แตกต่างกัน
คำตอบ : ผู้ค้าหลายรายที่ขยายขีดความสามารถของ Hadoop ได้แก่:
- ไอบีเอ็มโอเพ่นแพลตฟอร์ม
- การกระจาย Cloudera CDH Hadoop
- การกระจาย MapR Hadoop
- Amazon Elastic MapReduce
- แพลตฟอร์มข้อมูล Hortonworks (HDP)
- ชุดข้อมูลขนาดใหญ่ที่สำคัญ
- Datastax Enterprise Analytics
- HDInsight ของ Microsoft Azure – การกระจาย Hadoop บนคลาวด์
เหตุใด HDFS จึงทนทานต่อข้อผิดพลาด
คำตอบ : HDFS จำลองข้อมูลบน DataNodes ต่างๆ ทำให้ทนทานต่อความผิดพลาด การจัดเก็บข้อมูลในโหนดต่างๆ จะช่วยให้ดึงข้อมูลจากโหนดอื่นได้เมื่อโหมดหนึ่งขัดข้อง
แยกความแตกต่างระหว่างสหพันธรัฐและความพร้อมใช้งานสูง
คำตอบ : HDFS Federation มีความทนทานต่อความผิดพลาดที่ช่วยให้สามารถรับส่งข้อมูลอย่างต่อเนื่องในโหนดหนึ่งเมื่อโหนดอื่นขัดข้อง ในทางกลับกัน ความพร้อมใช้งานสูงจะต้องมีเครื่องแยกกันสองเครื่องที่กำหนดค่า NameNode ที่ใช้งานอยู่และ NameNode รองในเครื่องแรกและเครื่องที่สองแยกกัน

การรวมเข้าด้วยกันสามารถมี NameNodes ที่ไม่เกี่ยวข้องได้ไม่จำกัดจำนวน ในขณะที่มีความพร้อมใช้งานสูง จะมีเพียง NameNode ที่เกี่ยวข้องสองรายการเท่านั้นที่เปิดใช้งานและสแตนด์บายซึ่งทำงานอย่างต่อเนื่อง
NameNodes ในสหพันธรัฐแบ่งปันกลุ่มข้อมูลเมตา โดยแต่ละ NameNode จะมีกลุ่มเฉพาะของตน อย่างไรก็ตาม ในความพร้อมใช้งานสูง NameNodes ที่ใช้งานอยู่จะทำงานทีละโหนด ในขณะที่ NameNodes ที่สแตนด์บายจะไม่ได้ใช้งานและอัปเดตข้อมูลเมตาเป็นครั้งคราวเท่านั้น
จะค้นหาสถานะของบล็อกและความสมบูรณ์ของระบบไฟล์ได้อย่างไร
คำตอบ : คุณใช้คำสั่ง hdfs fsck /
ที่ทั้งระดับผู้ใช้รูทและแต่ละไดเร็กทอรีเพื่อตรวจสอบสถานะความสมบูรณ์ของระบบไฟล์ HDFS
คำสั่ง HDFS fsck ที่ใช้งานอยู่:
hdfs fsck / -files --blocks –locations> dfs-fsck.log
คำอธิบายของคำสั่ง:
- -files: พิมพ์ไฟล์ที่คุณกำลังตรวจสอบ
- –locations: พิมพ์ตำแหน่งของบล็อกทั้งหมดขณะตรวจสอบ
คำสั่งเพื่อตรวจสอบสถานะของบล็อก:
hdfs fsck <path> -files -blocks
- <เส้นทาง>: เริ่มการตรวจสอบจากเส้นทางที่ผ่านที่นี่
- – บล็อก: พิมพ์บล็อกไฟล์ระหว่างการตรวจสอบ
เมื่อใดที่คุณใช้คำสั่ง rmadmin-refreshNodes และ dfsadmin-refreshNodes
คำตอบ : คำสั่งทั้งสองนี้มีประโยชน์ในการรีเฟรชข้อมูลโหนด ทั้งระหว่างการว่าจ้างหรือเมื่อการว่าจ้างโหนดเสร็จสมบูรณ์
คำสั่ง dfsadmin-refreshNodes
รันไคลเอ็นต์ HDFS และรีเฟรชการกำหนดค่าโหนดของ NameNode คำสั่ง rmadmin-refreshNodes
คำสั่ง เรียกใช้งานการดูแลระบบของ ResourceManager
จุดตรวจคืออะไร?
คำตอบ : Checkpoint เป็นการดำเนินการที่รวมการเปลี่ยนแปลงล่าสุดของระบบไฟล์เข้ากับ FSImage ล่าสุด เพื่อให้ไฟล์บันทึกการแก้ไขยังคงมีขนาดเล็กเพียงพอที่จะทำให้กระบวนการเริ่มต้น NameNode เร็วขึ้น จุดตรวจสอบเกิดขึ้นใน NameNode รอง
เหตุใดเราจึงใช้ HDFS สำหรับแอปพลิเคชันที่มีชุดข้อมูลขนาดใหญ่
คำตอบ : HDFS มีสถาปัตยกรรม DataNode และ NameNode ซึ่งใช้ระบบไฟล์แบบกระจาย
สถาปัตยกรรมทั้งสองนี้ให้การเข้าถึงข้อมูลที่มีประสิทธิภาพสูงผ่านคลัสเตอร์ Hadoop ที่ปรับขนาดได้สูง NameNode เก็บข้อมูลเมตาของระบบไฟล์ไว้ใน RAM ซึ่งส่งผลให้จำนวนหน่วยความจำจำกัดจำนวนไฟล์ระบบไฟล์ HDFS
คำสั่ง 'jps' ทำอะไร?
คำตอบ : คำสั่ง Java Virtual Machine Process Status (JPS) จะตรวจสอบว่า Hadoop daemons เฉพาะ รวมถึง NodeManager, DataNode, NameNode และ ResourceManager กำลังทำงานอยู่หรือไม่ คำสั่งนี้จำเป็นต้องเรียกใช้จากรูทเพื่อตรวจสอบโหนดปฏิบัติการในโฮสต์
'การดำเนินการเชิงเก็งกำไร' ใน Hadoop คืออะไร
คำตอบ : นี่เป็นกระบวนการที่โหนดหลักใน Hadoop แทนที่จะแก้ไขงานที่ช้าที่ตรวจพบ เรียกใช้อินสแตนซ์อื่นของงานเดียวกันเป็นงานสำรอง (งานเก็งกำไร) บนโหนดอื่น การดำเนินการเชิงคาดเดาช่วยประหยัดเวลาได้มาก โดยเฉพาะอย่างยิ่งในสภาพแวดล้อมที่มีภาระงานมาก
ตั้งชื่อสามโหมดที่ Hadoop สามารถเรียกใช้ได้
คำตอบ : โหนดหลักสามโหนดที่ Hadoop ทำงานประกอบด้วย:
- โหนดสแตนด์อโลนเป็นโหมดเริ่มต้นที่เรียกใช้บริการ Hadoop โดยใช้ระบบไฟล์ในเครื่องและกระบวนการ Java เดียว
- โหนดที่กระจายหลอกเรียกใช้งานบริการ Hadoop ทั้งหมดโดยใช้การปรับใช้ Hadoop แบบ ode เดียว
- โหนดแบบกระจายอย่างสมบูรณ์รันบริการหลักและรองของ Hadoop โดยใช้โหนดแยกกัน
UDF คืออะไร?
คำตอบ : UDF(User Defined Functions) ให้คุณเขียนโค้ดฟังก์ชันที่คุณกำหนดเอง ซึ่งคุณสามารถใช้เพื่อประมวลผลค่าคอลัมน์ระหว่างการสืบค้น Impala
DistCp คืออะไร?
คำตอบ : DistCp หรือเรียกสั้นๆ ว่า Distributed Copy เป็นเครื่องมือที่มีประโยชน์สำหรับการคัดลอกข้อมูลขนาดใหญ่ระหว่างหรือภายในคลัสเตอร์ การใช้ MapReduce ทำให้ DistCp ใช้งานสำเนาข้อมูลจำนวนมากแบบกระจายได้อย่างมีประสิทธิภาพ รวมถึงงานอื่นๆ เช่น การจัดการข้อผิดพลาด การกู้คืน และการรายงาน
อธิบาย Metastore ใน Hive
คำตอบ : Hive metastore เป็นบริการที่เก็บข้อมูลเมตาของ Apache Hive สำหรับตาราง Hive ในฐานข้อมูลเชิงสัมพันธ์ เช่น MySQL ให้บริการ API ของ metastore ที่อนุญาตให้เข้าถึงข้อมูลเมตาได้ร้อยละ
กำหนด RDD
คำตอบ : RDD ซึ่งย่อมาจาก Resilient Distributed Datasets เป็นโครงสร้างข้อมูลของ Spark และคอลเลกชันแบบกระจายที่ไม่เปลี่ยนรูปขององค์ประกอบข้อมูลของคุณที่คำนวณบนโหนดคลัสเตอร์ต่างๆ
Native Libraries จะรวมอยู่ใน YARN Jobs ได้อย่างไร?
คำตอบ : คุณสามารถนำไปใช้ได้โดยใช้ -Djava.library. path
ตัวเลือก -Djava.library. path
บนคำสั่งหรือโดยการตั้งค่า LD+LIBRARY_PATH
ในไฟล์ .bashrc โดยใช้รูปแบบต่อไปนี้:
<property> <name>mapreduce.map.env</name> <value>LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/my/libs</value> </property>
อธิบาย 'WAL' ใน HBase
คำตอบ : Write Ahead Log(WAL) เป็นโปรโตคอลการกู้คืนที่บันทึกการเปลี่ยนแปลงข้อมูล MemStore ใน HBase ไปยังที่จัดเก็บแบบไฟล์ WAL จะกู้คืนข้อมูลนี้หาก RegionalServer ขัดข้องหรือก่อนที่จะล้างข้อมูลใน MemStore
YARN เป็นสิ่งทดแทนสำหรับ Hadoop MapReduce หรือไม่
คำตอบ : ไม่ YARN ไม่ใช่การแทนที่ Hadoop MapReduce เทคโนโลยีอันทรงพลังที่เรียกว่า Hadoop 2.0 หรือ MapReduce 2 รองรับ MapReduce แทน
อะไรคือความแตกต่างระหว่าง ORDER BY และ SORT BY ใน HIVE?
คำตอบ : แม้ว่าทั้งสองคำสั่งจะดึงข้อมูลในลักษณะที่เรียงลำดับใน Hive ผลลัพธ์จากการใช้ SORT BY
อาจถูกเรียงลำดับเพียงบางส่วนเท่านั้น
นอกจากนี้ SORT BY
ต้องการตัวลดขนาดเพื่อเรียงลำดับแถว ตัวลดเหล่านี้ที่จำเป็นสำหรับเอาต์พุตสุดท้ายอาจมีหลายตัว ในกรณีนี้ เอาต์พุตสุดท้ายอาจถูกสั่งบางส่วน
ในทางกลับกัน ORDER BY
ต้องการเพียงหนึ่งตัวลดขนาดสำหรับคำสั่งซื้อทั้งหมดในเอาต์พุต คุณยังสามารถใช้คำหลัก LIMIT
ที่ลดเวลาการจัดเรียงทั้งหมด
อะไรคือความแตกต่างระหว่าง Spark และ Hadoop?
คำตอบ : แม้ว่าทั้ง Hadoop และ Spark จะเป็นกรอบการประมวลผลแบบกระจาย แต่ความแตกต่างที่สำคัญคือการประมวลผล โดยที่ Hadoop มีประสิทธิภาพสำหรับการประมวลผลเป็นชุด ส่วน Spark ก็มีประสิทธิภาพสำหรับการประมวลผลข้อมูลแบบเรียลไทม์
นอกจากนี้ Hadoop ส่วนใหญ่อ่านและเขียนไฟล์ไปยัง HDFS ในขณะที่ Spark ใช้แนวคิด Resilient Distributed Dataset เพื่อประมวลผลข้อมูลใน RAM
ขึ้นอยู่กับเวลาแฝง Hadoop เป็นเฟรมเวิร์กการคำนวณเวลาแฝงสูงโดยไม่มีโหมดโต้ตอบในการประมวลผลข้อมูล ในขณะที่ Spark เป็นเฟรมเวิร์กการคำนวณเวลาแฝงต่ำที่ประมวลผลข้อมูลแบบโต้ตอบ
เปรียบเทียบ Sqoop และ Flume
คำตอบ : Sqoop และ Flume เป็นเครื่องมือ Hadoop ที่รวบรวมข้อมูลจากแหล่งต่างๆ และโหลดข้อมูลลงใน HDFS
- Sqoop(SQL-to-Hadoop) แยกข้อมูลที่มีโครงสร้างจากฐานข้อมูล รวมถึง Teradata, MySQL, Oracle และอื่นๆ ในขณะที่ Flume มีประโยชน์สำหรับการแยกข้อมูลที่ไม่มีโครงสร้างจากแหล่งฐานข้อมูลและโหลดลงใน HDFS
- ในแง่ของเหตุการณ์ที่ขับเคลื่อน Flume ขับเคลื่อนด้วยเหตุการณ์ ในขณะที่ Sqoop ไม่ได้ขับเคลื่อนด้วยเหตุการณ์
- Sqoop ใช้สถาปัตยกรรมตัวเชื่อมต่อที่ตัวเชื่อมต่อรู้วิธีเชื่อมต่อกับแหล่งข้อมูลอื่น Flume ใช้สถาปัตยกรรมแบบอิงเอเจนต์ โดยมีโค้ดที่เขียนว่าเป็นตัวแทนที่รับผิดชอบในการดึงข้อมูล
- เนื่องจากลักษณะการกระจายของ Flume จึงสามารถรวบรวมและรวบรวมข้อมูลได้อย่างง่ายดาย Sqoop มีประโยชน์สำหรับการถ่ายโอนข้อมูลแบบขนาน ซึ่งส่งผลให้เอาต์พุตอยู่ในไฟล์หลายไฟล์
อธิบาย BloomMapFile
คำตอบ : BloomMapFile เป็นคลาสที่ขยายคลาส MapFile และใช้ตัวกรองบานแบบไดนามิกที่ให้การทดสอบการเป็นสมาชิกอย่างรวดเร็วสำหรับคีย์
ระบุความแตกต่างระหว่าง HiveQL และ PigLatin
คำตอบ : แม้ว่า HiveQL เป็นภาษาประกาศที่คล้ายกับ SQL แต่ PigLatin เป็นภาษาการไหลของข้อมูลเชิงขั้นตอนระดับสูง
การล้างข้อมูลคืออะไร?
คำตอบ : การล้างข้อมูลเป็นกระบวนการสำคัญในการกำจัดหรือแก้ไขข้อผิดพลาดของข้อมูลที่ระบุ ซึ่งรวมถึงข้อมูลที่ไม่ถูกต้อง ไม่สมบูรณ์ เสียหาย ซ้ำซ้อน และรูปแบบที่ไม่ถูกต้องภายในชุดข้อมูล
กระบวนการนี้มีเป้าหมายเพื่อปรับปรุงคุณภาพของข้อมูลและให้ข้อมูลที่ถูกต้อง สม่ำเสมอ และเชื่อถือได้มากขึ้น ซึ่งจำเป็นสำหรับการตัดสินใจที่มีประสิทธิภาพภายในองค์กร
บทสรุป
ด้วยโอกาสในการทำงานของ Big data และ Hadoop ในปัจจุบัน คุณอาจต้องการเพิ่มโอกาสในการได้รับ คำถามและคำตอบในการสัมภาษณ์ Hadoop ในบทความนี้จะช่วยให้คุณผ่านการสัมภาษณ์ที่กำลังจะมีขึ้น
จากนั้น คุณสามารถดูแหล่งข้อมูลดีๆ เพื่อเรียนรู้ Big Data และ Hadoop
ขอให้โชคดี!