Apa yang Anda Tidak Ketahui Tentang Lem AWS

Diterbitkan: 2022-10-18

Amazon Glue semakin populer karena banyak perusahaan mulai menggunakan layanan integrasi data terkelola.

ETL adalah proses yang mentransfer data dari database sumber ke gudang data. ETL kompleks dan sulit diterapkan untuk semua data perusahaan karena kompleksitasnya. Amazon memperkenalkan AWS Glue untuk mengatasi masalah ini.

Pengembang ETL dan insinyur data menggunakan Lem untuk membangun, memantau, dan menjalankan alur kerja ETL.

Apa itu Lem AWS?

AWS Glue, layanan integrasi data tanpa server, memudahkan untuk menemukan, menyiapkan, memindahkan, dan mengintegrasikan data dari berbagai sumber. Ini berguna untuk pembelajaran mesin (ML) dan analitik.

Ini secara dramatis mengurangi waktu yang dibutuhkan untuk mempersiapkan data untuk analisis. Ini secara otomatis menemukan dan mencantumkan data, menghasilkan kode Scala atau Python untuk mengirimkan data dari sumber, dan memuat serta mengubah pekerjaan sesuai dengan peristiwa waktunya.

Hal ini memungkinkan penjadwalan yang fleksibel dan menciptakan lingkungan Apache Spark yang dapat diskalakan untuk pemuatan data yang ditargetkan. Selain itu, AWS Glue menyediakan pemantauan dan perubahan aliran data yang kompleks. AWS Glue adalah layanan tanpa server yang menyederhanakan operasi rumit pengembangan aplikasi.

Ini memungkinkan integrasi cepat beberapa data yang valid. Itu juga memecah dan mengotorisasi data dengan cepat.

Untuk apa Lem AWS?

Penting untuk mengetahui tempat terbaik untuk menggunakan Amazon Glue. Ini hanya beberapa contoh penggunaan Lem AWS yang harus Anda pertimbangkan.

  • Amazon Glue adalah alat yang memungkinkan Anda menjalankan kueri tanpa server di data lake Amazon S3.
  • Amazon Glue adalah alat yang hebat untuk membantu Anda memulai. Itu membuat semua data Anda dapat diakses di satu antarmuka, memungkinkan Anda untuk menganalisisnya tanpa harus memindahkannya.
  • Amazon Glue dapat digunakan untuk memahami aset data Anda. Amazon Glue memudahkan Anda mencari kumpulan data AWS yang berbeda menggunakan Katalog Data. Anda juga dapat menyimpan data di beberapa layanan AWS menggunakan Katalog Data sambil tetap memiliki tampilan yang konsisten.
  • Lem dapat membantu saat membangun alur kerja ETL yang digerakkan oleh peristiwa. Anda dapat menjalankan operasi ETL Anda dari Amazon S3 dengan memanggil tugas Glue ETL Anda melalui layanan AWS Lambda.
  • AWS Glue juga dapat digunakan untuk membersihkan, memverifikasi, memformat, dan mengatur data untuk penyimpanan di data lake atau gudang.

Komponen Lem AWS

Di bawah ini adalah komponen utama Lem AWS:

  • Katalog data: Katalog data ini berisi metadata dan struktur data.
  • Database: Ini adalah kunci untuk mengakses dan membuat database untuk sumber dan target.
  • Tabel: Buat satu atau beberapa tabel dalam database yang dapat digunakan oleh target dan sumber.
  • Crawler dan Classifier: Crawler mengambil data dari sumber dengan menggunakan klasifikasi bawaan atau kustom. Ini membuat/menggunakan tabel metadata yang telah ditentukan sebelumnya dalam katalog data.
  • Pekerjaan: Ini adalah tugas logika bisnis untuk melakukan tugas ETL. Logika bisnis ini ditulis secara internal oleh Apache Spark menggunakan bahasa python dan scala.
  • Pemicu: Pemicu ETL adalah perangkat yang memulai eksekusi pekerjaan ETL sesuai permintaan atau pada waktu tertentu.
  • Titik akhir untuk pengembangan: Ini menciptakan lingkungan di mana skrip pekerjaan ETL diuji, dikembangkan, dan di-debug.

Manfaat Lem AWS

Ini adalah manfaat menggunakannya di tempat kerja Anda atau di dalam organisasi.

  • AWS Glue memindai semua data yang tersedia dengan perayap.
  • Data akhir yang diproses dapat disimpan di banyak tempat (Amazon RDS dan Amazon Redshift, Amazon S3, dll.
  • Ini adalah layanan berbasis cloud. Tidak perlu mengeluarkan uang untuk infrastruktur di tempat.
  • Karena ini adalah ETL tanpa server, ini adalah pilihan yang hemat biaya.
  • Itu cepat. Ini segera memberi Anda Kode ETL Python/Scala.

Fitur Teratas Lem AWS

Amazon Glue memiliki semua fitur yang Anda perlukan untuk mengintegrasikan data sehingga Anda bisa mendapatkan wawasan yang lebih baik dan menggunakan pengetahuan Anda untuk membuat kemajuan baru dalam hitungan menit, bukan bulan. Berikut adalah beberapa fitur yang harus Anda ketahui.

  • Antarmuka Seret dan Lepas: Editor pekerjaan seret dan lepas memungkinkan Anda membuat proses ETL. AWS Glue akan segera membuat kode yang diperlukan untuk mengekstrak, mengonversi, dan mengunggah data.
  • Penemuan Skema Otomatis: Untuk membuat perayap yang terhubung ke sumber data yang berbeda, Anda dapat menggunakan layanan Glue. Ini mengatur data dan mengekstrak informasi yang relevan. Data ini kemudian dapat digunakan untuk memantau proses ETL dengan tugas ETL.
  • Penjadwalan Pekerjaan: Lem dapat digunakan sesuai permintaan atau sesuai jadwal yang dijadwalkan. Penjadwal dapat digunakan untuk membangun jaringan pipa ETL yang kompleks, membangun ketergantungan antar tugas.
  • Pembuatan Kode: Tampilan Lem Elastis memungkinkan Anda dengan mudah membuat tampilan terwujud yang menggabungkan dan mereplikasi data dari sumber data yang berbeda tanpa harus menulis kode kepemilikan apa pun.
  • Pembelajaran Mesin Bawaan: Lem hadir dengan fitur Pembelajaran Mesin bawaan yang disebut "Temukan Cocok". Ini menghapus duplikat catatan yang bukan salinan sempurna satu sama lain.
  • Titik Akhir Pengembang : Jika Anda ingin mengembangkan kode ETL secara aktif, Glue menyediakan titik akhir pengembang yang memungkinkan Anda untuk memodifikasi, men-debug, dan menguji kode yang dibuatnya.
  • Glue DataBrew: Ini adalah alat persiapan data yang dapat digunakan oleh analis data dan ilmuwan data untuk membantu mereka membersihkan dan menormalkan data. Ini menggunakan antarmuka aktif dan visual Glue DataBrew.

Bagaimana Cara Kerja Harga Lem AWS?

AWS Glue membebankan biaya per jam, yang ditagih per detik untuk crawler (menemukan data) dan pekerjaan ETL (memproses dan memuat data). Biaya bulanan sederhana dikenakan untuk mengakses dan menyimpan metadata di Katalog Data AWS Glue.

Amazon Glue mulai dari $0,44. Anda dapat memilih dari empat paket:

  • Tugas ETL, titik akhir pengembangan, dan tugas ETL lainnya tersedia dengan harga $0,44
  • Sesi Interaktif Crawler Tersedia dengan harga $0,44
  • Pekerjaan DataBrew mulai dari $0,48
  • Penyimpanan bulanan dan permintaan ke Katalog Data berharga $1,00

AWS tidak menawarkan paket Glue gratis. Setiap jam akan dikenakan biaya $0,44 per DPU. Rata-rata, Anda akan dikenakan biaya $21 per hari. Harga dapat bervariasi tergantung di mana Anda tinggal.

Langkah-langkah untuk Menyiapkan Lem AWS

Katalog Data dapat digunakan untuk menemukan dan mencari beberapa set data AWS dengan cepat tanpa harus memindahkan data. Setelah data dikatalogkan, data segera tersedia untuk kueri dan pencarian menggunakan Amazon Athena dan Amazon EMR.

aws-lem
Referensi: https://aws.amazon.com/glue/
  • Amazon Redshift, Amazon S3, Amazon RDS, dan Database di Amazon EC2 – Temukan data Anda, simpan metadata, dan gunakan Katalog Data AWS Glue untuk menemukannya
  • Katalog Data AWS Glue – Kelola data dengan katalog data yang berfungsi sebagai repositori pusat untuk metadata
  • AWS Glue ETL – Membaca dan menulis metadata ke katalog data Anda
  • Amazon Athena dan Amazon Redshift, Amazon EMR, Amazon ETL – Dapatkan katalog data untuk ETL, analitik, dan lainnya.
  • Amazon QuickSight – Jalankan laporan dengan Amazon QuickSight, dan alat intelijen bisnis lainnya

Bagaimana Cara Mengatur Lem AWS?

Pertama, Masuk ke AWS Management Console dan buka konsol IAM. Klik Buat peran. Kemudian untuk role type, cari Glue, dan pilih Permissions .

Saya memilih AWSGlueServiceRole untuk izin AWS Glue Studio dan AWS Glue umum dan kebijakan yang dikelola AWS AmazonS3FullAccess untuk akses ke sumber daya Amazon S3.

Masukkan nama peran.

Tangkapan Layar-2022-10-16-at-23.20.48

Klik Buat Peran.

Tangkapan Layar-2022-10-16-at-23.21.14

Buat ember Amazon S3.

Tangkapan Layar-2022-10-16-at-23.33.42
Tangkapan Layar-2022-10-16-at-23.34.36

Buat folder di dalam ember S3.

Tangkapan Layar-2022-10-16-at-23.36.32

Pilih file yang akan diunggah.

Tangkapan Layar-2022-10-16-at-23.37.06

Terakhir, unggah file ke dalam ember.

Tangkapan Layar-2022-10-16-at-23.37.28

Selanjutnya, buka AWS Glue dari konsol manajemen AWS dan buat database.

Tangkapan Layar-2022-10-16-at-23.40.45

Sekarang setelah Anda memiliki database di AWS Glue, buat crawler.

Tangkapan Layar-2022-10-16-at-23.41.22

Di sumber data, pilih bucket S3 yang Anda buat.

Tangkapan Layar-2022-10-16-at-23.46.24

Selanjutnya, pilih peran IaM untuk AWS Glue yang Anda buat di awal.

Tangkapan Layar-2022-10-16-at-23.46.50

Terakhir, di output, pilih gluedb yang Anda buat.

Tangkapan Layar-2022-10-16-at-23.47.06

Tinjau semua pengaturan dan buat perayap.

Tangkapan Layar-2022-10-16-at-23.49.23

Setelah perayap dibuat, pilih dan klik Jalankan. Setelah beberapa waktu, Anda akan mendapatkan status siap.

Tangkapan Layar-2022-10-16-at-23.50.22

Dengan menjalankan crawler, database akan mendapatkan tabel dengan semua data dari file CSV.

Tangkapan Layar-2022-10-17-at-00.37.24

Saat Anda mengklik lihat data, Anda akan dibawa ke Amazon Athena (editor kueri). Saat Anda menjalankan kueri, Anda bisa melihat data tabel.

Tangkapan Layar-2022-10-17-at-00.39.45

Sekarang Anda dapat berhasil menggunakan perayap Lem AWS ini dalam pekerjaan ETL apa pun.

Apa itu AWS Glue Databrew?

AWS Glue DataBrew memungkinkan pengguna untuk menormalkan dan membersihkan data tanpa menulis kode apa pun. DataBrew dapat mengurangi waktu yang diperlukan untuk menyiapkan data untuk pembelajaran mesin dan analitik sebanyak 80 persen dibandingkan dengan persiapan data yang dikembangkan secara khusus.

Ada lebih dari 250 transformasi data siap pakai yang dapat digunakan untuk mengotomatisasi tugas persiapan data seperti menyaring anomali, mengoreksi nilai yang tidak valid, dan mengonversi data ke format standar.

DataBrew memudahkan ilmuwan data, analis bisnis, dan insinyur untuk berkolaborasi dalam mengekstraksi wawasan dari data mentah. DataBrew tidak memiliki server, jadi Anda tidak perlu mengelola infrastruktur atau membuat kluster untuk menjelajahi dan mengubah data mentah senilai terabyte.

Fitur DataBrew Untuk Perusahaan

Persiapan Data yang Divisualisasikan

DataBrew adalah cara berbeda untuk melihat data yang biasanya dilihat dalam database kolom sebagai angka alfanumerik. DataBrew memvisualisasikan semua sumber data yang dimuat untuk membantu Anda memahami hubungan dan hierarki data.

250+ Otomatisasi Persiapan Data

Ilmuwan data diharapkan mengikuti berbagai alur kerja yang berulang dan terisolasi sebagai bagian dari pekerjaan mereka. Alur kerja dan proses ini telah dimodelkan oleh AWS sebagai modul modul bahasa dan agnostik data. Pustaka ini mencakup tindakan yang dapat digunakan oleh pengguna akhir.

Silsilah Data

Mirip dengan log audit yang digunakan untuk melacak aktivitas pelanggan di jaringan TI jaringan TI, silsilah data memungkinkan Anda melacak aktivitas transformasi data dalam AWS DataBrew. Informasi ini mencakup sumber data, transformasi yang diterapkan, dan keluaran data, termasuk lokasi target.

Pemetaan Data

Databrew memungkinkan Anda menemukan bidang yang cocok di dua sumber data. Setelah bidang yang cocok telah diidentifikasi, mereka dapat dimuat ke dalam skema.

AWS Glue DataBrew: Manfaat

Di bawah ini adalah fitur dari AWS Glue DataBrew:

  • Turunkan Hambatan Masuk untuk Persiapan Data
  • Pembuatan Profil Data Otomatis
  • Otomatiskan 250+ proses Persiapan Data
  • Saran Preskriptif Cerdas

Alternatif untuk Lem AWS

Aliran udara

Aliran udara

Aliran udara milik bagian Workflow Manager dari tumpukan teknologi. Ini adalah alat sumber terbuka yang mendukung bintang GitHub, garpu GitHub, dan fitur lainnya. Aliran udara memungkinkan Anda membuat alur kerja menggunakan diagram asiklik terarah (DAG). Penjadwal aliran udara menjalankan tugas Anda menggunakan larik pekerja dan mengikuti dependensi yang ditentukan.

Matillion

Matillion

Matillion ETL, alat ETL/ELT, dirancang secara eksplisit untuk platform database cloud seperti Amazon Redshift dan Google BigQuery. Ini adalah UI berbasis browser modern dengan kemampuan ETL/ELT push-down yang kuat. Anda dapat aktif dan berjalan dalam hitungan menit dengan penyiapan cepat.

Jahitan

Stitch adalah layanan ETL open-source yang menghubungkan beberapa sumber data dan mereplikasi data ke tujuan pilihan. Ini sangat mudah digunakan, karena Anda tidak memerlukan pengetahuan pengkodean untuk memindahkan data antara sumber dan tujuan di Stitch. Mudah digunakan, memiliki GUI yang ramah, dan cepat.

Stitch tidak mengizinkan Anda memilih dasbor yang sudah jadi, tidak seperti alat ETL lainnya. Sebagai gantinya, Anda harus mengintegrasikan data Anda ke dalam gudang data terbuka yang Anda pilih sebagai tujuan. Mungkin sulit untuk menavigasi inventaris.

Alterix

Alterix

Alteryx adalah platform otomatisasi analitik yang membantu persiapan dan pencampuran pengumpulan data. Data ini dapat digunakan untuk mempercepat proses dan memberikan wawasan bisnis. Karena ini adalah alat seret dan lepas, Anda tidak memerlukan pengetahuan pemrograman apa pun. Alteryx adalah tempat yang tepat untuk mendapatkan saran dan jawaban dari para profesional industri.

Kesimpulan

Jadi, itu saja tentang AWS Glue, yang merupakan solusi berbasis cloud yang memungkinkan Anda bekerja dengan pipeline ETL. Singkatnya, proses interaksi pengguna AWS Glue terdiri dari tiga fase. Untuk membuat katalog data, Anda terlebih dahulu menggunakan perayap data. Selanjutnya, Anda membuat kode ETL yang diperlukan oleh pipeline data AWS. Akhirnya, jadwal ETL kemudian dibuat. Saya harap blog ini memberi Anda gambaran yang baik tentang Amazon Glue.

Anda juga dapat mempelajari kiat terbaik untuk mengamankan penyimpanan AWS S3.