AWS Glue Hakkında Bilmedikleriniz
Yayınlanan: 2022-10-18Amazon Glue popülerlik kazanıyor çünkü birçok şirket yönetilen veri entegrasyon hizmetlerini kullanmaya başladı.
ETL, verileri bir kaynak veritabanından bir veri ambarına aktaran bir süreçtir. ETL karmaşıktır ve karmaşıklığı nedeniyle tüm kurumsal veriler için uygulanması zordur. Amazon, bu sorunu çözmek için AWS Glue'u tanıttı.
ETL geliştiricileri ve veri mühendisleri, ETL iş akışlarını oluşturmak, izlemek ve çalıştırmak için Glue kullanır.
AWS Tutkal nedir?
Sunucusuz bir veri tümleştirme hizmeti olan AWS Glue, birden çok kaynaktan gelen verileri bulmayı, hazırlamayı, taşımayı ve entegre etmeyi kolaylaştırır. Bu, makine öğrenimi (ML) ve analitik için kullanışlıdır.
Verileri analize hazırlamak için gereken süreyi önemli ölçüde azaltır. Verileri otomatik olarak bulur ve listeler, verileri kaynaktan iletmek için Scala veya Python kodu üretir ve işi zamanlanmış olaylara göre yükler ve dönüştürür.
Bu, esnek zamanlamaya olanak tanır ve hedeflenen veri yüklemesi için ölçeklenebilen bir Apache Spark ortamı oluşturur. Ayrıca AWS Glue, karmaşık veri akışı izleme ve değiştirme sağlar. AWS Glue, uygulama geliştirmenin karmaşık işlemlerini basitleştiren sunucusuz bir hizmettir.
Birden fazla geçerli verinin hızlı entegrasyonunu sağlar. Ayrıca verileri hızlı bir şekilde parçalar ve yetkilendirir.
AWS Tutkal ne için kullanılır?
Amazon Glue kullanmak için en iyi yerleri bilmek önemlidir. Bunlar, göz önünde bulundurmanız gereken AWS Glue kullanımlarına yalnızca birkaç örnektir.
- Amazon Glue, Amazon S3 veri göllerinde sunucusuz sorgular çalıştırmanıza olanak tanıyan bir araçtır.
- Amazon Glue, başlamanız için harika bir araçtır. Tüm verilerinizi tek bir arayüzde erişilebilir hale getirerek, taşımak zorunda kalmadan analiz etmenize olanak tanır.
- Amazon Glue, veri varlıklarınızı anlamak için kullanılabilir. Amazon Glue, Veri Kataloğu'nu kullanarak farklı AWS veri kümelerini aramanızı kolaylaştırır. Tutarlı bir görünüme sahip olmaya devam ederken Veri Kataloğu'nu kullanarak birden çok AWS hizmetinde de veri kaydedebilirsiniz.
- Tutkal, olaya dayalı ETL iş akışları oluştururken yardımcı olabilir. Bir AWS Lambda hizmeti aracılığıyla Glue ETL görevlerinizi çağırarak Amazon S3'ten ETL işlemlerinizi gerçekleştirebilirsiniz.
- AWS Glue, bir veri gölünde veya ambarda depolamak üzere verileri temizlemek, doğrulamak, biçimlendirmek ve düzenlemek için de kullanılabilir.
AWS Glue Bileşenleri
Aşağıda AWS Glue'nun ana bileşenleri verilmiştir:
- Veri kataloğu: Bu veri kataloğu, meta verileri ve veri yapısını içerir.
- Veritabanı: Bu, kaynaklar ve hedefler için veritabanına erişmenin ve veritabanını oluşturmanın anahtarıdır.
- Tablo: Veritabanında hem hedef hem de kaynak tarafından kullanılabilen bir veya birkaç tablo oluşturun.
- Tarayıcı ve Sınıflandırıcı: Tarayıcı, yerleşik veya özel sınıflandırmaları kullanarak kaynaktan veri alır. Veri kataloğunda önceden tanımlanmış meta veri tabloları oluşturur/kullanır.
- İş: Bu, bir ETL görevi gerçekleştirmek için iş mantığının işidir. Bu iş mantığı, Apache Spark tarafından python ve scala dilleri kullanılarak dahili olarak yazılmıştır.
- Tetikleyici: Bir ETL tetikleyicisi, isteğe bağlı olarak veya belirli bir zamanda bir ETL işinin yürütülmesini başlatan bir cihazdır.
- Geliştirme için uç nokta: Bu, ETL iş komut dosyasının test edildiği, geliştirildiği ve hatalarının ayıklandığı bir ortam yaratır.
AWS Glue'un Avantajları
Bunlar, işyerinizde veya bir kuruluş içinde kullanmanın faydalarıdır.
- AWS Glue, bir tarayıcı ile kullanılabilen tüm verileri tarar.
- Nihai işlenmiş veriler birçok yerde depolanabilir (Amazon RDS ve Amazon Redshift, Amazon S3 vb.
- Bulut tabanlı bir hizmettir. Şirket içi altyapılar için para harcamanıza gerek yoktur.
- Sunucusuz bir ETL olduğu için uygun maliyetli bir seçimdir.
- Hızlı. Size hemen Python/Scala ETL Kodunu verir.
AWS Glue'nun En İyi Özellikleri
Amazon Glue, daha iyi öngörüler elde edebilmeniz ve bilginizi aylar yerine dakikalar içinde yeni ilerlemeler sağlamak için kullanabilmeniz için verileri entegre etmek için ihtiyaç duyduğunuz tüm özelliklere sahiptir. İşte bilmeniz gereken bazı özellikler.
- Sürükle ve Bırak Arayüzü: Sürükle ve bırak iş düzenleyicisi, bir ETL işlemi oluşturmanıza olanak tanır. AWS Glue, verileri çıkarmak, dönüştürmek ve yüklemek için gereken kodu hemen oluşturacaktır.
- Otomatik Şema Keşfi: Farklı veri kaynaklarına bağlanan tarayıcılar oluşturmak için Glue hizmetini kullanabilirsiniz. Verileri düzenler ve ilgili bilgileri çıkarır. Bu veriler daha sonra ETL işlemlerini ETL görevlerine göre izlemek için kullanılabilir.
- İş Planlama: Tutkal isteğe bağlı olarak veya planlanmış bir programa göre kullanılabilir. Zamanlayıcı, görevler arasında bağımlılıklar kurarak karmaşık ETL işlem hatları oluşturmak için kullanılabilir.
- Kod Oluşturma: Glue Elastik Görünümler, herhangi bir özel kod yazmak zorunda kalmadan farklı veri kaynaklarından gelen verileri birleştiren ve çoğaltan gerçekleştirilmiş görünümleri kolayca oluşturmanıza olanak tanır.
- Yerleşik Makine Öğrenimi: Glue, "FindMatches" adı verilen yerleşik bir Makine Öğrenimi özelliğiyle birlikte gelir. Birbirinin mükemmel kopyaları olmayan kayıtları tekilleştirir.
- Geliştirici Uç Noktaları : ETL kodunuzu aktif olarak geliştirmek istiyorsanız, Glue, oluşturduğu kodu değiştirmenize, hata ayıklamanıza ve test etmenize olanak tanıyan geliştirici uç noktaları sağlar.
- Glue DataBrew: Veri analistleri ve veri bilimcileri tarafından verileri temizlemelerine ve normalleştirmelerine yardımcı olmak için kullanılabilecek bir veri hazırlama aracıdır. Glue DataBrew'un aktif ve görsel arayüzünü kullanır.
AWS Glue Fiyatlandırması nasıl çalışır?
AWS Glue, tarayıcılar (verileri keşfetme) ve ETL işleri (verileri işleme ve yükleme) için saniye başına faturalandırılan saatlik bir ücret alır. AWS Glue Data Catalog'daki meta verilere erişmek ve bunları depolamak için aylık basit bir ücret alınır.
Amazon Glue 0,44 dolardan başlıyor. Dört plan arasından seçim yapabilirsiniz:
- ETL görevleri, geliştirme uç noktaları ve diğer ETL görevleri 0,44 ABD dolarından edinilebilir
- Tarayıcıların Etkileşimli Oturumları 0,44 ABD Dolarından Mevcuttur
- DataBrew işleri 0,48 dolardan başlar
- Aylık depolama ve Veri Kataloğuna yapılan istekler 1,00 ABD doları tutarındadır
AWS, ücretsiz bir Glue planı sunmaz. Her saat DPU başına 0,44 ABD dolarına mal olacak. Ortalama olarak, size günlük 21 dolara mal olur. Fiyatlar yaşadığınız yere göre değişebilir.
AWS Glue Kurulum Adımları
Veri Kataloğu, verileri taşımak zorunda kalmadan birden çok AWS veri kümesini hızla bulmak ve aramak için kullanılabilir. Veriler kataloğa alındıktan sonra, Amazon Athena ve Amazon EMR kullanılarak sorgulama ve arama için hemen kullanılabilir hale gelir.

- Amazon Redshift, Amazon S3, Amazon RDS ve Amazon EC2'deki Veritabanları – Verilerinizi keşfedin, meta verileri depolayın ve bunları keşfetmek için AWS Glue Data Catalog'u kullanın
- AWS Glue Data Catalog – Meta veriler için merkezi bir havuz görevi gören veri kataloğuyla verileri yönetin
- AWS Glue ETL – Veri kataloğunuza meta verileri okuyun ve yazın
- Amazon Athena ve Amazon Redshift, Amazon EMR, Amazon ETL – ETL, analitik ve daha fazlası için veri kataloğunu edinin.
- Amazon QuickSight – Amazon QuickSight ve diğer iş zekası araçlarıyla raporlar çalıştırın
AWS Glue Nasıl Kurulur?
Öncelikle AWS Management Console'da oturum açın ve IAM konsolunu açın. Rol oluştur'a tıklayın. Ardından rol türü için Tutkal'ı bulun ve İzinler öğesini seçin.
Genel AWS Glue Studio ve AWS Glue izinleri için AWSGlueServiceRole'u ve Amazon S3 kaynaklarına erişim için AWS tarafından yönetilen AmazonS3FullAccess politikasını seçiyorum.

Bir rol adı girin.

Rol Oluştur'a tıklayın.

Bir Amazon S3 paketi oluşturun.



S3 kovasının içinde bir klasör oluşturun.

Yüklenecek dosyayı seçin.

Son olarak, dosyayı kovaya yükleyin.

Ardından, AWS yönetim konsolundan AWS Glue'yu açın ve bir veritabanı oluşturun.

Artık AWS Glue'da bir veritabanınız olduğuna göre bir tarayıcı oluşturun.

Veri kaynağında, oluşturduğunuz S3 paketini seçin.

Ardından, başlangıçta oluşturduğunuz AWS Glue için IaM rolünü seçin.

Son olarak, çıktıda, oluşturduğunuz gluedb
seçin.

Tüm ayarları gözden geçirin ve tarayıcıyı oluşturun.

Tarayıcı oluşturulduktan sonra onu seçin ve Çalıştır'a tıklayın. Bir süre sonra, durumu hazır hale getireceksiniz.

Tarayıcı çalıştırıldığında, veritabanı CSV dosyasındaki tüm verileri içeren bir tablo alacaktır.

Verileri görüntüle'ye tıkladığınızda Amazon Athena'ya (sorgu düzenleyici) yönlendirileceksiniz. Sorguyu çalıştırdığınızda tablo verilerini görebilirsiniz.

Artık bu AWS Glue tarayıcısını herhangi bir ETL işinde başarıyla kullanabilirsiniz.
AWS Glue Databrew nedir?
AWS Glue DataBrew, kullanıcıların herhangi bir kod yazmadan verileri normalleştirmesine ve temizlemesine olanak tanır. DataBrew, özel olarak geliştirilmiş veri hazırlığına kıyasla, makine öğrenimi ve analitik için veri hazırlamak için gereken süreyi yüzde 80'e kadar azaltabilir.
Anormallikleri filtrelemek, geçersiz değerleri düzeltmek ve verileri standart biçimlere dönüştürmek gibi veri hazırlama görevlerini otomatikleştirmek için kullanılabilecek 250'den fazla önceden yapılmış veri dönüşümü vardır.
DataBrew, veri bilimcilerin, iş analistlerinin ve mühendislerin ham verilerden içgörüler çıkarmak için işbirliği yapmasını kolaylaştırır. DataBrew sunucusuzdur, bu nedenle terabaytlarca ham veriyi keşfetmek ve dönüştürmek için altyapıyı yönetmeniz veya kümeler oluşturmanız gerekmez.
İşletmeler İçin DataBrew Özellikleri
Görselleştirilmiş Veri Hazırlama
DataBrew, tipik olarak sütunlu veritabanlarında alfasayısal sayılar olarak görüntülenen verileri görüntülemenin farklı bir yoludur. DataBrew, veri ilişkilerini ve hiyerarşiyi anlamanıza yardımcı olmak için yüklenen tüm veri kaynaklarını görselleştirir.
250+ Veri Hazırlama Otomasyonu
Veri bilimcilerinin, işlerinin bir parçası olarak çeşitli tekrarlanabilir, yalıtılmış iş akışlarını izlemeleri beklenir. Bu iş akışları ve süreçler, AWS tarafından dil ve veriden bağımsız modül modülleri olarak modellenmiştir. Bu kitaplık, son kullanıcılar tarafından kullanılabilecek eylemleri içerir.
Veri Kökeni
Bir BT ağının BT ağındaki müşteri etkinliğini izlemek için kullanılan denetim günlüklerine benzer şekilde, veri kökeni, AWS DataBrew içindeki veri dönüştürme etkinliklerini izlemenize olanak tanır. Bu bilgiler, veri kaynağını, uygulanan dönüşümleri ve hedef konum dahil olmak üzere veri çıktısını içerir.
Veri haritalama
Databrew, iki veri kaynağında eşleşen alanları bulmanızı sağlar. Eşleşen alanlar belirlendikten sonra, bir şemaya yüklenebilirler.
AWS Glue DataBrew: Avantajlar
AWS Glue DataBrew'un özellikleri aşağıdadır:
- Veri Hazırlama Girişi için Alt Engel
- Otomatik Veri Profili Oluşturma
- 250'den fazla Veri Hazırlama sürecini otomatikleştirin
- Akıllı Kuralcı Öneriler
AWS Glue'a Alternatifler
Hava akışı

Hava akışı, bir teknoloji yığınının İş Akışı Yöneticisi bölümüne aittir. GitHub yıldızlarını, GitHub çatallarını ve diğer özellikleri destekleyen açık kaynaklı bir araçtır. Airflow, yönlendirilmiş döngüsel olmayan diyagramları (DAG'ler) kullanarak iş akışları oluşturmanıza olanak tanır. Airflow planlayıcı, bir dizi çalışan kullanarak ve belirtilen bağımlılıkları izleyerek görevlerinizi yürütür.
matilyon

Bir ETL/ELT aracı olan Matillion ETL, Amazon Redshift ve Google BigQuery gibi bulut veritabanları platformları için özel olarak tasarlanmıştır. Güçlü aşağı açılır ETL/ELT yeteneklerine sahip modern bir tarayıcı tabanlı kullanıcı arayüzüdür. Hızlı bir kurulumla dakikalar içinde çalışmaya başlayabilirsiniz.
Dikiş
Stitch, birden çok veri kaynağını birbirine bağlayan ve verileri tercih edilen hedeflere çoğaltan açık kaynaklı bir ETL hizmetidir. Stitch'te kaynaklar ve hedefler arasında veri taşımak için herhangi bir kodlama bilgisine ihtiyacınız olmadığı için kullanımı çok kolaydır. Kullanımı kolaydır, kullanıcı dostu bir GUI'ye sahiptir ve hızlıdır.
Stitch, diğer ETL araçlarının aksine önceden hazırlanmış bir pano seçmenize izin vermez. Bunun yerine, verilerinizi hedef olarak seçtiğiniz açık veri ambarlarına entegre etmeniz gerekir. Envanterlerde gezinmek zor olabilir.
Alteryks

Alteryx, veri toplamanın hazırlanmasına ve harmanlanmasına yardımcı olan bir analitik otomasyon platformudur. Bu veriler, süreçleri hızlandırmak ve iş anlayışı sağlamak için kullanılabilir. Sürükle ve bırak aracı olduğu için herhangi bir programlama bilgisine ihtiyacınız yoktur. Alteryx, sektör profesyonellerinden tavsiye ve yanıt almak için harika bir yerdir.
Çözüm
Bu, ETL ardışık düzenleriyle çalışmanıza olanak tanıyan bulut tabanlı bir çözüm olan AWS Glue ile ilgiliydi. Özetlemek gerekirse, AWS Glue kullanıcı etkileşimi süreci üç aşamadan oluşur. Bir veri kataloğu oluşturmak için önce veri tarayıcılarını kullanırsınız. Ardından, AWS veri ardışık düzeninin gerektirdiği ETL kodunu oluşturursunuz. Son olarak, ETL programı daha sonra oluşturulur. Umarım bu blog size Amazon Glue hakkında iyi bir genel bakış sağlamıştır.
AWS S3 depolamasını güvence altına almak için en iyi ipuçlarını da keşfedebilirsiniz.