AWS Glue에 대해 몰랐던 사실

게시 됨: 2022-10-18

Amazon Glue는 많은 회사에서 관리형 데이터 통합 ​​서비스를 사용하기 시작했기 때문에 인기를 얻고 있습니다.

ETL은 소스 데이터베이스에서 데이터 웨어하우스로 데이터를 전송하는 프로세스입니다. ETL은 복잡하기 때문에 모든 엔터프라이즈 데이터에 대해 복잡하고 구현하기 어렵습니다. Amazon은 이 문제를 해결하기 위해 AWS Glu를 도입했습니다.

ETL 개발자와 데이터 엔지니어는 Glue를 사용하여 ETL 워크플로를 구축, 모니터링 및 실행합니다.

AWS Glue란 무엇입니까?

서버리스 데이터 통합 ​​서비스인 AWS Glue를 사용하면 여러 소스에서 데이터를 쉽게 찾고, 준비하고, 이동하고, 통합할 수 있습니다. 이는 머신 러닝(ML) 및 분석에 유용합니다.

분석을 위해 데이터를 준비하는 데 필요한 시간을 크게 단축합니다. 자동으로 데이터를 찾아 나열하고 소스에서 데이터를 전송하기 위해 Scala 또는 Python 코드를 생성하고 시간 제한 이벤트에 따라 작업을 로드 및 변환합니다.

이는 유연한 일정을 허용하고 대상 데이터 로드에 맞게 확장할 수 있는 Apache Spark 환경을 만듭니다. 또한 AWS Glue는 복잡한 데이터 스트림 모니터링 및 변경을 제공합니다. AWS Glue는 애플리케이션 개발의 복잡한 작업을 단순화하는 서버리스 서비스입니다.

여러 유효한 데이터를 빠르게 통합할 수 있습니다. 또한 데이터를 빠르게 분해하고 인증합니다.

AWS Glu는 무엇에 사용됩니까?

Amazon Glue를 사용하기 가장 좋은 장소를 아는 것이 중요합니다. 다음은 고려해야 할 AWS Glue 사용의 몇 가지 예일 뿐입니다.

  • Amazon Glue는 Amazon S3 데이터 레이크에서 서버리스 쿼리를 실행할 수 있는 도구입니다.
  • Amazon Glu는 시작하기에 좋은 도구입니다. 하나의 인터페이스에서 모든 데이터에 액세스할 수 있으므로 이동하지 않고도 데이터를 분석할 수 있습니다.
  • Amazon Glue를 사용하여 데이터 자산을 이해할 수 있습니다. Amazon Glu를 사용하면 데이터 카탈로그를 사용하여 다양한 AWS 데이터 세트를 쉽게 검색할 수 있습니다. 일관된 보기를 유지하면서 Data Catalog를 사용하여 여러 AWS 서비스에 걸쳐 데이터를 저장할 수도 있습니다.
  • Glue는 이벤트 기반 ETL 워크플로를 구축할 때 유용할 수 있습니다. AWS Lambda 서비스를 통해 Glue ETL 작업을 호출하여 Amazon S3에서 ETL 작업을 실행할 수 있습니다.
  • AWS Glue는 데이터 레이크 또는 웨어하우스에 저장할 데이터를 정리, 확인, 형식 지정 및 구성하는 데 사용할 수도 있습니다.

AWS Glue의 구성 요소

다음은 AWS Glue의 주요 구성 요소입니다.

  • 데이터 카탈로그: 이 데이터 카탈로그에는 메타데이터와 데이터 구조가 포함되어 있습니다.
  • 데이터베이스: 소스 및 대상에 대한 데이터베이스에 액세스하고 생성하기 위한 키입니다.
  • 테이블: 대상과 소스 모두에서 사용할 수 있는 하나 이상의 테이블을 데이터베이스에 생성합니다.
  • 크롤러 및 분류기: 크롤러는 기본 제공 또는 사용자 정의 분류를 사용하여 소스에서 데이터를 검색합니다. 데이터 카탈로그에 미리 정의된 메타데이터 테이블을 생성/사용합니다.
  • 작업: ETL 작업을 수행하는 비즈니스 로직의 작업입니다. 이 비즈니스 로직은 Python 및 스칼라 언어를 사용하여 Apache Spark에서 내부적으로 작성되었습니다.
  • 트리거: ETL 트리거는 요청 시 또는 특정 시간에 ETL 작업 실행을 시작하는 장치입니다.
  • 개발을 위한 끝점: ETL 작업 스크립트가 테스트, 개발 및 디버깅되는 환경을 만듭니다.

AWS Glue의 이점

직장이나 조직 내에서 사용할 때의 이점입니다.

  • AWS Glue는 크롤러에서 사용 가능한 모든 데이터를 스캔합니다.
  • 최종 처리된 데이터는 여러 위치(Amazon RDS 및 Amazon Redshift, Amazon S3 등)에 저장할 수 있습니다.
  • 클라우드 기반 서비스입니다. 온프레미스 인프라에 돈을 쓸 필요가 없습니다.
  • 서버리스 ETL이기 때문에 비용 효율적인 선택입니다.
  • 빠릅니다. 즉시 Python/Scala ETL 코드를 제공합니다.

AWS Glue의 주요 기능

Amazon Glue에는 데이터를 통합하는 데 필요한 모든 기능이 있으므로 더 나은 통찰력을 얻고 지식을 사용하여 몇 달이 아닌 몇 분 만에 새로운 발전을 이룰 수 있습니다. 다음은 알아야 할 몇 가지 기능입니다.

  • 끌어서 놓기 인터페이스: 끌어서 놓기 작업 편집기를 사용하면 ETL 프로세스를 만들 수 있습니다. AWS Glue는 데이터를 추출, 변환 및 업로드하는 데 필요한 코드를 즉시 빌드합니다.
  • 자동 스키마 검색: 다른 데이터 소스에 연결하는 크롤러를 생성하기 위해 Glue 서비스를 사용할 수 있습니다. 데이터를 구성하고 관련 정보를 추출합니다. 그런 다음 이러한 데이터를 사용하여 ETL 작업별로 ETL 프로세스를 모니터링할 수 있습니다.
  • 작업 예약: 접착제는 주문형 또는 예약된 일정에 따라 사용할 수 있습니다. 스케줄러를 사용하여 복잡한 ETL 파이프라인을 구축하고 작업 간의 종속성을 설정할 수 있습니다.
  • 코드 생성: Glue Elastic Views를 사용하면 독점 코드를 작성할 필요 없이 다양한 데이터 소스의 데이터를 결합하고 복제하는 구체화된 보기를 쉽게 생성할 수 있습니다.
  • 내장된 기계 학습: Glue에는 "FindMatches"라는 기계 학습 기능이 내장되어 있습니다. 서로 완벽한 사본이 아닌 레코드를 중복 제거합니다.
  • 개발자 끝점 : ETL 코드를 적극적으로 개발하려는 경우 Glue는 생성한 코드를 수정, 디버그 및 테스트할 수 있는 개발자 끝점을 제공합니다.
  • Glue DataBrew: 데이터 분석가와 데이터 과학자가 데이터를 정리하고 정규화하는 데 사용할 수 있는 데이터 준비 도구입니다. Glue DataBrew의 활성 및 시각적 인터페이스를 사용합니다.

AWS Glue 요금은 어떻게 적용됩니까?

AWS Glue는 시간당 요금을 부과하며 크롤러(데이터 검색) 및 ETL 작업(데이터 처리 및 로드)에 대해 초당 청구됩니다. AWS Glue 데이터 카탈로그의 메타데이터에 액세스하고 저장하는 데는 간단한 월별 요금이 부과됩니다.

Amazon Glue는 $0.44부터 시작합니다. 다음 4가지 플랜 중에서 선택할 수 있습니다.

  • ETL 작업, 개발 엔드포인트 및 기타 ETL 작업은 $0.44에 사용할 수 있습니다.
  • Crawlers 대화형 세션은 $0.44에 이용 가능합니다.
  • DataBrew 작업은 $0.48부터 시작합니다.
  • 데이터 카탈로그에 대한 월별 스토리지 및 요청 비용은 $1.00입니다.

AWS는 무료 Glu 플랜을 제공하지 않습니다. 시간당 비용은 DPU당 $0.44입니다. 평균적으로 하루에 $21의 비용이 듭니다. 가격은 거주 지역에 따라 다를 수 있습니다.

AWS Glue 설정 단계

데이터 카탈로그를 사용하면 데이터를 이동할 필요 없이 여러 AWS 데이터 세트를 빠르게 찾고 검색할 수 있습니다. 데이터가 카탈로그화된 후 Amazon Athena 및 Amazon EMR을 사용하여 쿼리 및 검색에 즉시 사용할 수 있습니다.

aws-글루
참조: https://aws.amazon.com/glue/
  • Amazon Redshift, Amazon S3, Amazon RDS 및 Amazon EC2의 데이터베이스 – 데이터 검색, 메타데이터 저장, AWS Glue 데이터 카탈로그를 사용하여 검색
  • AWS Glue 데이터 카탈로그 – 메타데이터의 중앙 리포지토리 역할을 하는 데이터 카탈로그로 데이터 관리
  • AWS Glue ETL – 데이터 카탈로그에 대한 메타데이터 읽기 및 쓰기
  • Amazon Athena 및 Amazon Redshift, Amazon EMR, Amazon ETL – ETL, 분석 등에 대한 데이터 카탈로그를 가져옵니다.
  • Amazon QuickSight – Amazon QuickSight 및 기타 비즈니스 인텔리전스 도구로 보고서 실행

AWS Glue를 설정하는 방법은 무엇입니까?

먼저 AWS Management Console에 로그인하고 IAM 콘솔을 엽니다. 역할 만들기를 클릭합니다. 그런 다음 역할 유형에 대해 Glue를 찾고 권한 을 선택합니다.

일반 AWS Glue Studio 및 AWS Glue 권한에는 AWSGlueServiceRole 을 선택하고 Amazon S3 리소스에 액세스하려면 AWS 관리형 정책 AmazonS3FullAccess를 선택합니다.

역할 이름을 입력합니다.

스크린샷-2022-10-16-at-23.20.48

역할 만들기를 클릭합니다.

스크린샷-2022-10-16-at-23.21.14

Amazon S3 버킷을 생성합니다.

스크린샷-2022-10-16-at-23.33.42
스크린샷-2022-10-16-at-23.34.36

S3 버킷 내부에 폴더를 생성합니다.

스크린샷-2022-10-16-at-23.36.32

업로드할 파일을 선택합니다.

스크린샷-2022-10-16-at-23.37.06

마지막으로 버킷에 파일을 업로드합니다.

스크린샷-2022-10-16-at-23.37.28

그런 다음 AWS 관리 콘솔에서 AWS Glue를 열고 데이터베이스를 생성합니다.

스크린샷-2022-10-16-at-23.40.45

이제 AWS Glue에 데이터베이스가 있으므로 크롤러를 생성합니다.

스크린샷-2022-10-16-at-23.41.22

데이터 원본에서 생성한 S3 버킷을 선택합니다.

스크린샷-2022-10-16-at-23.46.24

그런 다음 처음에 생성한 AWS Glue에 대한 IaM 역할을 선택합니다.

스크린샷-2022-10-16-at-23.46.50

마지막으로 출력에서 ​​생성한 gluedb 를 선택합니다.

스크린샷-2022-10-16-at-23.47.06

모든 설정을 검토하고 크롤러를 만듭니다.

스크린샷-2022-10-16-at-23.49.23

크롤러가 생성되면 선택하고 실행을 클릭합니다. 잠시 후 상태가 준비됩니다.

스크린샷-2022-10-16-at-23.50.22

크롤러를 실행하면 데이터베이스는 CSV 파일의 모든 데이터가 포함된 테이블을 가져옵니다.

스크린샷-2022-10-17-at-00.37.24

데이터 보기를 클릭하면 Amazon Athena(쿼리 편집기)로 이동합니다. 쿼리를 실행하면 테이블 데이터를 볼 수 있습니다.

스크린샷-2022-10-17-at-00.39.45

이제 모든 ETL 작업에서 이 AWS Glue 크롤러를 성공적으로 사용할 수 있습니다.

AWS Glue Databrew란 무엇입니까?

AWS Glue DataBrew를 사용하면 사용자가 코드를 작성하지 않고도 데이터를 정규화하고 정리할 수 있습니다. DataBrew는 맞춤형 개발 데이터 준비에 비해 기계 학습 및 분석을 위해 데이터를 준비하는 데 필요한 시간을 최대 80%까지 줄일 수 있습니다.

이상 필터링, 잘못된 값 수정, 데이터를 표준 형식으로 변환과 같은 데이터 준비 작업을 자동화하는 데 사용할 수 있는 250개 이상의 미리 만들어진 데이터 변환이 있습니다.

DataBrew를 사용하면 데이터 과학자, 비즈니스 분석가 및 엔지니어가 원시 데이터에서 통찰력을 추출하기 위해 더 쉽게 협업할 수 있습니다. DataBrew는 서버리스이므로 테라바이트급의 원시 데이터를 탐색하고 변환하기 위해 인프라를 관리하거나 클러스터를 생성할 필요가 없습니다.

기업용 DataBrew 기능

시각화된 데이터 준비

DataBrew는 일반적으로 열 데이터베이스에서 영숫자 숫자로 표시되는 데이터를 보는 다른 방법입니다. DataBrew는 로드된 모든 데이터 소스를 시각화하여 데이터 관계 및 계층 구조를 이해하는 데 도움을 줍니다.

250개 이상의 데이터 준비 자동화

데이터 과학자는 업무의 일부로 반복 가능하고 격리된 다양한 워크플로를 따라야 합니다. 이러한 워크플로 및 프로세스는 AWS에서 언어 및 데이터에 구애받지 않는 모듈 모듈로 모델링했습니다. 이 라이브러리에는 최종 사용자가 사용할 수 있는 작업이 포함되어 있습니다.

데이터 계보

IT 네트워크의 IT 네트워크에서 고객 활동을 추적하는 데 사용되는 감사 로그와 유사하게 데이터 계보를 사용하면 AWS DataBrew 내에서 데이터 변환 활동을 추적할 수 있습니다. 이 정보에는 데이터 원본, 적용된 변환 및 대상 위치를 포함한 데이터 출력이 포함됩니다.

데이터 매핑

Databrew를 사용하면 두 데이터 원본에서 일치하는 필드를 찾을 수 있습니다. 일치하는 필드가 식별되면 스키마에 로드할 수 있습니다.

AWS Glue DataBrew: 이점

다음은 AWS Glue DataBrew의 기능입니다.

  • 데이터 준비를 위한 진입 장벽 낮추기
  • 자동화된 데이터 프로필 생성
  • 250개 이상의 데이터 준비 프로세스 자동화
  • 지능형 처방 제안

AWS Glue의 대안

기류

기류

Airflow는 기술 스택의 Workflow Manager 섹션에 속합니다. GitHub 별, GitHub 포크 및 기타 기능을 지원하는 오픈 소스 도구입니다. Airflow를 사용하면 방향성 비순환 다이어그램(DAG)을 사용하여 워크플로를 만들 수 있습니다. Airflow 스케줄러는 작업자 배열을 사용하고 지정된 종속성을 따라 작업을 실행합니다.

마틸리온

마틸리온

ETL/ELT 도구인 Matillion ETL은 Amazon Redshift 및 Google BigQuery와 같은 클라우드 데이터베이스 플랫폼을 위해 명시적으로 설계되었습니다. 강력한 푸시다운 ETL/ELT 기능을 갖춘 최신 브라우저 기반 UI입니다. 빠른 설정으로 몇 분 안에 가동할 수 있습니다.

Stitch는 여러 데이터 소스를 연결하고 선호하는 대상에 데이터를 복제하는 오픈 소스 ETL 서비스입니다. Stitch에서 소스와 대상 간에 데이터를 이동하는 데 코딩 지식이 필요하지 않으므로 사용하기가 매우 쉽습니다. 사용하기 쉽고 GUI가 친숙하며 빠릅니다.

Stitch에서는 다른 ETL 도구와 달리 미리 만들어진 대시보드를 선택할 수 없습니다. 대신 대상으로 선택한 개방형 데이터 웨어하우스에 데이터를 통합해야 합니다. 인벤토리 탐색이 어려울 수 있습니다.

알테릭스

알테릭스

Alteryx는 데이터 수집 준비 및 혼합을 지원하는 분석 자동화 플랫폼입니다. 이 데이터는 프로세스 속도를 높이고 비즈니스 통찰력을 제공하는 데 사용할 수 있습니다. 끌어서 놓기 도구이기 때문에 프로그래밍 지식이 필요하지 않습니다. Alteryx는 업계 전문가의 조언과 답변을 얻을 수 있는 좋은 곳입니다.

결론

ETL 파이프라인으로 작업할 수 있는 클라우드 기반 솔루션인 AWS Glue에 관한 것이었습니다. 요약하자면 AWS Glue 사용자 상호 작용 프로세스는 세 단계로 구성됩니다. 데이터 카탈로그를 생성하려면 먼저 데이터 크롤러를 사용합니다. 다음으로 AWS 데이터 파이프라인에 필요한 ETL 코드를 생성합니다. 마지막으로 ETL 일정이 생성됩니다. 이 블로그가 Amazon Glue에 대한 좋은 개요를 제공했기를 바랍니다.

AWS S3 스토리지를 보호하기 위한 최고의 팁을 살펴볼 수도 있습니다.