AWS Glue Data Quality

데이터 레이크 및 파이프라인에서 고품질 데이터 제공

Glue Data Quality를 선택해야 하는 이유

데이터 레이크는 적절한 감독 없이는 데이터의 늪지대가 될 수 있습니다. 데이터 품질 검사를 설정하는 것은 시간이 많이 걸리고 지루하며 오류가 발생하기 쉽습니다. 수동으로 데이터 품질 규칙을 만들고 코드를 작성하여 데이터 파이프라인을 모니터링하고 데이터 품질이 저하되면 데이터 소비자에게 알려야 합니다. AWS Glue Data Quality는 이러한 수동 품질 작업에 소요되는 시간을 며칠에서 몇 시간으로 단축합니다. 자동으로 통계를 계산하고, 품질 규칙을 추천하고, 모니터링하며, 문제가 감지되면 알려줍니다. Glue Data Quality은 숨겨져 있거나 찾기 어려운 문제의 경우 ML 알고리즘을 사용합니다. 확장 가능한 서버리스 개방형 솔루션과 함께 규칙 기반 접근 방식과 ML 접근 방식이 결합되어 신뢰할 수 있는 비즈니스 의사 결정을 내리는 데 필요한 고품질 데이터를 제공할 수 있습니다. 

AWS Glue Data Quality의 기능

AWS Glue는 서버리스 서비스이므로, 인프라를 관리하지 않고도 확장할 수 있습니다. 규모에 관계없이 데이터에 맞추어 확장할 수 있으며 종량제 과금을 통해 민첩성을 높이고 비용을 개선합니다. AWS Glue Data Quality는 페타바이트 규모의 데이터 세트를 관리하도록 Amazon이 구축한 오픈 소스 프레임워크인 Deequ를 사용합니다. AWS Glue Data Quality는 오픈 소스를 사용하여 구축되었기 때문에 공급업체 종속 없이 유연성과 이동성이 보장됩니다.
AWS Glue Data Quality는 데이터 세트에 대한 통계를 자동으로 계산합니다. 이러한 통계를 사용하여 시의성, 정확성, 무결성은 물론 찾아내기 힘든 문제까지 확인하는 일련의 품질 규칙을 추천합니다. 필요에 따라 권장 규칙을 조정하거나 규칙을 폐기하거나 새 규칙을 추가할 수 있습니다. 또한 품질 문제가 감지되면 AWS Glue Data Quality는 문제에 대한 조치를 취할 수 있도록 알림을 보냅니다.
AWS Glue Data Quality는 지능형 서비스입니다. ML 알고리즘을 사용하여 수집된 데이터 통계의 시간 경과에 따른 패턴을 학습합니다. 이상 및 비정상적인 데이터 패턴을 감지하고 사용자에게 알립니다. 또한 이러한 특정 패턴을 모니터링하는 규칙을 자동으로 생성하므로 데이터 품질 규칙을 점진적으로 구축할 수 있습니다.
데이터는 다양한 리포지토리에 저장되며 리포지토리 간에 이동합니다. 데이터가 전송된 후와 전송되는 동안 모두 데이터 품질을 모니터링하는 것이 중요합니다. AWS Glue Data Quality 규칙은 데이터 세트 및 데이터 레이크의 저장 데이터와 데이터가 이동 중인 전체 데이터 파이프라인에 적용할 수 있습니다. 여러 데이터세트에 규칙을 적용할 수 있습니다. AWS Glue Studio에 구축된 데이터 파이프라인의 경우, 데이터가 이미 메모리에 들어 있으므로 적은 비용으로 변환을 적용하여 전체 파이프라인의 품질을 평가할 수 있습니다. 또한 품질이 저하될 경우 파이프라인을 중지하여 잘못된 데이터가 데이터 레이크에 유입되는 것을 방지하는 규칙을 정의할 수도 있습니다.
25개 이상의 즉시 사용 가능한 AWS Glue Data Quality 규칙을 사용하여 데이터를 검증하고 문제를 일으키는 특정 데이터를 식별할 수 있습니다. 기본 제공 규칙을 사용하여 서로 다른 데이터 소스의 여러 데이터 세트를 몇 분 만에 비교하는 데이터 품질 검사를 구현해 보세요. Glue ETL을 사용하면 이러한 문제를 쉽게 해결하고 고품질 데이터를 데이터 리포지토리에 수집할 수 있습니다.