본문 바로가기
AWS

[AWS Data Engineering] 1장. 데이터 엔지니어링 소개

by yeneua 2023. 1. 23.

#0. 들어가며

데이터 엔지니어링은 모든 조직에서 데이터가 점점 더 중요해짐에 따라 빠르게 성장하며 수요가 많은 역할이다.

이 책의 1장에서는 데이터가 중요하고 귀중한 기업 자산이 된 여러 가지 방법을 살펴볼 것이다.

 

 

#1. 빅데이터가 기업 자산으로 떠오르다

빅데이터데이터 분석이 조직을 어떻게 변화시키고 사회 전체에 영향을 미치고 있는지에 대해서는 멀리 생각할 필요 없이 우리 가까이에 있다.  예시로 TikTok(틱톡)은 대량의 데이터를 분석하여 다음에 보여줄 클립에 대한 개인화된 권장 사항을 만들고, Amazon은 구매 내역을 기반으로 고객이 관심을 가질만한 제품을 추천해 준다.

 

Microsoft, Apple, Alphabet(Google), Amazon, Tesla

위 기업들은 2021년 4분기에 가장 가치 있는 5개의 기업이다. 이것으로 보아 빅데이터와 관련된 기술을 보유한 사람들의 직업 목록이 증가하는 것은 당연하다.

 

데이터가 올바르게 활용되고, 최대 분석 가치를 위해 최적화될 때 게임체인저가 될 수 있다. 동시에 데이터 자산을 효과적을 활용할 수 있는 회사는 경쟁 우위를 선점할 수 있다.

 

 

#2. 끊임없이 증가하는 데이터 세트의 과제

데이터를 활용하는 기업이라면 데이터 관련 문제에 직면했을 가능성이 높다.

 

처음에는 데이터가 단일 데이터베이스에 저장되었지만, 시간이 지나고 조직 및 데이터의 요구 사항이 증가함에 따라 데이터베이스의 수가 기하급수적으로 증가했다. 일반적으로 회사는 수백 또는 수천 개의 데이터베이스를 보유하고 있다. 따라서 많은 조직은 데이터 사일로 현상(각 부서, 사업단위나 브랜치별로 데이터가 일치하지 않는 증상)에 직면하게 되면서 데이터베이스에서 중앙 위치로 데이터를 수집할 수 있는 데이터 웨어하우징 시스템에 투자하였다. 하지만 비용으로 인해 저장할 수 있는 데이터 양에 제한이 있었고, 부족한 컴퓨터 성능으로 대규모의 포괄적인 데이터셋을 분석할 수 없었다.

 

조직이 계속 성장함에 따라 여러 데이터 웨어하우스와 데이터 마트가 구현되었지만 여전히 데이터에 대한 중앙에서 단일 소스로 관리할 수 있는 저장소가 부족했다. 또한 반구조형 또는 비정형 데이터와 같은 새로운 유형의 데이터에 직면했고 기존 도구로 이러한 데이터셋을 분석하는 것은 어려움이 있었다.

 

결과적으로 매우 큰 데이터셋과 다양한 데이터 유형에서 더 잘 작동할 수 있는 새로운 기술이 발명되었다.

 

Hadoop(하둡)

- 2000년대 초 Yahoo에서 10억 개의 웹 페이지를 인덱싱 하고자 하는 검색 엔진 프로젝트의 일부로 개발된 기술

- MapReduce기술은 모든 유형의 기업에서 훨씬 더 큰 데이터셋을 저장하고 처리하는 데 널리 사용되는 방법

- Hadoop 클러스터를 실행하는 것은 전문적인 기술이 필요한 복잡하고 비용이 많이 드는 작업

 

Spark(Apache Spark)

- 메모리에서 대부분의 처리를 수행

- 대용량 데이터 셋을 사용할 때 성능이 크게 향상

- 디스크에서 읽고 쓰는 양이 크게 감소

- 대규모 데이터 세트를 처리하기 위한 최고의 표준으로 여겨짐

 

data lake 

- 모든 규모의 정형/비정형 데이터를 저장할 수 있는 중앙 집중식 저장소

- 다양한 데이터 유형에 대한 물리적 스토리지 계층

- 저비용 객체 스토리지 사용

- 모든 데이터 세트의 중앙 카탈로그 제공

 

 

#3. 빅 데이터를 지원하는 데이터 엔지니어의 역할

1) 데이터 엔지니어의 역할 이해

  • 스토리지 플랫폼에 원시 데이터를 수집할 수 있는 파이프라인 설계, 구현 및 유지
  • 분석에 최적화되도록 데이터를 변환
  • 다양한 데이터 소비자가 선택한 도구를 사용하여 데이터를 사용할 수 있게 함 
  • 데이터 분석가와 데이터 과학자가 선호하는 도구를 사용하여 데이터에서 통찰력을 얻을 수 있도록 지원

 

2) 데이터 과학자(data scientist)의 역할 이해

  • 머신러닝과 인공지능을 활용해 다양한 데이터셋을 기반으로 복잡한 통찰력을 도출하고 예측
  • 데이터의 패턴을 인식하고 미래 추세를 예측하는 데 도움이 되는 복잡한 기계학습 모델 개발 및 훈련

 

3) 데이터 분석가(data analyst)의 역할 이해

  • 기업이 비즈니스 의사 결정을 내릴 수 있도록 여러 데이터 셋을 검토하고 결합
  • 복잡한 쿼리를 실행하여 새로운 통찰력을 얻음

 

데이터 엔지니어 토목 엔지니어와 유사. 도로, 교량, 기차역 등을 설계, 건설하여 통근자들이 쉽게 출퇴근하게 함
데이터 과학자 안팎으로 이동하는 데 사용되는 자동차, 비행기 형태의 운송수단 개발
데이터 분석가 전문 지식을 사용하여 사용자를 최종 목적지로 이동시키는 숙련된 조종사

 

 

#4. 빅데이터 분석 솔루션 구축 시 클라우드의 이점

지속적으로 증가하는 데이터셋을 관리하기 위해 기존의 툴을 확장하는 것은 비용이 많이 들고 복잡하고, 시간이 많이 소요되며 조직은 증가하는 데이터 볼륨에 대처할 수 있는 대체 해결책을 모색해 왔다.

 

클라우드 컴퓨팅은 대부분의 회사가 자체 데이터 센터 내에서 달성할 수 없는 확장성, 비용 효율성, 보안 및 자동화를 가능하게 하며, 이는 데이터 분석 영역에도 적용된다.

Amazon이 2006년에 출시한 AWS - AWS 서비스 중 Amazon Simple Storage Service(Amazon S3)는 오늘날 수천 개의 데이터 레이크 프로젝트를 위한 물리적 스토리지 계층이 되었으며, 서비스와 함께 작동할 수 있는 광범위한 분석툴 에코시스템이 구축되었다.

 


[Data Engineering with AWS] 도서를 요약 및 번역하여 작성하였습니다.

https://www.amazon.com/Data-Engineering-AWS-Gareth-Eagar/dp/1800560419

 

Amazon.com

Enter the characters you see below Sorry, we just need to make sure you're not a robot. For best results, please make sure your browser is accepting cookies.

www.amazon.com

 

댓글