꾸준히 하고싶은 개발자

빅데이터 분석 (임팔라) 본문

빅데이터 플랫폼

빅데이터 분석 (임팔라)

프라우스 2022. 10. 31. 21:05

빅데이터 탐색 단계가 데이터를 관찰하고 이해해하며 전처리하는 과정이라면 빅데이터분석은 탐색과 분석을 반복하며 의미 있는 데이터를 추출해 문제를 찾고 인사이트를 얻어 의사결정을 내리는 단계다.

-필요시 의사결정을 돕기위한 요약정보를 만들어 제공한다. 사실 탐색과 분석의 경계는 매우 모호 하지만 목적에 따라 분석의 유형5 가지로정의한다.

1.기술분석:분석초기 데이터의 특징을 파악하기 위해 선택 ,집계, 요약 등 양적 기술분석을 수행한다.

2.탐색분석:업무 도메인 지식을 기반으로 대규모 데이터셋의 상관관계나 연관성을 파악한다.

3.추론분석: 전통적인 통계분석 기법으로 문제에 대한 가설을 세우고 샘플링을 통해 가설을 검증한다

4.인과분석:문제해결을 위한 원인과 결과 변수를 도출하고 변수의 영향도를 분석한다

5.예측 분석:대규모 과거 데이터를 학습해 예측모형을 만들고 , 최근의 데이터로 미래를 예측한다.

 

 

다양한 분석 기술을 통해 빅데이터의 가치는 Raw데이터(순수데이터) ->정보->통찰력->가치 순으로 변하게 된다 

-가운데 통찰력을 갖게 되는 단계에서 빅데이터의 활용 효익이 만들어지기 사작하는데 주로 상품및 서비스 개발 마케팅 및 켐페인 지원 리스크 관리등 영역에서 주요 의사결정을 내릴때 빅데이터 이용한다.

 

빅데이터 분석은 기존 전통적인 분석과 어떤차이가 있을까?

-두가지 큰 차이점이 있는데 2V(Volume,Variety)와 관련성이 있다.

-먼저 빅데이터 분석의 최대 장점은 저비용 고효율이다. 

-빅데이터분석은 대규모 데이터를 분석할때 오픈 소스의 강력한 분산기술과 낮은 하드웨어 소프트웨어 비용으로 수평적으로 선평 확장이 가능하다.

-RDBMS 기반의 분석은 수직적 성능 향상과 고비용의 제한적인 확장성만 지원해 대규모 데이터를 분석할때 한계가 발생한다.

-빅데이터는 내부(정형) 데이터와 외부(비정형):SNS 포털 날씨 위치 뉴스등)데이터를 결합해 분서 시 다양한 (Variety)관점을 제공 할수 있다.

-외부 빅데이터를 보유한 조직은 기존의 내부데이터와 결합해 분석시야가 넓어지고 당면한 비즈니스 문제를 해결하기 위한  인과 및 상관관계 같은 정보의 발견이 내부 데이터만으로 분석할때보다 커져 차별화 된 인사이트 도출이 가능해진다. 

-머신러닝(딥러닝)모델의 변수로 외부 데이터를 적극 활용해 예측 모델의 정확도를 높여 미래를 내다 볼수있는 분석력도 강화된다.

 

임팔라

2008년 하이브 맵리듀스를 대체하는 SQL on Hadoop의 도구로 자리 잡았다. 

생태계에서는 하이브의 배치성분석에 만족하지 못하고 빅데이터 분석을 인 메모리 기반의 실시간 온라인 분석으로 까지 확대하길 원했다.

-구글이 가장 먼저 이애대한 변화하기 시작했다.

-기술이 적용된 드레멜 논문을 2010년 발표했으며 이 논문의영향을  받는 클라우데라는 곧바로 임팔라 개발에 착수하고 2012년 10월 실시간데이터분석 질의 가능한 임팔라를 오픈 소스로 발표했다.

 

 

임팔라 아키텍처

-임팔ㄹ의 아키텍처는 하둡의 분산 노드에서 대규모 실시간 분석을 위해 Impalad Statestored,Catalogd 라는 컴포넌트가 설치된다.

-Impalad는 HDFS의 분산 노드 상에서 실행계획과 질의 작업을 수행하는 데몬이다.

-Statestored는 Impalad의 기본 메타정보부터 각 분산 노드에 설치돼 있는 Impalad를 관리하는역할을 한다. 

-Catalogd는 Impalad와 Statestored와 통신하면서 임팔라SQL의 실행과 변경 이력을 관리한다.

 

임팔라 활용방안

하이브를 쿼릴르 임팔라 쿼리로 바꾸고 데이터셋을 실시간으로 탐색한다. 하이브쿼리는 대부분 임팔라 쿼리와 호환 가능하며 , 하이브 대비 빠른 응답속도를 보장한다. 

 

설치

 

 

클러스터에서 서비스추가 클릭한다
임팔라 선택하기
저는 서버2로 사용했습니다
저는 기본세팅으로 사용했습니다
설치중
설치완료
휴 사용하기위해서

hive Hbase Oozie 등 사용하기 None 해제 해줍시다. 

 

실습하기

최고속도확인하기
지역별 최고속도 ,최저속도 확인하기
최고속도 최저속도 결과 확인하기
지역별 자동차별 평균속도 쿼리문
지역별 자동차별 평균속도 결과문
지역별 자동차별 평균속도
랭크함수 사용하는 쿼리문
랭크함수 결과