꾸준히 하고싶은 개발자

빅데이터 분석(제플린Zeppelin) 본문

빅데이터 플랫폼

빅데이터 분석(제플린Zeppelin)

프라우스 2022. 11. 1. 20:10

제플린

-대용량 데이터를 효과적으로 탐색 및 분석하기 위해서 대용량 데이터셋을 빠르게 파악하고 이해하기 위한 분석 및 시각화 툴이 필요하다.

- 이와 관련해서 가장 잘 알려진 프로그램이 R과 파이썬이다 하지만 R의 경우 하둡의 분산파일을 직접 참조 할 수없고 분산 병렬처리가 어려워하둡의 대규모 데이터를 분석하는 데 어려움이 있다.

-RHive RHadoop RHipe같은 도구로 HDFS 와 직접 연결해 병렬처리가 가능하도록 구성할 수있지만 복잡도가 높아지고 안정적인 사용을 위해서는 추가 비용이 발생되서 제플린을 만들었다.

-제플린은 국내 스타트업 기업인 NFLaps에서 2013년 부터 주도하고 있는 오픈소스 프로젝트로서 2014년 12월 아파치재단에 인큐베이팅 됐고 2016년 5월 아파치최상위 프로젝트로 승격됐다.

 

 

제플린 아키텍처

제플린을 이용하면 웹 UI의 NoteBook에서 스파크 or 스파크 SQL을 작성해 하둡을 클러스터에 작업을 요청하고 처리결과를 다시 웹 UI 에서 시각화해서 볼 수있다. 

-이때클라이언트와 서버 사이에 REST또는 웹소켓 통신을 요청하게 되며 요청된 결과에 해당하는 인터 프리터가 작동해서 타깃 시스템에 작업을 요청하게 된다. 제플린은 스파크뿐 아니라 다양한 확장인터프리터 (스파크 플랭크(Flink) ,하이브 ,R,카산드라등) 를 제공한다.

 

제플린 활용방안

데이터 탐색을 통해 마트 데이터를 대상으로 제플린에서 스파크 SQL을 이용해 다양한 애드혹 분석을 수행한다. 우선 스파크 -SQL을 이용해 주제 영역별 마트 데이터에 접근 해 데이터를 추출, 처리 , 분석하고 그결과를  제플린의 시각화기능을 이용해 다양한 하게 분석한다. 또한 스파크ML을 이용해 머신러닝의 분류와 군집으로 데이터의 이상징후 예측과 고객의 성향분석도 작업도 진행한다.

설치 

원하는 제플린 버전선택하기
0.8.2버전 선택하자
cmd 창을 열어서 원하는경로에 써주자
다운로드중
다운로드완료
압축을 풀어주자

명령어: tar -xvf zeppelin-0.8.2-bin-all.tgz 입력하자

심볼릭 링크 를  해주자

복사해주자

vi 익숙하지 않는 사람은 nano를 통해 들어가주자

입력전
입력변경후
권한을 변경해주자
복사해주자

<value> 127.0.0.1 </value>  127.0.0.1 -> 0.0.0.0 으로 변경해주자

<value> 8080</value> 포트 8080-> 8081으로 변경해주자

nano를 종료해주자

실습

'빅데이터 플랫폼' 카테고리의 다른 글

스쿱  (0) 2022.11.03
빅데이터 분석 머하웃(Mahout)  (0) 2022.11.02
빅데이터 분석 (임팔라)  (0) 2022.10.31
빅데이터 처리/탐색(휴)  (0) 2022.10.27
빅데이터 처리/탐색 우지  (0) 2022.10.26