일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 모두의연구소
- 오준석의 생존코딩
- 플러터
- 오름캠프
- 모두의 연구소 # 오준석의생존코딩# 오름캠프
- 생존코딩
- 모두연구소
- Tag #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 오름캠프플러터
- 모두의연구소 오준석생존코딩 오름캠프
- #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 오준석의생존코딩
- 패스트 캠퍼스
- ㅇ
- 오존석의 생존코딩
- Today
- Total
꾸준히 하고싶은 개발자
빅데이터 분석(제플린Zeppelin) 본문
제플린
-대용량 데이터를 효과적으로 탐색 및 분석하기 위해서 대용량 데이터셋을 빠르게 파악하고 이해하기 위한 분석 및 시각화 툴이 필요하다.
- 이와 관련해서 가장 잘 알려진 프로그램이 R과 파이썬이다 하지만 R의 경우 하둡의 분산파일을 직접 참조 할 수없고 분산 병렬처리가 어려워하둡의 대규모 데이터를 분석하는 데 어려움이 있다.
-RHive RHadoop RHipe같은 도구로 HDFS 와 직접 연결해 병렬처리가 가능하도록 구성할 수있지만 복잡도가 높아지고 안정적인 사용을 위해서는 추가 비용이 발생되서 제플린을 만들었다.
-제플린은 국내 스타트업 기업인 NFLaps에서 2013년 부터 주도하고 있는 오픈소스 프로젝트로서 2014년 12월 아파치재단에 인큐베이팅 됐고 2016년 5월 아파치최상위 프로젝트로 승격됐다.
제플린 아키텍처
제플린을 이용하면 웹 UI의 NoteBook에서 스파크 or 스파크 SQL을 작성해 하둡을 클러스터에 작업을 요청하고 처리결과를 다시 웹 UI 에서 시각화해서 볼 수있다.
-이때클라이언트와 서버 사이에 REST또는 웹소켓 통신을 요청하게 되며 요청된 결과에 해당하는 인터 프리터가 작동해서 타깃 시스템에 작업을 요청하게 된다. 제플린은 스파크뿐 아니라 다양한 확장인터프리터 (스파크 플랭크(Flink) ,하이브 ,R,카산드라등) 를 제공한다.
제플린 활용방안
데이터 탐색을 통해 마트 데이터를 대상으로 제플린에서 스파크 SQL을 이용해 다양한 애드혹 분석을 수행한다. 우선 스파크 -SQL을 이용해 주제 영역별 마트 데이터에 접근 해 데이터를 추출, 처리 , 분석하고 그결과를 제플린의 시각화기능을 이용해 다양한 하게 분석한다. 또한 스파크ML을 이용해 머신러닝의 분류와 군집으로 데이터의 이상징후 예측과 고객의 성향분석도 작업도 진행한다.
설치
명령어: tar -xvf zeppelin-0.8.2-bin-all.tgz 입력하자
심볼릭 링크 를 해주자
복사해주자
vi 익숙하지 않는 사람은 nano를 통해 들어가주자
<value> 127.0.0.1 </value> 127.0.0.1 -> 0.0.0.0 으로 변경해주자
<value> 8080</value> 포트 8080-> 8081으로 변경해주자
nano를 종료해주자
실습
'빅데이터 플랫폼' 카테고리의 다른 글
스쿱 (0) | 2022.11.03 |
---|---|
빅데이터 분석 머하웃(Mahout) (0) | 2022.11.02 |
빅데이터 분석 (임팔라) (0) | 2022.10.31 |
빅데이터 처리/탐색(휴) (0) | 2022.10.27 |
빅데이터 처리/탐색 우지 (0) | 2022.10.26 |