빅데이터 분석(제플린Zeppelin)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

꾸준히 하고싶은 개발자

빅데이터 분석(제플린Zeppelin) 본문

빅데이터 플랫폼

빅데이터 분석(제플린Zeppelin)

프라우스 2022. 11. 1. 20:10

제플린

-대용량 데이터를 효과적으로 탐색 및 분석하기 위해서 대용량 데이터셋을 빠르게 파악하고 이해하기 위한 분석 및 시각화 툴이 필요하다.

- 이와 관련해서 가장 잘 알려진 프로그램이 R과 파이썬이다 하지만 R의 경우 하둡의 분산파일을 직접 참조 할 수없고 분산 병렬처리가 어려워하둡의 대규모 데이터를 분석하는 데 어려움이 있다.

-RHive RHadoop RHipe같은 도구로 HDFS 와 직접 연결해 병렬처리가 가능하도록 구성할 수있지만 복잡도가 높아지고 안정적인 사용을 위해서는 추가 비용이 발생되서 제플린을 만들었다.

-제플린은 국내 스타트업 기업인 NFLaps에서 2013년 부터 주도하고 있는 오픈소스 프로젝트로서 2014년 12월 아파치재단에 인큐베이팅 됐고 2016년 5월 아파치최상위 프로젝트로 승격됐다.

제플린 아키텍처

제플린을 이용하면 웹 UI의 NoteBook에서 스파크 or 스파크 SQL을 작성해 하둡을 클러스터에 작업을 요청하고 처리결과를 다시 웹 UI 에서 시각화해서 볼 수있다.

-이때클라이언트와 서버 사이에 REST또는 웹소켓 통신을 요청하게 되며 요청된 결과에 해당하는 인터 프리터가 작동해서 타깃 시스템에 작업을 요청하게 된다. 제플린은 스파크뿐 아니라 다양한 확장인터프리터 (스파크 플랭크(Flink) ,하이브 ,R,카산드라등) 를 제공한다.

제플린 활용방안

데이터 탐색을 통해 마트 데이터를 대상으로 제플린에서 스파크 SQL을 이용해 다양한 애드혹 분석을 수행한다. 우선 스파크 -SQL을 이용해 주제 영역별 마트 데이터에 접근 해 데이터를 추출, 처리 , 분석하고 그결과를 제플린의 시각화기능을 이용해 다양한 하게 분석한다. 또한 스파크ML을 이용해 머신러닝의 분류와 군집으로 데이터의 이상징후 예측과 고객의 성향분석도 작업도 진행한다.

설치

명령어: tar -xvf zeppelin-0.8.2-bin-all.tgz 입력하자

심볼릭 링크 를 해주자

복사해주자

vi 익숙하지 않는 사람은 nano를 통해 들어가주자

<value> 127.0.0.1 </value> 127.0.0.1 -> 0.0.0.0 으로 변경해주자

<value> 8080</value> 포트 8080-> 8081으로 변경해주자

nano를 종료해주자

실습

'빅데이터 플랫폼' 카테고리의 다른 글

스쿱 (0)	2022.11.03
빅데이터 분석 머하웃(Mahout) (0)	2022.11.02
빅데이터 분석 (임팔라) (0)	2022.10.31
빅데이터 처리/탐색(휴) (0)	2022.10.27
빅데이터 처리/탐색 우지 (0)	2022.10.26

'빅데이터 플랫폼' Related Articles

꾸준히 하고싶은 개발자

빅데이터 분석(제플린Zeppelin) 본문

빅데이터 분석(제플린Zeppelin)

'빅데이터 플랫폼' 카테고리의 다른 글

티스토리툴바