꾸준히 하고싶은 개발자

빅데이터 처리/탐색 우지 본문

빅데이터 플랫폼

빅데이터 처리/탐색 우지

프라우스 2022. 10. 26. 20:32

우지 

-하이브 피그 , 스파크등을 이용해 빅데이터 처리 , 탐색 분석하는 과정은 복잡한 선 후행 관계를 맺고 반복적으로 진행된다.

-대규모빅데이터 시스템에서서는 수집 및 적재된 수백개 이상의 데이터셋을 대상으로  다양한 후처리 잡이 (데이터간의 의존성을 지켜가며 복잡하게 실행 된다. 

-복잡한 데이터 파이프라인 작업을 위해 방향성 있는 비순환 그래프(DAG; Direct Acyclic Graph)로 잡의 시작, 처리 분기 종료점 등의 액션(Action)등을 정의하는 워크플로가 필요해졌다.이것 바로 아파치 우지다 

유사한 프로젝트는 Azkaban,cascading, Hamke,Airflow 등있다.

우지 구성요소

우지 클라이언트 에서 작성한 워크플로우는 우지성버로 전송 되어 메타화 되고 RDBMS에저장된다.

-우지서버 에싰는 Coordinator는 우지에 등록된 워크플로를 스케줄링 해주며 이때 워크 플로 엔진이 Action노드와 Control노드의 정보를 해석하면서 관련태스크를 하둡의 클러스터에서 실행시킨다. 

-주요 Action Task로는 하이브,피그,스쿱(sqoop)등이 있고 관련 (Action)은 최종적으로 하둡의 맵리듀스 프로그램을 기반으로 작동한다. 

-실행중인 태스크의 라이프 사이클을 우지 서버가 시작부터 종료까지 추적하면서 모니터링 정보를 제공한다. 최근 하둡 2.X 부터 얀을 기반으로 더욱 다양한 애플리케이션을 실행 할수있게됐으며 , 우지에서도 이를 지원하기 위한 다양한 태스크 액션들이 추가 된다.

우지 활용방안

우지를 활용해 후처리 작업을 정의하고 프로세스화 한다. 적재된 데이터를 Extermal->managed->Mart로 이동시키기위해 다양한 하이브 QL들이 이용되고 이를약속된 시간에 따라 스케줄링해서 실행해야 하는데 이때 우지의 워크플로를 활용한다.

 

설치

서비스 추가버튼 을 눌른다.