꾸준히 하고싶은 개발자

스쿱 본문

빅데이터 플랫폼

스쿱

프라우스 2022. 11. 3. 20:18

-RDBMS에 있는 데이터를 특별한 전처리 없이 곧바로 HDFS 에 적재하거나 반대로 HDFS에 저장된 데이터를 RDBMS로 제공해야 경우 가있다.

-RDBMS와 HDFS사이에서 데이터를 편리하게 임포트 하거나 익스포트해주는 소프트웨어가 스쿱(Sqoop)이다.

스쿱은 지난 2009년 공개되어 2012년 아파치 최상위 프로젝트로 승격됐다. 

스쿱은 두가지 버전이 있다 

스쿱1은 CLI기반으로 스쿱 명령을 실행하는 스쿱1

클라이언트 버전이다

스쿱2는 스쿱 서버를 두고 스쿱 클라이언트 가 API를 호출하는 방식으로 스쿱1을 확장한 서버 버전이다.

 

스쿱 아키텍처

스쿱1 아키텍처는 스쿱의CLI로 임포트 익스포트 명령을 하둡에 전달하면 맵 태스크가 병렬로 실행되어 외부 데이터베이스 와 HDFS 사이에서 대량의 데이터를 임포트의 익스포트 할 수있는 아키텍처를 제공한다.

 

스쿱2아키텍처의 특징은 스쿱1 의 아키텍처를 확장해서 스쿱 서버를 추가한것이다. 

-스쿱1에서 클라이언트마다 설치 됐던 커넥터와 라이브러리를 스쿱 서버에 배치하고 스쿱의 임포트 익스포트기능을 (REST API)로 제공해서클라이언트를 경량화 했다. 이처럼 스쿱의 주요 기능을 중앙 집중화 함으로써  잡을 통합 관리하고 스쿱1 에서 할수없던 접근 통제 가능해졌다.

 

스쿱 활용방안

데이터셋에 대한 탐색 분석 결과는 다양한 외부 시스템에 공유되고 활용돼야한다.

하이브 임팔라 제플린 머하웃등에서 분석된 결과를 외부 RDBMS시스템에 편리하게 제공하기 위한 도구로 스쿱을 활용된다.

스쿱은 원래 하둡 생태계에서 (수집Import) 기술로 분류된다. 때떄론 분석결과를 외부에 제공(Export)하는 용도로 사용된다.

설치

서비스 추가해준다
스쿱 선택 해준다.
서버2 선택해준다.
다운로드중
다운완료
다음 눌러준다
확인하기

실습

종료키