일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Tag #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 오준석의 생존코딩
- ㅇ
- 오준석의생존코딩
- 패스트 캠퍼스
- 모두의 연구소 # 오준석의생존코딩# 오름캠프
- 모두의연구소
- 모두연구소
- 모두의연구소 오준석생존코딩 오름캠프
- 플러터
- 생존코딩
- 오름캠프
- 오존석의 생존코딩
- 오름캠프플러터
- #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- Today
- Total
목록빅데이터 플랫폼 (15)
꾸준히 하고싶은 개발자
winscp 프로그램을 이용해서 oracle jdbc jar를 다운받아서 스쿱 경로에 라이브러리에 넣어준다 jdbc:oracle:thin:서버주소:oracle 포트번호:xe --uesrname : 오라클아이디 --password :비밀번호 --table: 데이터넣어줄 테이블 이름 주의할점 데이블 써줄때 꼭 대문자로 써야 인식된다.
스쿱을 이용해서 mysql 데이터넣는다 HDFS에 저장된 데이터 형식에 맞게 mysql에서 데이블을 만들기 mysql-connector-jar파일을 경로에 맞게 넣어준다 jdbc: mysql :// 서버 :포트번호 --username --password --table mysql 명령어 을 통해서 테이터 내보낸 데이터를 mysql를 통해서 확인하기
-RDBMS에 있는 데이터를 특별한 전처리 없이 곧바로 HDFS 에 적재하거나 반대로 HDFS에 저장된 데이터를 RDBMS로 제공해야 경우 가있다. -RDBMS와 HDFS사이에서 데이터를 편리하게 임포트 하거나 익스포트해주는 소프트웨어가 스쿱(Sqoop)이다. 스쿱은 지난 2009년 공개되어 2012년 아파치 최상위 프로젝트로 승격됐다. 스쿱은 두가지 버전이 있다 스쿱1은 CLI기반으로 스쿱 명령을 실행하는 스쿱1 클라이언트 버전이다 스쿱2는 스쿱 서버를 두고 스쿱 클라이언트 가 API를 호출하는 방식으로 스쿱1을 확장한 서버 버전이다. 스쿱 아키텍처 스쿱1 아키텍처는 스쿱의CLI로 임포트 익스포트 명령을 하둡에 전달하면 맵 태스크가 병렬로 실행되어 외부 데이터베이스 와 HDFS 사이에서 대량의 데이터를..
머하웃 -하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는툴이다. -머신러닝을 다루는 프레임워크는 머하웃 말고도 다양한 분야에서 발전해 오고있다. -가장 유명한 R을 비롯해 래피드마이너(RapidMiner) 웨카(Weka) 파이썬 진영의 사이킷런(scikit-learn), 텐서플로우(TensorFlow)등이 이에 해당한다. -대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기 어렵다 -머하웃은 하둡에서 분산 머신러닝을 하기위해서 2008년 검색엔진 루씬의 서브 프로젝트로 시작됐고 하둡의 분산 아키텍처를 바탕으로 텍스트 마이닝 군집 분류 등과 같은 머신러닝 기반 기술 내재화되면서 2010년 4월 아파치 최상위프로젝트로 승격됐다. 머하웃 아키텍처 -머하웃은 하둡의 분산 ..
제플린 -대용량 데이터를 효과적으로 탐색 및 분석하기 위해서 대용량 데이터셋을 빠르게 파악하고 이해하기 위한 분석 및 시각화 툴이 필요하다. - 이와 관련해서 가장 잘 알려진 프로그램이 R과 파이썬이다 하지만 R의 경우 하둡의 분산파일을 직접 참조 할 수없고 분산 병렬처리가 어려워하둡의 대규모 데이터를 분석하는 데 어려움이 있다. -RHive RHadoop RHipe같은 도구로 HDFS 와 직접 연결해 병렬처리가 가능하도록 구성할 수있지만 복잡도가 높아지고 안정적인 사용을 위해서는 추가 비용이 발생되서 제플린을 만들었다. -제플린은 국내 스타트업 기업인 NFLaps에서 2013년 부터 주도하고 있는 오픈소스 프로젝트로서 2014년 12월 아파치재단에 인큐베이팅 됐고 2016년 5월 아파치최상위 프로젝트로..
빅데이터 탐색 단계가 데이터를 관찰하고 이해해하며 전처리하는 과정이라면 빅데이터분석은 탐색과 분석을 반복하며 의미 있는 데이터를 추출해 문제를 찾고 인사이트를 얻어 의사결정을 내리는 단계다. -필요시 의사결정을 돕기위한 요약정보를 만들어 제공한다. 사실 탐색과 분석의 경계는 매우 모호 하지만 목적에 따라 분석의 유형5 가지로정의한다. 1.기술분석:분석초기 데이터의 특징을 파악하기 위해 선택 ,집계, 요약 등 양적 기술분석을 수행한다. 2.탐색분석:업무 도메인 지식을 기반으로 대규모 데이터셋의 상관관계나 연관성을 파악한다. 3.추론분석: 전통적인 통계분석 기법으로 문제에 대한 가설을 세우고 샘플링을 통해 가설을 검증한다 4.인과분석:문제해결을 위한 원인과 결과 변수를 도출하고 변수의 영향도를 분석한다 5...
휴 -빅데이터 탐색/분석은 장기간의 반복 작업이면서 그 과정에 있어 많은 도구 들이 활용된다. 주로 하둡을 기반으로 하이브 ,피그,우지,스쿱,스파크,등이 해당된다. -일반 분석가 또는 업무 담당자 들이 각 서버에 직접 접속해 사용하기에는 어려움이 있다. 빅데이터 기술이 성숙 해지면서 이런 기술의 복잡도를 숨기고 접근성과 편의성을 높인 소프트웨어들이 만들어지는데 그중 하나가 바로 클라우데라에서 만든 휴(Hue)다 - 휴는 다양한 하둡의 에코 시스템의 기능들을 웹 UI로 통합 제공한다. 휴 아키텍처 휴는 하둡 에코시스템들을 통합하기위해 자체 플러그인을 설치하거나 API를 연동해서 에코시스템들의 주요 기능들을 웹 UI로 제공한다. 휴의 데이터베이스 에서는 휴에 로그인하는 사용자의 계정 관리와 휴에서 사용할 컴..
우지 -하이브 피그 , 스파크등을 이용해 빅데이터 처리 , 탐색 분석하는 과정은 복잡한 선 후행 관계를 맺고 반복적으로 진행된다. -대규모빅데이터 시스템에서서는 수집 및 적재된 수백개 이상의 데이터셋을 대상으로 다양한 후처리 잡이 (데이터간의 의존성을 지켜가며 복잡하게 실행 된다. -복잡한 데이터 파이프라인 작업을 위해 방향성 있는 비순환 그래프(DAG; Direct Acyclic Graph)로 잡의 시작, 처리 분기 종료점 등의 액션(Action)등을 정의하는 워크플로가 필요해졌다.이것 바로 아파치 우지다 유사한 프로젝트는 Azkaban,cascading, Hamke,Airflow 등있다. 우지 클라이언트 에서 작성한 워크플로우는 우지성버로 전송 되어 메타화 되고 RDBMS에저장된다. -우지서버 에싰는..