일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 오름캠프
- #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 패스트 캠퍼스
- 오존석의 생존코딩
- ㅇ
- 모두의 연구소 # 오준석의생존코딩# 오름캠프
- 오준석의 생존코딩
- 오름캠프플러터
- 모두의연구소
- 모두의연구소 오준석생존코딩 오름캠프
- 모두연구소
- Tag #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 플러터
- 생존코딩
- 오준석의생존코딩
- Today
- Total
목록분류 전체보기 (134)
꾸준히 하고싶은 개발자
빅데이터 탐색 단계가 데이터를 관찰하고 이해해하며 전처리하는 과정이라면 빅데이터분석은 탐색과 분석을 반복하며 의미 있는 데이터를 추출해 문제를 찾고 인사이트를 얻어 의사결정을 내리는 단계다. -필요시 의사결정을 돕기위한 요약정보를 만들어 제공한다. 사실 탐색과 분석의 경계는 매우 모호 하지만 목적에 따라 분석의 유형5 가지로정의한다. 1.기술분석:분석초기 데이터의 특징을 파악하기 위해 선택 ,집계, 요약 등 양적 기술분석을 수행한다. 2.탐색분석:업무 도메인 지식을 기반으로 대규모 데이터셋의 상관관계나 연관성을 파악한다. 3.추론분석: 전통적인 통계분석 기법으로 문제에 대한 가설을 세우고 샘플링을 통해 가설을 검증한다 4.인과분석:문제해결을 위한 원인과 결과 변수를 도출하고 변수의 영향도를 분석한다 5...
헤더를 해제해서 원하는 데이터 컬럼명을 넣어준다 원하는 테이블 명 넣어준다. 원하는 열의 컬럼명 선택 한다. 데이터에 대한 열의 컬럼명을 선택하고 데이터 유형을 선택한다. 다 설정해주면 완료을 눌러준다. 데이터 임포트 중하는중이다 . 기달려봅시다. 새로운 테이블이 생겼고 이제 table1 에대한 데이터 확인해보자
휴 -빅데이터 탐색/분석은 장기간의 반복 작업이면서 그 과정에 있어 많은 도구 들이 활용된다. 주로 하둡을 기반으로 하이브 ,피그,우지,스쿱,스파크,등이 해당된다. -일반 분석가 또는 업무 담당자 들이 각 서버에 직접 접속해 사용하기에는 어려움이 있다. 빅데이터 기술이 성숙 해지면서 이런 기술의 복잡도를 숨기고 접근성과 편의성을 높인 소프트웨어들이 만들어지는데 그중 하나가 바로 클라우데라에서 만든 휴(Hue)다 - 휴는 다양한 하둡의 에코 시스템의 기능들을 웹 UI로 통합 제공한다. 휴 아키텍처 휴는 하둡 에코시스템들을 통합하기위해 자체 플러그인을 설치하거나 API를 연동해서 에코시스템들의 주요 기능들을 웹 UI로 제공한다. 휴의 데이터베이스 에서는 휴에 로그인하는 사용자의 계정 관리와 휴에서 사용할 컴..
우지 -하이브 피그 , 스파크등을 이용해 빅데이터 처리 , 탐색 분석하는 과정은 복잡한 선 후행 관계를 맺고 반복적으로 진행된다. -대규모빅데이터 시스템에서서는 수집 및 적재된 수백개 이상의 데이터셋을 대상으로 다양한 후처리 잡이 (데이터간의 의존성을 지켜가며 복잡하게 실행 된다. -복잡한 데이터 파이프라인 작업을 위해 방향성 있는 비순환 그래프(DAG; Direct Acyclic Graph)로 잡의 시작, 처리 분기 종료점 등의 액션(Action)등을 정의하는 워크플로가 필요해졌다.이것 바로 아파치 우지다 유사한 프로젝트는 Azkaban,cascading, Hamke,Airflow 등있다. 우지 클라이언트 에서 작성한 워크플로우는 우지성버로 전송 되어 메타화 되고 RDBMS에저장된다. -우지서버 에싰는..
스파크 -하이브는 복잡한 맵리듀스를 하이브 QL 로 래핑해 접근성을 높일 수있었지만 맵리듀스 코어를 그대로 사용함으로써 성능면에서는 만족 스럽지 못했다. -반복적인 대화형 연산작업에서는 하이브가 적합 하지 않는다. -하이브 단점을 극복하기위해서 다양한 시도을 했는데 그중하나가 스파크다 -스파크는 UC 버클리 의 AMPLab에서 2009년 개발 되었는데 2010년 오픈 소스로 공개 됐고, 2013년 아파치로 재단으로 이전되면서 최상위 프로젝트가 됐다. 빅데이터 분야에서는 핫한 기술중 하나로 2016년 3월 안정 버전인 1.6.1릴리스 됐고 최근에는 3.X버전이 나왔다. 스파크 아키텍처 -스파크의 가장 큰 특징은 고성능 인메모리 분석이다. -기존 맵리듀스 기반의 하이브 또는 피그의 경우 하둡의 로컬 디스크에..
빅테이터 처리/ 탐색 영역은 적재된 데이터를 가공하고 이해하는 단계다 -데이터를 이해하는 과정에서는 데이터들의 패턴,관계, 트렌드 등을 찾게 되는데 이를 탐색적 분석(EDA Exploratory Data Anaysis)이라고한다. -탐색적 분석을 하기 위해서는 2v volume,variety 의 비정형 데이터를 정교한 후 처리작업 (필터링,클린징,통합,분리등)으로 정형화한 저장소가 필요한데, 이곳이 바로 빅데이터 웨어하우스다. 빅테이터 처리/탐색의 최종 결과물을 빅데이터 웨어하우스 기반의 마트이며,이를 빅데이터 분석/응용에 활용된다. -빅데이터 기반(DW)Data Warehouse는 크게 3개의 영역으로 구성돼 있으며 전통적으로 RDBMS기반 DW 구조와 유사하다. -두 데이터웨어하우스 시스템은 서로 상..