'빅데이터 플랫폼' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

Tags more

Archives

Today

Total

관리 메뉴

목록빅데이터 플랫폼 (15)

꾸준히 하고싶은 개발자

빅데이터 처리/탐색 스파크

스파크 -하이브는 복잡한 맵리듀스를 하이브 QL 로 래핑해 접근성을 높일 수있었지만 맵리듀스 코어를 그대로 사용함으로써 성능면에서는 만족 스럽지 못했다. -반복적인 대화형 연산작업에서는 하이브가 적합 하지 않는다. -하이브 단점을 극복하기위해서 다양한 시도을 했는데 그중하나가 스파크다 -스파크는 UC 버클리 의 AMPLab에서 2009년 개발 되었는데 2010년 오픈 소스로 공개 됐고, 2013년 아파치로 재단으로 이전되면서 최상위 프로젝트가 됐다. 빅데이터 분야에서는 핫한 기술중 하나로 2016년 3월 안정 버전인 1.6.1릴리스 됐고 최근에는 3.X버전이 나왔다. 스파크 아키텍처 -스파크의 가장 큰 특징은 고성능 인메모리 분석이다. -기존 맵리듀스 기반의 하이브 또는 피그의 경우 하둡의 로컬 디스크에..

빅데이터 플랫폼 2022. 10. 25. 20:53

빅데이터 처리/탐색(하이브)

빅테이터 처리/ 탐색 영역은 적재된 데이터를 가공하고 이해하는 단계다 -데이터를 이해하는 과정에서는 데이터들의 패턴,관계, 트렌드 등을 찾게 되는데 이를 탐색적 분석(EDA Exploratory Data Anaysis)이라고한다. -탐색적 분석을 하기 위해서는 2v volume,variety 의 비정형 데이터를 정교한 후 처리작업 (필터링,클린징,통합,분리등)으로 정형화한 저장소가 필요한데, 이곳이 바로 빅데이터 웨어하우스다. 빅테이터 처리/탐색의 최종 결과물을 빅데이터 웨어하우스 기반의 마트이며,이를 빅데이터 분석/응용에 활용된다. -빅데이터 기반(DW)Data Warehouse는 크게 3개의 영역으로 구성돼 있으며 전통적으로 RDBMS기반 DW 구조와 유사하다. -두 데이터웨어하우스 시스템은 서로 상..

빅데이터 플랫폼 2022. 10. 24. 21:39

빅데이터 적재 2 -실시간 로그 /분석 적재(Hbase,redis) 실습2 자바 스프링 사용해서 웹으로 보기

./rcar.sh 2022 1022 날짜로 100대 실행시켜면 되고 아래 단축키가있다. java -cp bigdata.smartcar.loggen-1.0.jar com.wikibook.bigdata.smartcar.loggen.DriverLogMain ${1} ${2} 톰캣으로 서버 연결해서 실시간으로 데이터가 자바 스프링 웹뷰로 보여준다.

빅데이터 플랫폼 2022. 10. 22. 16:28

빅데이터 수집 Kafka

kafka -MOM(Message Oriented Midden) 소프트웨어 중 하나로서 대규모 발생하는 메시지성 데이터를 비동기 방식으로 중계하는 역할을 한 다. -원천 시스템으로 부터 대규모 트랜젝션 데이터가 발생 했을 때 중간에 데이터를 버퍼링 하면서 타깃 시스템에 안정적으로 전송해 주는 중간 시스템이 Kafka 다 -2011년 처음으로 링크드인에서 개발 되면서 2011년 6월에 아파치 인큐레이터에 등록 됬으며 불과 1년 만에 2012년 10월 아파치 최상위 프로젝트로 승격된다. kafka 아키텍처 카프카는 클러스터는 방식은 세가지 아키텍처 로 구성이 가능하며 이때 주키퍼를 사용해야한다. 1대의 Kafka를 설치 하고 1개의 Broker만 구성한 아키택처 이다. 대량의 발행/소비 요건이 없고 업부 도..

빅데이터 플랫폼 2022. 10. 21. 23:10

빅데이터 적재 2 -실시간 로그 /분석 적재(Hbase,redis)

실시간 로그 분석에서는 데이터는 작지만 대량으로 발생하는 메시지성 데이터를 실시간으로 분석(집계,분류,관계등) 처리하며 해당결과를 인 메모리에 저장해 주변 시스템과 빠르게 공유한다. 이때대량의 메시지를 데이터를 영구 저장하기 위해 하둡을 직접 이용하지 않는 이유는 유입된 작은 메시지 한건을 곧바로 하둡에 저장할 경우 한개 의 수적으로 늘어나고 이로 인해 하둡 클러스터에 지나친 오버헤드가 발생하기 때문이며 이런 문제를 해결하기 위해서 중간에 메시지를 특정 크기로 모았다가 한꺼번에 적재하거나 대규모 트랜잭션 데이터를 처리하는 최적화된 칼럼지향형 NOSQL 데이터 베이스를 주로 사용한다. HBase -NoSQL 데이터 베이스들을 데이터를 키/값(Key / value) 구조로 단순화하고 컬럼 또는 도큐먼트 형식..

빅데이터 플랫폼 2022. 10. 20. 09:14

빅데이터 적재 적재1 (대용량 로그파일 적재)

수집을 했다면 데이터를 어디에 어떻게 저장할 것인가를 다룬다. -수집한 데이터는 특징에 따라서 처리하는 방식과 적재 하는 위치에 따라서 달라진다. -데이터의 발생주기 에따라 일괄 배치성 데이터인지 실시간 데이터 인지 판단하고 데이터의 형식에 따라 가공 처리나 사전 검증 작업을 할 것인지도 판단해야한다. 내/외부 원천 데이터는 정형데이터와 반전형데이터 비정형데이터로 나뉜다. 적재 저장소는 배치성 처리(대용량) 와 실시간 처리(메시지)에따라서 2가지 로나누어진다. (1) 정형 데이터(structured data) 정형 데이터(structured data)는 정형화된 스키마(형태) 구조 기반의 형태를 가지고 RDB 및 스프레드시트 등과 같이 고정된 필드에 저장되며 값과 형식에서 일관성을 가 지는 데이터를 말한..

빅데이터 플랫폼 2022. 10. 18. 21:58

빅데이터 수집 플럼10월 13일

수집->적재-> 처리/탐색 ->분석/응용 =>분석및 응용에서 잘못된부분있으면 처리/탐색으로 가서 다시 작업한다. 빅 데이터 수집 시스템 구축은 수집에서부터 시작하며 빅 데이터 프로젝트에서 여러 공정 단계가 있는데 그중 수집이 전체 공정 과정에 절반이상을 차지한다. 빅데이터 수집은 내부 전체 시스템에서 부터 외부 시스템(SNS,포털,정부기관)에 이르기까지 매우 광범위하고 다양하다. 프로젝트 초기에는 수집 대상 시스템을 선정하고 그에 따른 연동 규약을 협의 및 분석하는 데 엄청난 리소스가 투입되며 또한 수집 실행 단계에서 업무 요건과 환경의 변화로 이전 단계인 수집 계획 수립으로 다시 돌아가는 경우가 빈번하게 발생되며 그로 인해 그계획과 실행단계가 여러차례 반복되서 수집 인터페이스가 빈번히 수정되는 어려움이..

빅데이터 플랫폼 2022. 10. 12. 21:53

이전 Prev 1 2 Next 다음

목록빅데이터 플랫폼 (15)

꾸준히 하고싶은 개발자

티스토리툴바