일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ㅇ
- 패스트 캠퍼스
- 오름캠프플러터
- 모두연구소
- 모두의 연구소 # 오준석의생존코딩# 오름캠프
- #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 오름캠프
- Tag #패스트캠퍼스 #내일배움카드 #국비지원 #K디지털기초역량훈련 #바이트디그리 #자바인강
- 오존석의 생존코딩
- 오준석의생존코딩
- 오준석의 생존코딩
- 모두의연구소
- 모두의연구소 오준석생존코딩 오름캠프
- 생존코딩
- 플러터
- Today
- Total
꾸준히 하고싶은 개발자
빅데이터 분석 머하웃(Mahout) 본문
머하웃
-하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는툴이다.
-머신러닝을 다루는 프레임워크는 머하웃 말고도 다양한 분야에서 발전해 오고있다.
-가장 유명한 R을 비롯해 래피드마이너(RapidMiner) 웨카(Weka) 파이썬 진영의 사이킷런(scikit-learn), 텐서플로우(TensorFlow)등이 이에 해당한다.
-대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기 어렵다
-머하웃은 하둡에서 분산 머신러닝을 하기위해서 2008년 검색엔진 루씬의 서브 프로젝트로 시작됐고 하둡의 분산 아키텍처를 바탕으로 텍스트 마이닝 군집 분류 등과 같은 머신러닝 기반 기술 내재화되면서 2010년 4월 아파치 최상위프로젝트로 승격됐다.
머하웃 아키텍처
-머하웃은 하둡의 분산 환경 위에 맵리듀스를 기반으로 고급 분석을 지원하는 라이브러리패키지다 .
-하둡 클러스터 관점에서 보면 머하웃의 머신러닝 알고리즘 이 맵리듀스 에서 작동하도록 구현됐기 때문에 선형 확장 으로 대규모(테라급이상) 머신러닝작업이 가능한 아키텍처를 가지고있다.
-주요관련 라이브러리로는 추천 분류 군집이있다.
실습
원하는 로컬 디렉토리에 데이터 넣어주기
해쉬 함수는 하이브에서 만 사용가능하다 임팔라에서는 쓸 수 없다
리눅스에서 만들어진 데이터 학인하기
HDFS 에서 폴더(경로) 만들기
휴 통해서 파일이 만들어졌는지 확인하기
원하는 경로에 데이터 넣어주기
000000_0파일을 원하는경로 item_buylist.txt 이름으로 저장한다.
머하웃 추천 분석기를 실행한다.
i:추천 분석에 사용 할 입력데이터
s:추천분석 결과가 출력된 경로
o:추천을 위한 유사도 알고리즘
n:추천할 아이템 개수
휴통해서 머하웃이 제대로 되는지 경로 확인하기
'빅데이터 플랫폼' 카테고리의 다른 글
스쿱 이용해서 mysql 데이터 넣기 (0) | 2022.11.04 |
---|---|
스쿱 (0) | 2022.11.03 |
빅데이터 분석(제플린Zeppelin) (1) | 2022.11.01 |
빅데이터 분석 (임팔라) (0) | 2022.10.31 |
빅데이터 처리/탐색(휴) (0) | 2022.10.27 |