본문 바로가기

TECH DOC

Hunk for Hadoop and NoSQL Data Stores

Hunk for Hadoop and NoSQL Data Stores


Explore, Analyze and Visualize Data Faster Than You Thought Possible


http://www.splunk.com/view/hunk/SP-CAAAH2E


Hunk 는 Hadoop distributions 을 선도하는 Cloudera CDH, Hortonworks Data Platform, 

IBM infoSphere BigInsights, MapR M series 와 Pivotal HD 의 Apache Hadoop 에 연결한다.





Hunk User Manual


http://docs.splunk.com/Documentation/Hunk/latest/Hunk/MeetHunk


Hunk 를 가지고 Hadoop, NoSQL 데이타로 할 수 있는 일들

- 정형, 비정형, 반정형의 대규모 데이타 처리

- 대용량 데이타의 Report 와 그래픽화

- HDFS 에 저장된 검색 캐시를 만들어 리포팅 속도를 가속

- Apache Hive 와 텍스트, 시퀀스, RCFile, ORC, 파킷을 포함한 다른 파일 포맷에 접근 가능

- 하둡데이타와 Splunk Enterprise indexes 로부터의 데이타를 조합한 리포트를 수행

- 스트리밍 라이브러리를 이용한 NoSQL 혹은 다른 데이터 소스로의 확장

- Hadoop data 의 SDK, apps 사용


Hadoop 에 저장 된 데이타 저장 방식으로 인해, 특정 Splunk Enterprise index 기능은 사용할 수 없다

- Hunk 는 Hadoop 데이타의 실시간 검색을 지원하지 않는다. 

- 이벤트가 어떤 순서로도 정렬되지 않는 관계로, 어떤 암시적으로 타임 정렬에 의존하는 검색 명령도

 Hunk 에서는 다른 결과가 나온다.

 - 데이타는 로컬 인덱스로 항상 신속하게 반환되지는 않습니다.

 

 

About installing and configuring Hunk


최소 하나의 Hadoop Cluster 가 필요하며 MapReduce jobs 을 수행할 수 있는 환경

Java 1.6 이상


Hunk 가 지원하는 Hadoop 은 다음과 같다.


Apache Hadoop

Cloudera Distribution Including Apache Hadoop (5.0)

Hortonworks Data Platform (HDP)

...


Hadoop nodes 에 필요한 것

- Splunk 설치를 위한 1 GB

- Search processes 가 사용할 5-10 GB 임시 공간


Hadoop file system 에 필요한 것

- jobtracker.staging.root.dir ( 보통 /user/ ) 밑에 Hunk 유저가 사용할 서브 디렉토리가 필요하다.

 이를테면 hunk 유저이면 이 유저가 엑세스 가능한 /user/hunk 가 있어야 한다.


Tar file install


tar xvzf hunk_package_name.tgz


tar xvzf hunk_package_name.tgz -C /opt



$SPLUNK_HOME/bin/splunk start --accept-license


http://<hostname>:port


default port is 8000


admin / changeme


Use Hunk and Splunk Enterprise together


http://docs.splunk.com/Documentation/Hunk/latest/Hunk/InstallHunkontopofSplunk


Local indexes ( forwarders 로부터 Splunk indeers 로 보내진 데이타) 와 Hadoop directories 를 동시에 검색하기 위해서는,

6.1 이상의 Hunk 를 인스톨 하고 Hunk 와 Splunk 모두 라이선스 추가를 한다.