Hunk for Hadoop and NoSQL Data Stores
Explore, Analyze and Visualize Data Faster Than You Thought Possible
http://www.splunk.com/view/hunk/SP-CAAAH2E
Hunk 는 Hadoop distributions 을 선도하는 Cloudera CDH, Hortonworks Data Platform,
IBM infoSphere BigInsights, MapR M series 와 Pivotal HD 의 Apache Hadoop 에 연결한다.
Hunk User Manual
http://docs.splunk.com/Documentation/Hunk/latest/Hunk/MeetHunk
Hunk 를 가지고 Hadoop, NoSQL 데이타로 할 수 있는 일들
- 정형, 비정형, 반정형의 대규모 데이타 처리
- 대용량 데이타의 Report 와 그래픽화
- HDFS 에 저장된 검색 캐시를 만들어 리포팅 속도를 가속
- Apache Hive 와 텍스트, 시퀀스, RCFile, ORC, 파킷을 포함한 다른 파일 포맷에 접근 가능
- 하둡데이타와 Splunk Enterprise indexes 로부터의 데이타를 조합한 리포트를 수행
- 스트리밍 라이브러리를 이용한 NoSQL 혹은 다른 데이터 소스로의 확장
- Hadoop data 의 SDK, apps 사용
Hadoop 에 저장 된 데이타 저장 방식으로 인해, 특정 Splunk Enterprise index 기능은 사용할 수 없다
- Hunk 는 Hadoop 데이타의 실시간 검색을 지원하지 않는다.
- 이벤트가 어떤 순서로도 정렬되지 않는 관계로, 어떤 암시적으로 타임 정렬에 의존하는 검색 명령도
Hunk 에서는 다른 결과가 나온다.
- 데이타는 로컬 인덱스로 항상 신속하게 반환되지는 않습니다.
About installing and configuring Hunk
최소 하나의 Hadoop Cluster 가 필요하며 MapReduce jobs 을 수행할 수 있는 환경
Java 1.6 이상
Hunk 가 지원하는 Hadoop 은 다음과 같다.
Apache Hadoop
Cloudera Distribution Including Apache Hadoop (5.0)
Hortonworks Data Platform (HDP)
...
Hadoop nodes 에 필요한 것
- Splunk 설치를 위한 1 GB
- Search processes 가 사용할 5-10 GB 임시 공간
Hadoop file system 에 필요한 것
- jobtracker.staging.root.dir ( 보통 /user/ ) 밑에 Hunk 유저가 사용할 서브 디렉토리가 필요하다.
이를테면 hunk 유저이면 이 유저가 엑세스 가능한 /user/hunk 가 있어야 한다.
Tar file install
tar xvzf hunk_package_name.tgz
tar xvzf hunk_package_name.tgz -C /opt
$SPLUNK_HOME/bin/splunk start --accept-license
http://<hostname>:port
default port is 8000
admin / changeme
Use Hunk and Splunk Enterprise together
http://docs.splunk.com/Documentation/Hunk/latest/Hunk/InstallHunkontopofSplunk
Local indexes ( forwarders 로부터 Splunk indeers 로 보내진 데이타) 와 Hadoop directories 를 동시에 검색하기 위해서는,
6.1 이상의 Hunk 를 인스톨 하고 Hunk 와 Splunk 모두 라이선스 추가를 한다.