빅데이터와 하둡(Hadoop)

빅데이터와 하둡(Hadoop)

 

빅데이터를 이야기하면 반드시 등장하게 되는 이름이 하둡(Hadoop)입니다. 하둡(Hadoop)은 아파치 루씬(Aphache Lucene)의 창시자인 더크 커팅이 만든 말입니다. 인터뷰의 일부를 발췌해보았습니다.

 

“내 아이가 봉제 인형인 노란 코끼리에게 지어준 지음이 하둡(Hadoop)이다. 짧고 상대적으로 맞춤법과 발음이 쉽지만, 특별한 의미는 없고 그 밖에 다른 영도로는 사용되지 않은 이름이다. 이것이 나의 작명 기준이다. 아이들은 그런 것들을 만들어내는데 재주가 있다.”

 

빅데이터에서 하둡(Hadoop)을 공부하면서 제일 먼저 드는 의문은 단어에 대한 의미입니다. 하지만 실제로는 아무 의미없이 부성애를 나타내는 네이밍 정도로 이해하면 될 것 같습니다.

 P20140221_163954185_0C376790-B30E-4F4D-B710-63E19A2C78F0

 웹 검색 엔진을 개발한다는 목적이 사실은 쉬운 것이 아닙니다. 웹사이트를 크롤(Crawl)하고 색인하는 소프트웨어가 복잡한 건 물론이고 그것을 위한 하드웨어 역시 엄청난 비용을 필요로 합니다. (당시 추산으로는 매달 35만 달러로 예측)

 

2002년도에 시작한 너치(Nutch)는 자료와 정보를 검색하는 크롤러라고 보시면 됩니다. 초기에는 검색 페이지 수에 한계가 있었지만 2003년 구글에서 공개한 구글 분산 파일 시스템의 아키텍처(GFS)가 공개되면서 큰 전환점을 맞게 되고 2004년에는 너치 분산 파일 시스템(NDFS, Nutch Distributed File System)를 오픈 소스로 구현하기로 합니다.

 

솔라(Solr)는 루씬 기반의 강력한 테스트 검색, 다면 검색, 실시간 인덱싱, 클러스터링, 데이터베이스 통합, 문서 처리 및 검색, 솔라 분산 인덱싱의 기능을 가진 엔터프라이즈 검색 플랫폼입니다. 자바로 이루어진 라이브러리로 WAS내에서 실행 및 관리가 가능합니다.

 

2006년 2월에 NDFS와 맵리듀스를 묶어 하둡(Hadoop)이라는 루씬의 독립 서브 프로젝트를 구성합니다. 비슷한 시기에 더그 커팅은 야후에 합류하게 되었고 하둡을 웹 시스템으로 전환하기 시작합니다. 2008년 2월에 이에 대한 시연이 이뤄졌으며 야후는 그들의 검색 색인 제품이 1만 코어 하둡 클러스터에서 생성되고 있다고 공표합니다.

 P20140110_103023297_E0BFAE84-607D-4BAD-B01A-C0E36EC48A78

맵 리듀스(Map Reduce)는 대규모 데이터를 여러 대의 컴퓨터에 분산하여 병렬적으로 처리하는 맵(Map) 단계와 중간 결과물을 이용하여 최종 결과에 적합한 데이터를 정리하는 리듀스(Reduce) 단계를 거쳐서 만들어냅니다. 예를 들어 특정한 문서 파일에서 ‘A’라는 알파벳이 발생될 때마다 ‘1’이라는 값을 도출하는 맵(Map) 단계를 거친 후 각 컴퓨터에서 만든 값을 모두 더하여 문서 안에 ‘A’라는 문자가 몇개 있는지를 카운팅할 수 있게 됩니다.

 

현재 빅데이터 분야에서 가장 많이 쓰이는 것이 하둡(Hadoop)입니다. 최근의 하둡(Hadoop)은 단순한 데이터 저장뿐만 아니라 분석 결과까지 처리되는 높은 수준으로 진화되어 있습니다. 아파치에서 엄청난 심혈을 기울이기도 한 탓에 아직 대체할만한 것이 없는 것도 하둡(Hadoop)의 이름을 더욱 높이는 원인이기도 합니다.

2014/04/24

Leave a reply