2012년 1월 13일 금요일

요즘 Issue 가 되는 빅데이터 분석에 대한 생각

지인이 빅데이터 분석 회사의 사장이고, 요즘 여러 매체에서도 “빅데이터” 라는 용어가 상당히 자주 등장하네요. 예전 Data Warehouse 나 ETL, OLAP 등의 용어가 이제는 너무 오래된 구식 용어가 된 느낌이네요^^

어쨌거나 “빅데이터” 라는게 직적적으로는 단순히 아주 많은 데이터를 의미하기도 하지만,

  • 얼마나 많은 데이터를 빠르고, 안정적으로 수집하고 관리하느냐
  • 원하는 분석 결과를 얼마나 효과적으로 추출할 수 있느냐?
  • 원하는 분석을 정의하기, 데이터 필터링 기능 등의 데이터 정제 기능
  • 분석 결과 리포팅 등의 보고서 기능

등을 필요로 하겠지요.

저야 이 분야에 대해, 아직까지는 DW 와 OLAP 수준을 벗어나지 못했습니다. 다만, 데이터 양이 기하급수적으로 늘었으니, 새로운 방법으로 데이터를 처리해야 하는 것에 이견이 있는 것이 아닙니다.

예전이나 지금이나 아주 많은 Data가 있더라도, 거기에서 의미있는 가설을 이용하여 의미있는 결과를 만들어 낼 수 있는 능력이 더 중요하다고 볼 수 있습니다.

그런 의미에서 제가 한 일 중에 기업의 모든 단위업무를 어떤 “고리” 를 이용하여, 업무들의 연속 흐름 즉 프로세스로 도출해 내는 Process Mining 도 여기에 해당합니다.

많은 데이타가 있을 수록 더 좋은 결과를 낼 수 있다고 생각할 수 있지만, 원하는 결과에 실제로 필요 없는 대량의 쓰레기 데이터는 그냥 쓰레기일 뿐이죠.

프로세스 시뮬레이터도 수 많은 Raw Data 를 생성하고, 이를 이용하여, 프로세스의 성능이나 적정 투입 리소스를 예측할 수 있습니다. 다만, 이 것도 목적에 따라, 기법에 따라 상당히 다른 결과를 산출합니다. 그걸 해석하고, 분석할 수 있는 능력이 중요하지요.

요즘 이슈가 되는 빅데이터는 이러한 기존 분석 방법을 뛰어넘는 것은 아니라 봅니다. Data를 다루기 위한 기법이 달라지고, 연산을 더 빠르고 하기 위한 알고리즘 등의 개선은 있어야 겠지만…

그리고, 요즘 빅데이터가 크기만을 뜻하는 게 아니라, 다양한 데이터 소스와 다양한 데이터 형식 (글, 이미지, 음성, 음악, 동영상 등) 를 뜻하기도 하니, 확실히 예전 DW 나 OLAP 하고는 다르지요.

전통적으로 데이터 분석에 유명한 SAS의 본부장이 쓴 글을 보면, 경계와 함께 데이터 분석의 중요한 점이 무엇인지 생각해 보게 합니다.

원문 : 빅데이터 분석, 자신감만으로 되나

댓글 없음: