2014년 3월 4일 화요일

[Data Science] Introduction - Data-Analytic Thinking

데이터 분석 (Data Analytic)에 대해서 생각해 본적도 또는 실행해 본적도 없다.(그래서 사실 데이터베이스 진흥원에서 하는 빅데이터 아카데미를 수강하게 되었다.) 하지만 최근에 트랜드(?) 유행에 따르면 빅데이터 분석은 분명 유행은 유행인것 같다. 하지만 유행은 빅데이터라는 자체에 대한 유행일 뿐 그 본질적 의미는 과거에나 지금에나 그리고 앞으로 다가올 미래에는 더더욱 그 중요성이 커질것으로 개인적으론 생각한다.

그래서 이미 과거에도 있고 현재도 있고 또 미래에도 분명히 존재 할 빅데이터 분석에 "빅"자는 빼고 한번 차근차근 정리 해보고자 한다. 때에 따라 무식한 언행과 잘못된 참조가 있을 수 있으니 문제제기는 덧글로 해주면 참고하여 수정 하도록 하겠다. 어느정도 정리가 되면 "빅"자를 붙여 실시간이란 의미와 함께 좀더 확장을 하는 방향으로 공부를 해보고 싶다.

* 누가 뭐라 겠는가 나의 수준에 맞추는것이 좋지 간단하게 시작해 보자. 오늘 아침 상황
 2014년 3월 4일 오늘 아침에 나는  8시 40분에 사무실에 도착

1. 당황
 - 현재 시간 7시 21분 평소보다 좀 늦었다. 이대로 기존 경로로 출근하다가는 지각할 수도 있다는 불안감이 엄습하기 시작했다. 어떻게 하지?

2. 현재 상태는?
- 평소 수단/이동 경로 (도보 - 마을버스 - 지하철 - 도보),
- 시내버스 현재 위치 정보 및 대기시간 (실시간 정류장 정보)
- 일반/급행 지하철 가까운 지하철 도착시간
- 오늘의 요일, 날씨 등 정보

3. 결정.
-  버스대기, 급행 지하철 탑승

4. 미리 생각해 보자
- 마을버스 탑승, 빠른 도보 지하철역이동, 급행열차 탑승, 좀 빠른걸음으로 도보 도착

5. 움직이자
- 마을버스 탑승
- 마을버스 도착이 빨라 빠른도보 하지 않고 일반 도보 지하철 역 이동
- 급행열차 연착으로 대기 시간 길어짐
- 최종 목적지 도착시간 계획보다 늦어져 빠른 도보로 목적지 이동
- 도착 (종료)


위의 내용을 좀더 정제하여 정리 해보자

1. Problem Detection
2. Data Gathering
3. Decision Making
4. Planning
5. Implementation

일상생활에서도 보겠으나 위의 단계에서 가장 중요한 부분은 어떻게 보는가? 여타 단계별 중요도도 있긴 하겠으나 분명한것은 3번 Decision Making (의사결정) 단계야 말로 가장 중요 했다. 물론 상황에 따라서는 2번이 더 중요한 요소가 될수도 있다. 그러나 이미 그런것은 준비되어 있는 상황이라면 다른 이견들이 크게 없을 것으로 본다. 아래의 그림이 이러한 설명을 나에게 가장 좋은 이해를 준 그림인 것 같다.



Ref. Data Science for Business page 5. 

결국 의사결정을 위해서는 결정하기 위한 지식이 필요하다. 그러한 지식을 제공하는 것은 결국 데이터 마이닝을 통해 지식을 추출하고 정확, 타탕한 정보가 기본적으로 제공되어야 한다. (Data Engineering and Processing)  이러한 추출된 지식의 집합이 제대로 활용되기 위해서는 두가지가 준비되어야 하지 않을까 생각이 든다 결국 데이터 사이언스에 대한 원론적인 의미 해석이라기 보다는 추출된 지식의 집합(도메인에 따라 형식이나 사용, 그리고 가치는 분명 다를것이다)이 무엇보다 필요 할것이고 이러한 집합체를 활용한 (데이터를 기반으로 하는) 의사결정 문화가 조직내에 자리 잡혀 있어야 할것으로 생각이 든다.


의사결정을 돕기 위한 2가지 방법
1) DATA --> "Discovery" --> Decisions
 - need of a new decision found

2) Data Analysis --> Decision Quality
 - for massive, repeated decisions


* Managers(with data-analytic) should understand
 - the nature of data
 - the value and structure of knowledge
 - how to collect data and extract knowledge
 - available data processing methods


문득 진정한 데이터 사이언티스트가 되는길이 참 멀고도 험하단 생각이 든다. 그래도 IT 출신이라는 장점도 분명 있을 것이란 생각도 해보면서 긍정적으로..

* Bibliography
 - Data Science for Business (O'REILLY)
 - 기업의 현안과 데이터 사이언스 해법 (카이스트 서비스공학과 윤완철)

댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...