2014년 3월 11일 화요일

[Statistics with R] Descriptive Statistics #2 - Mid-Value (대표치)

기술통계가 필요한 이유는 데이터의 합리적인 요약 능력에 있다. 기술통계는 매우 간단한 통계량으로 엄청난 양의 데이터가 갖는 속성을 합리적인 방법으로 간명하게 요약해 줌으로써 독자가 데이터의 속성을 쉽게 이해할 수 있도록 도와준다. 이것이 바로 기술통계가 필요한 이유이다.


기술통계량에는 어떤 것들이 있을까? 크게 4가지 범주로 분류할 수 있다. ① 중심경향성(central tendency) ② 산포도(dispersion) ③ 분포(distribution) ④ 백분위수(percentile) 등이다. 다만 백분위수는 커뮤니케이션 연구에서 거의 사용하지 않기 때문에, 이를 제외한 나머지 세 가지 범주의 기술통계량에 대해 상세하게 살펴보도록 하겠다.

** 기술통계가 필요한 이유 전문 참조
참고URL - 전문내역 원본 링크


* 대표치 : 측정한 데이터의 전체를 대표할 수 있는 성질이나 특성을 수치로 나타낸 값을 대표치라고 한다. 일반적으로 데이터의 중심적인 경향을 나타내는 값이다. 즉 자료의 중심위치를 표시하는 특성치로 우리가 이미 잘 알고 있는 평균도 대표치 중의 하나이다.

1. 계산적 대표치
 - 모든 데이터가 대표치의 계산에 사용되는 추상적인 대표값. 극단적인 값에 영향을 받는 대푯값에는 산술평균, 기하평균, 조화평균, 평방평균 등이 있다.

 1.1. 산술평균(Arithmetic Mean)
- 수리통계학의 평균 계산법으로, n개의 변수의 산술평균은 변수들의 총합을 변수의 개수 n으로 나눈 값이다. 일반적으로 우리가 말하는 평균을 말한다.

 ㄱ. 산술평균에 대한 편차의 합은 0이다.
 ㄴ. 산술평균은 극단값의 영향을 많이 받는다.

- 분석을 접하다 보면 해당 자료중에 극대값을 만나게 된다. 그것으로 인하여 평균값에 영향을 미치게 되고 결정적으로 잘못된 정보를 제공하는 경우가 종종 발생한다. 즉 경우에 따라서는 산술평균의 신뢰도는 떨어 질 수 있다는 단점이 있다.

 - 편차(Deviation) : 각 수치와 대표치와의 차이, 편차의 절대치 합계를 도수로 나눈것을 평균편차라 한다. 즉 편자의 절대치 평균이라 할 수 있다. 

Q. 다음데이터의 산술평균과 표준편차를 구하라!

물론 간단하게 summary(x) 를 하게 되면
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
   20.0    80.0    85.0    79.5    90.0    95.0

쉽게 값을 뽑아 낼 수도 있다. 일반적으로 산술평균에서 최대치값(MAX)의 편차를 보고 제외 할 것인지 포함 할 것인지 결정하는 것이 경우에 따라서는 데이터 클린징 하는 과저에서 제외 하는 경우가 있다.


 1.2. 기하평균(Geometric Mean)
 - n개의 양수가 있을 때, 이들 수의 곱의 n제곱근의 값이다. 기하평균은 산술평균보다 크지 않다

 - 계산하는 방식도 알겠고 수식도 알겠다. 근데 이해가 가지 않는다. 그래서 찾아 보았다. 기하학적 접근 그것은 무엇인가? 하여튼 갈수록 난해함은 더 커진다.

 - 기하학(Geometry) : 백과사전 용어설명 토지 측량을 위해 도형을 연구하는데서 기원했으며, 공간의 수리적 성질을 연구하는 수학의 한 분야이다.

 - R에서 기하평균을 계산하기 위해선 geometric.mean() 함수를 활용한다.

대략적인 조합의 설명들로 보면 기하평균은 상승률에 대한 평균정보를 알고자 할때 사용하는 것이 적절할것으로 보인다. 올해 경제성장률이 4%, 내년 경제 성장률이 9%일때 평균 성장률이 얼마인가? 산술평균은 6.5%이지만 실제 성장한 정도를 따져보면 100을 기준으로 4%성장은 104가 되고 104에서 9%성장하여 113.36이 되므로 평균적으로 6.47%상승한 것으로 확인 할 수 있다.


 1.3. 조화평균(Arithmetic Mean)
 - n개의 양수에 대하여 그 역수들을 산술평균한 것의 역수를 말한다. 예를 들어, 두 지점 A,B를 갈 때는 a km/h의 속도로, 올 때는 b km/h의 속도로 왕복했다면 이 사람의 평균속력은 a와 b의 조화평균에 해당된다. 또 100 m를 뛰는 데 3회 뛴 시간이 a초, b초, c초였다고 하면, 그 평균은 a,b,c의 조화평균으로 구해진다. 이와 같이 일이나 능률의 예에서는 산술평균을 구하면 틀리게 된다.

Q. 자동차의 5회 운행의 속도(km/sec)를 조사한 자료의 평균속도는?


평균값들을 정리 하면 산술평균 >= 기하평균 >= 조화평균의 관계가 성립힌다. 
x1 = a, x2 = b , a = 5로 고정  b를 5부터 10까지 증가시킬 경우 평균값들의 관계도 
[두값 차이에 따른 평균의 분포]

[세가지 평균의 극단값의 영향도]

이런 기본적인 수준의 평균값 정도를 알았다면 모델링 할때 구매금액에 대한 평균값을 구할때 조화 평균으로 구했었다면 의미가 있었을까 라는 생각을 해보게 된다. 여하튼 극단값에 대한 영향도나 어떠한 경우에 평균값을 사용하는냐에 따라 다른 결과를 가져 올 수 있겠다는 것이 명확하니 반드시 숙지하고 상황에 맞는 것을 선택하여 사용해야 겠다.


2. 위치적 대표치
 계산적 대표치가 극단값에 영향을 받는 단점을 보완한 대표값이다. 데이터의 일부를 이용해서 전체의 특성을 유지하면서 극단값의 영향을 회피하는 방법으로 대표값을 계산

2.1 중위수(Median)
크기순으로 배열 했을 때 전체의 중앙에 위치하는 수치. 예를 들면, 주어진 n개의 자료에 대해 n이 홀수인 경우 크기가 (n+1)/2번째 값, n이 짝수인 경우 크기가 n/2번 째 또는 (n/2)+1 번째 값을 중위수이라고 한다.

2.2 중간값(Mid-Point) 
얻어진 n개의 값 중에서 가장 큰 값과 가장 작은 값의 평균값을 일컫는 말이다. 각 값의 분포상태에는 영향을 미치지 않는다. 평균값·중앙값·최빈값 등과 함께 어떤 측정항목의 도수분포(度數分布)를 하나의 값으로 대표할 때에 사용되는 대표값이다.

2.3 최빈수(Mode)
도수분포에서 최대의 도수를 가지는 변량의 값이다. 예를 들면, 어느 학생의 7회에 걸친 성적이 각각 40점 ·42점 ·45점 ·46점 ·45점 ·45점 ·45점이었다면, 7회 중에서 45점이 모두 4회로서 절대다수이므로 이 집단의 최빈수는 45점이다.

또, 변량의 분포형태가 대칭이면 평균 ·중앙값(메디안) ·최빈수는 일치하나, 비대칭이면 보통 다음과 같은 경험식(經驗式)이 성립한다. (평균)-(최빈수)=3×{(평균)-(중앙값)}

2.4 사분위수(Quartiles) 및 백분위수(Percentiles)
 - 사분위수(Quartiles) : 자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다. 제1사분위수는 누적 백분율이 25%에 해당하는 점수이고, 제2사분위수는 누적 백분율이 50%, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 점수이다. 특히 제2사분위수는 누적 백분율이 50%이므로 개념적으로 중앙값과 동일하다.

- 백분위수(Percentiles) : 사분위수를 4등분이 아닌 100등분할 경우 각각의 절단점을 백분위수라고 한다. 



2.5 절사평균(Trimmed Mean) 
자료의 가장 큰 부분과 작은 부분을 일정 비율 잘라내 버림으로써 계산된다. 예를 들면 20%의 절사 평균이란 포본의 크기가 10인 표본집단의 경우에 제일 작은 값 2개와 제일 큰 값 2개를 버리고 산술평균을 구하는 것이다.


2.6 윈저화 평균(Winsorized Mean) 
극단값을 보정한 평균을 의미하는데 극단값을 제거한 절사평균과 유사함


#참고문헌 및 참고URL
1. R을 이용한 통계학의 이해 - 자유아카데미
2. 네이버백과사전

[Data Science] 분석과제 정의 - 분석 기회 발굴

- 데이터 분석의 업무 활용 체계 도입을 위한 접근 방식

1. Top Down Approach
#1 page190



 1) 비즈니스 모델 이해

   Context(컨텍스트)를 이해 해야 한다. 용어에 대한 거부감이 있을 수 있겠다. Context 분석이란 관점에서 의미가 어떤 의미 단순히 문맥이란 의미로 사용한다면 부연된 설명들을 표현하기엔 부족한 면이 있고 아무래도 IT출신이여서 그런 것은 아니지만 상황정보로 해석하는 것이 적절하리라 본다. (네이버백과사전 정보참조). 비즈니스 모델의 이해에 가장 핵심이 되는 부분이 바로 우리 회사에 당면한 비즈니스 컨텍스트(상황정보)를 다양한 관점으로 파악해볼 필요가 있다는 것이다.

* 비즈니스 파악
 - 시장요인
 - 거시경제요인
 - 주요 트랜드 관점
 - 산업요인

다양한 설명 보다는 참고문헌 #1의 190p 의 그림이 쉽게 설명 하리라 본다.
#1 page190


 * 고객 니즈 파악

 - 기존 고객의 니즈를 파악하는게 기업의 입장에선 출발점인 것이다. 그러한 니즈를 명확하게 파악 하기 위해서 무엇을 해야 할까? 어떠한 관점에서 해야 할까? 데이터 분석이란 분야에 대한 공부를 시작하고 나서 가장 큰 어려움은 물음의 꼬리를 따라 가다가 삼천포 내지는 개념의 확장 딜레마에 빠지게 된다. 어쨌든 멀리 들어 가지 않고 지금 현재에선 고객의 니즈 파악을 위한 중요 4가지 요소에서 정리를 해보고자 한다. 좀더 자세한 내용과 의미는 나 역시 "소비자행동론"에서 참고할 생각이다.

 - Functional(기능적) Value : 물리적 속성, 성능, 특징 등 기능적인 관점  
 - Financial(재무적) Value : 가격에 대한 부분 무료, 저가격, 고가격의 관점
 - Intangible(무형의) Value : 공유, 확장, 이동, 접근성
 - Emotional(감성적) Value : 즐거움, 자긍심, 자유

 - 미충족 니즈(Unmet Needs) 파악
   분석된 고객의 니즈를 다시 경쟁사가 선점하고 있는 것과 공통, 그리고 자사가 선점한 부분을 영역으로 분리 하면 고객의 니즈 중 충족하지 못하는 부분을 발굴 하게 된다.

#1 page194



 2) 비즈니스 모델 상세화
 - 기업의 경쟁 요소를 구체적으로 정의 할 수 있음. 기업의 전략테마, 실행활동 간 관계를 분석하고 비즈니스 운영 상세 시나리오 정 의를 통해 구체화된다. 기업의 전략테마 · 실행활동 간 관계 분석을 위한 도구로 활동체계 지도(Activity System Map)를 사용하고 비 즈니스 운영 상세 시나리오는 인과지도(Causal Loop Diagram - CLD) 를 사용해 정의한다.

#1 page 196

활동체계 지도(Activity System Map)은 전략 방향을 전략테마와 실행 활동 간 관계를 통해 정의할 수 있도록 도와주는 도두. 이것을 활용하여 비즈니스 모델을 상세화 한다. 가치 제공 수준을 바탕으로 전략테마를 정의, 이러한 전략테마를 실현하기 위한 실행 활동을 도출한 후 전략테마, 실행활동간 관계를 정의 한다. 이러한 사례는 상위 참조된 그림은 [사우스웨스트항공]의 전략테마와 실행활동 간 관계 분석상의 실행 활동 사례이다.

이러한 관계 분석을 통해 도출된 내용을 바탕으로 선택(Choice) - 이론(Theory) - 결과(Consequence)의 형태로 비즈니스 운영 시나리오를 상세화하여 정의 할 수 있음. CLD 연관된 변수들이 서로 어떻게 영향을 미치는지를 시각적으로 표현한 다이어그램이다. 자세한 내용은 #1을 참조


 3) 분석 유스케이스 정의
유스케이스 개념이 소프트웨어 설계에서 유스케이스 관점 설계와 비슷하다는 생각을 하게 되었다. 또는 동일한 것일 수도 있다. 전략적인 테마와 실행을 위한 관계분석 그 내용을 바탕으로 한 시나리오를 상세화 하여 그 안에서 이론(Theory)를 분석하여 분석유스케이스를 찾아 낸다. 아래의 표 예시는 그것을 좀더 쉽게 설명하고 있다.


#1 page 202


 - 분석유스케이스 정의(이벤트 반응 분석)
 도출된 분석 유즈 케이스를 상세히 정의하고,필요한 분석(Analytics)를 찾아내기 위해 프로세스 흐름을 시작부터 종료까지 표현하는 이벤트 반응 다이어그램 (Event Response Diagram) 을 활용한다.



실제 분석을 하기 위한 시나리오세 이론(Theory) 는 비즈니스 문제에 대한 질문에 대한 현상과 상황에 대한 내용이다. 이러한 내용을 기준으로 분석 유스케이스의 분석(Analytics) 왜 용어를 이렇게 사용하는지 좀 개인적으로 의문이 들긴 하지만 여하튼간에 식별된 분석을 시나리로 상세화 하여 가설을 세우고 그 해당 가설을 검증하게 되는 과정을 반복 하면서 분석 유스케이스를 상세화 하고 평가 하게 된다. 이러한 분석들을 평가하는 과정에서 비즈니스 모델의 경쟁요인과 관련되는 분석으로 가장 많은 경쟁요인과 관련될 수록 보다 핵심분석이라고 볼 수 있다. 분서의 평가 기준은 중요도, 영향도, 난이도 세가지 형태로 기준을 잡는다.

참으로 진도 안나가는 부분이다. 실제로도 이런 과정에 산출되는 산출물관리 하다 끝나 버릴것 같은 무식한 생각도 해본다. 분명 그렇지만은 않겠지만 소프트웨어 설계시에도 비슷한 경험이 있는 나에겐 어느정도의 선입견은 있는듯 하다. 제대로된 모델링과 모델을 기준으로 한 개발/구현이 이뤄진다면 베스트 하겠지만 실제 업무나 현장엥서 이러한 구조가 쉽지 않다. 모르면 몰라도 분석하는 쪽의 현장도 크게 다르지만은 아닐것 같은 생각이 충분히 버리지 못하겠다. 그래도 반드시 알아야 할 기초적인 단계인것은 확실 하다.


2. Bottom Up Path-Finding Approach
 - 특정 업무 영역을 대상으로 주제를 정하여 분석기회를 발굴하는 접근 방식으로 맵상에 표현되는 업무 의사결정 지점을 바로 분석의 대상으로 식별하는 것.

- 프로세 스 분류 전사 업무 프로세 스를 가치사슬(Value Chain) -> 메가 프로세스 (Mega Process) -> 메이저 프로세 스 (Major Process)-> 프로세 스( Process) 단계로 구조화해 업무 프로세스를 정의한다 .

- 프로세 스 흐름 분석 :프로세 스별로 프로세 스 맴을 통해 업무 흐름을 상세히 표현한다.
- 분석 요건 식별 : 각 프로세 스 랩상의 주요 의사결정 포인트를 식별한다.
- 분석 요건 정의 : 각 의사결정 시점에 무엇을 알아야 의사결정을 할 수 있는지 , 즉 분석의 요건을 정의하고 분석의 요건을 분석 기회화 한다,


#참조 URL 및 참고 문헌
1. 데이터 분석전문가 가이드 - 데이터베이스 진흥원 2014
2. Data Science for business  - O'Reilly 2013
3. 네이버 지식백과 사전


2014년 3월 10일 월요일

[Data Science] 분석 과제 정의 - 개요

* 분석 기획에 관한 정보 요약과 개인적인 사견을 첨부
  - 개인적인 사견에 오류가 있다면 언제든지 지적을 받을 준비가 되어 있음. 덧글 남겨 주시면 수정 보완 하겠음.

- 데이터의 핵심은 데이터 자체가 아닌 분석을 통한 의사결정의 최적화


현실적으로 비즈니스 이벤트(이슈)가 발생했을 상황에서 정확한 의사결정 (아니 어쩌면 가장 정확할 높은 확률의 의사결정이 더 맞을 수 있겠다)을 내리는데 달려 있다. 지연시간을 줄이기 위한 노력이 필요 하다.

1. Question First 방식으로 접근해야 한다.
   궂이 왜 앞에 단어를 영어로 썼는지 잘 이해는 가지 않는다. 어쨌든 비즈니스 이슈나 이벤트에 대해서 기존의 방식과 다른 것은 일단 있는 데이터 집계와 분석이 아니라 우리가 당면한 문제가 무엇인지에 대한 질문이 우선되어야 한다는 것이다. 공감하는 부분이다. 질문을 통해 우리가 어떤 데이터를 어떻게 활용 할 것인가 결정 할 수 있다.

2. 선택과 집중을 해야 한다.
 볼보의 사례(#1의 page 187p 참조)를 통해서 처음부터 모든 비즈니스 이슈를 도출하고 해결하고자 하는 구조를 만드는 것이 아니라 개선이 시급하거나 빠른 피드백과 보완이 가능한 부서 및 조직을 구성하여 개선하고 확장해 가는 방식을 선택 해야 한다.

3. 자동화된 분석을 업무 프로세스에 내재화 시켜야 한다.
 동의하고 싶지 않지만 동의 할 수 밖에 없는 현실 한가지는 뛰어난 직원 5%가 나머지 95%를 먹어 살린다는 말. 나머지 95%도 5%와 마찬가지로 판단하고 실행 할 수 있도록 분석 프로세스를 실제 업무 의사결정에 삽입하여 구조화 시키는 것을 얘기 하고 있으나 현실적으로 가능 할지가 좀 의문이긴 하다. 어쨌든 공감하는 부분은 데이터 기반의 의사결정을 위한 구조와도 같은 맥락으로 이해가 되긴 한다. 본인의 감이나 누군가 시켜서 했다는 내용이 아니라 데이터는 충분히 공유되고 그것을 기반으로 처리 할 수 있는 시스템(소프트웨어 포함)을 구축하고 내재화 한다면 충분한 효과를 볼 것으로 생각 된다.



#참조 URL 및 참고 문헌
1. 데이터 분석전문가 가이드 - 데이터베이스 진흥원 2014
2. Data Science for business  - O'Reilly 2013
3. 네이버 지식백과 사전

2014년 3월 5일 수요일

[Book #22] 강신주의 감정수업



과거 강신주 저자의 몇가지 책들을 추천드린 적이 있습니다. 특별하게 특정 작가에게 치우친것은 아니지만 결과적으로 보니 해당 작가에 대한 애정이 좀 있긴 한것 같습니다. 최근에 힐링캠프 프로그램에 나왔다는 얘기를 듣고 다시 보기로 찾아 보니 책으로는 또 느끼지 못했던 감정들도 함께 돌아 오고 생각할 수 있는 것들을 무수히 던져주었습니다. 못보신 분들이 있다면 추천 드립니다. ^^ 

우리는 지금의 사회 활동(직장, 가족, 친구등)을 만나고 살면서 자신의 감정을 억누르고(?) 표현이 맞는지 모르겠습니다. 그렇게 살수 밖에 없고 그렇게 살아야 도덕적이고 잘사는 사람을 기억되고 배워 왔습니다. 저 개인또한 그렇게 생각을 하고 있지요. 하지만 그 억눌렀던 감정 자체도 어떤 감정인지 명확하게 정의하지 못했습니다. 사랑인지 증오인지 경멸인지, 당황인지... 등등  그러한 감정들의 표현이 좀더 쉽게 해외의 작가들의 작품을 통한 해당 감정을 이해시키고 있습니다. 훨씬더 쉽게 읽어내려 가실 수 있습니다. 


가슴으로 기억되는 부분을 발췌 합니다. 
희망(spes)은 우리들이 그 결과에 대하여 어느 정도 의심하는 미래나 과거의 사물의 관념에서 생기는 불확실한 기쁨(inconstans laetitia)이다. 
- 스피노자 "에티카"에서 page 442 .  

항상 그림자를 곁에 두고 있는 나무를 생각해 보자 나무가 커지면 커질수록 그림자도 그 만큼 커지고 길어진다. 그림자의 검은빛을 마음에 들지 않는 사람이 있다고 하자. 동시에 그는 큰 나무의 웅장함도 포기하지 않으려고 한다. 그렇지만 나무를 그대로 도구 그림자를 반으로, 나아가 반에 반으로 중리려는 그의 소원은 이루어질 수 있을까? 불가능한 일이다. 그림자를 줄이기 위해서는 크고 웅장한 나무를 자르지 않을 수 없을 테니까. 희망도 마찬가지다. 미래의 불확실성이 싫어서 그것을 줄이려고 한다면, 우리는 희망 자체를 그 만큼 잘라내야 한다. 잊지 말자. 나무가 있기에 불확실성도 발생한다는 사실을 말이다. 따라서 불확실성이 견디기 힘들도록 무섭다는 이유로 희망의 싹을 자르려고 한다면 그것은 어리석은 일이 될 것이다. .... 중략... 

우리는 불확실한 미래를 가진 현재에 살고 있습니다.  머리속에 항상 맴돌게 됩니다. 이것이 과연 성공할까? 할수 있을까? 라고 미래를 정확하게 예측할 수 있는 사람도 도구도 없습니다. 그리다고 우리가 희망을 갖지 말고 줄여야 할까요? 생각할 수 밖에 없는 질문 입니다. 우리의 희망은 사람에 맞춰져야 합니다. 그 사람 자체에 희망을 가진다면 불확실성에 두려워하는 두려움보다 더 큰 확실함의 신뢰를 가져다 줄수 있고 결국에 그 신뢰는 우리에게 기쁨을 가져다 줄 것입니다. 

* 교보문고 소개글 중 발췌.

이성과 감성, 인간은 이 두 가지 사이에서 균형을 이루어야 온전한 삶을 이룰 수 있다. 하지만 우리는 가부장제와 물질만능주의가 야기하는 억압적인 구조 아래에서 감정을 억누르며 살 수밖에 없다. 이성이 절대 위치에 있는 철학 전통에서 인간을 이해하는 데 감정이 중요한 키워드임을 주지시켰던 ‘혁명적인’ 철학자가 있었으니, 바로 17세기에 네덜란드 암스테르담의 유대인 교회에서 파문당한 스피노자다. 스피노자는 『에티카』 3부에서 인간의 감정을 크게 48가지로 분류하고, 그와 유사한 감정들을 비교하면서 파고들었는데, 인간의 감정을 이토록 세분해서 소개한 철학자는 없었다. 대중과의 소통을 소중히 여기는 철학자 강신주 박사는 자아를 잃고 방황하는 현대인에게 지금 시급한 문제는 바로 자기 감정을 회복하는 일이라고 주장한다. 저자는 철학자의 어려운 말을 독자에게 쉽게 전달하기 위하여 위대한 심리학자와도 같았던 작가들의 이야기에서 예를 가져온다. 

2014년 3월 4일 화요일

[Data Science] Introduction - Data-Analytic Thinking

데이터 분석 (Data Analytic)에 대해서 생각해 본적도 또는 실행해 본적도 없다.(그래서 사실 데이터베이스 진흥원에서 하는 빅데이터 아카데미를 수강하게 되었다.) 하지만 최근에 트랜드(?) 유행에 따르면 빅데이터 분석은 분명 유행은 유행인것 같다. 하지만 유행은 빅데이터라는 자체에 대한 유행일 뿐 그 본질적 의미는 과거에나 지금에나 그리고 앞으로 다가올 미래에는 더더욱 그 중요성이 커질것으로 개인적으론 생각한다.

그래서 이미 과거에도 있고 현재도 있고 또 미래에도 분명히 존재 할 빅데이터 분석에 "빅"자는 빼고 한번 차근차근 정리 해보고자 한다. 때에 따라 무식한 언행과 잘못된 참조가 있을 수 있으니 문제제기는 덧글로 해주면 참고하여 수정 하도록 하겠다. 어느정도 정리가 되면 "빅"자를 붙여 실시간이란 의미와 함께 좀더 확장을 하는 방향으로 공부를 해보고 싶다.

* 누가 뭐라 겠는가 나의 수준에 맞추는것이 좋지 간단하게 시작해 보자. 오늘 아침 상황
 2014년 3월 4일 오늘 아침에 나는  8시 40분에 사무실에 도착

1. 당황
 - 현재 시간 7시 21분 평소보다 좀 늦었다. 이대로 기존 경로로 출근하다가는 지각할 수도 있다는 불안감이 엄습하기 시작했다. 어떻게 하지?

2. 현재 상태는?
- 평소 수단/이동 경로 (도보 - 마을버스 - 지하철 - 도보),
- 시내버스 현재 위치 정보 및 대기시간 (실시간 정류장 정보)
- 일반/급행 지하철 가까운 지하철 도착시간
- 오늘의 요일, 날씨 등 정보

3. 결정.
-  버스대기, 급행 지하철 탑승

4. 미리 생각해 보자
- 마을버스 탑승, 빠른 도보 지하철역이동, 급행열차 탑승, 좀 빠른걸음으로 도보 도착

5. 움직이자
- 마을버스 탑승
- 마을버스 도착이 빨라 빠른도보 하지 않고 일반 도보 지하철 역 이동
- 급행열차 연착으로 대기 시간 길어짐
- 최종 목적지 도착시간 계획보다 늦어져 빠른 도보로 목적지 이동
- 도착 (종료)


위의 내용을 좀더 정제하여 정리 해보자

1. Problem Detection
2. Data Gathering
3. Decision Making
4. Planning
5. Implementation

일상생활에서도 보겠으나 위의 단계에서 가장 중요한 부분은 어떻게 보는가? 여타 단계별 중요도도 있긴 하겠으나 분명한것은 3번 Decision Making (의사결정) 단계야 말로 가장 중요 했다. 물론 상황에 따라서는 2번이 더 중요한 요소가 될수도 있다. 그러나 이미 그런것은 준비되어 있는 상황이라면 다른 이견들이 크게 없을 것으로 본다. 아래의 그림이 이러한 설명을 나에게 가장 좋은 이해를 준 그림인 것 같다.



Ref. Data Science for Business page 5. 

결국 의사결정을 위해서는 결정하기 위한 지식이 필요하다. 그러한 지식을 제공하는 것은 결국 데이터 마이닝을 통해 지식을 추출하고 정확, 타탕한 정보가 기본적으로 제공되어야 한다. (Data Engineering and Processing)  이러한 추출된 지식의 집합이 제대로 활용되기 위해서는 두가지가 준비되어야 하지 않을까 생각이 든다 결국 데이터 사이언스에 대한 원론적인 의미 해석이라기 보다는 추출된 지식의 집합(도메인에 따라 형식이나 사용, 그리고 가치는 분명 다를것이다)이 무엇보다 필요 할것이고 이러한 집합체를 활용한 (데이터를 기반으로 하는) 의사결정 문화가 조직내에 자리 잡혀 있어야 할것으로 생각이 든다.


의사결정을 돕기 위한 2가지 방법
1) DATA --> "Discovery" --> Decisions
 - need of a new decision found

2) Data Analysis --> Decision Quality
 - for massive, repeated decisions


* Managers(with data-analytic) should understand
 - the nature of data
 - the value and structure of knowledge
 - how to collect data and extract knowledge
 - available data processing methods


문득 진정한 데이터 사이언티스트가 되는길이 참 멀고도 험하단 생각이 든다. 그래도 IT 출신이라는 장점도 분명 있을 것이란 생각도 해보면서 긍정적으로..

* Bibliography
 - Data Science for Business (O'REILLY)
 - 기업의 현안과 데이터 사이언스 해법 (카이스트 서비스공학과 윤완철)

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...