2014년 4월 15일 화요일

[SAF Intranet] 데이터의 재발견

* SAF internal training courses - data analysis process #1

이것은 사내 임직원 내부 교육을 위해 생성된 자료를 바탕으로 하고 있습니다. 사내 실습용 데이터는 별도로 내부에서만 공유될 예정이며 이 글은 사내 과정의 참고자료 목적으로 작성된 내용입니다. 

다음과 같은 교육과정으로 구성  
1. 일반 - 왜 모두들 데이터에 관심을 갖는가에 대한 내용
2. 기초 - 내부/외부 데이터 수집 방법, 데이터 가공 방법  
3. 분석 - 간략한 분석방법 실습 적용 
4. 표현 - 데이터 시각화에 대한 이야기, 보고서 만들기

활용도구는 오픈소스 R과 Excel을 병행 하도록 합니다.
관련된 자료는 구글 검색 또는 내부 커뮤니티 게시판을 이용하세요. 

* 이야기를 시작하며
처음 과정을 만들어 보고자 할때 부터 고민이 되는 것은 어떻게 이야기를 전개 해야 하는가에서 부터 최종 교육을 통한 목적이 무엇인가에 대한 고민이 가장 컸습니다. 결론 적으로 우리는 그 첫번째 목표로 데이터를 바라보는 관점의 변화 두번째로 데이터(주로 내부 그리고 외부 포함)가 주어졌을 때 분석하고자 하는 형태로 데이터를 변환하고 도구를 이용하여 여러가지 형태로 분석할 수 있도록 지원 하는 것으로 가져 봤습니다.

물론 4차 과정에서 데이터 시각화에 대한 과정을 추가 하였으나 표현에 대한 기법이라기 보다는 시각화가 가져다 주는 장/단점을 확인해보고 향후 좋은 보고서를 만드는 방법은 무엇인가에 대한 토론이 주된 내용이 될것입니다.

우리의 이 이야기는 해당 분야에 대한 아주 아주 대단한 전문가 집단이 아닙니다. 어쩌면 보잘것 없는 위치 일 것입니다. 하지만 우리의 이 시작이 우리의 개인과 조직을 더 스마트하게 한다는 우리의 비전을 실현해줄 것이라고 상상하고 달려 갈 것입니다. 내용에 오류가 있거나 논란이 될 수 있는 부분은 덧글 또는 메세지를 통하여 전달 해주시면 정정 하도록 하겠습니다.


* 패턴? 당신은 누구 입니까? 

보통의 개념을 우리가 알기 위해선 과거 책(또는 사전)을 찾아 보거나 했을 것이지만 최근엔 대부분 검색을 하게 될것입니다. 구글을 사용하시나요? 목적이 검색이라면 구글을 추천합니다. 그 이유는 여기의 논재가 아니니 제외하도록 할께요. 위키피디아에 나온 정의는 이렇습니다. 패턴(pattern)은 프랑스어 낱말 patron에서 온 것으로, 되풀이되는 사건이나 물체의 형태를 가리킨다. 물체들의 집합 요소로 부르기도 한다. 이러한 요소들은 예측 가능한 방식으로 되풀이된다.쪽매맞춤(테셀리이션-tessellation)이라는 가장 기본적인 패턴은 반복과 주기성에 기반을 둔다.

제가 생각하기에 가장 적절하게 하는 표현이 정의 그 자체에 있는듯 합니다. 예측 가능한 방식으로 되풀이 된다는 것입니다. 고객을 대상으로 하는 조직이라면 더더욱이 고객을 예측하고 싶어 합니다. 언제 구매를 하게 될지에 대한 논의는 소비패턴이나 행동패턴등의 용어에 포함되어 과거에서 부터 많은 논의가 되어 왔어 많는 논문들에서도 어떠한 프로세스 과정을 거쳐 구매하게 되는지도 정의한 결과들이 참으로 많습니다. 우리의 주제는 아주 상세하게 그 내용을 논의 하고자 하는 것은 아닙니다. 왜? 라는 곳에만 집중을 해보도록 할께요.

분명 우리는 이미 과거의 구매가 되풀이 되는 기록을 통하여 앞으로의 구매가 일어날 것을 예측할 수 있습니다. 이미 우리는 그렇게 하고 있지요? 과거 이벤트나 과거 행사 를 해봤으니 올해도 이렇게 될 것이다. 그럼 한가지 궁금한게 있습니다. 그러한 근거 또는 가설을 뒷받침 할 만한 내용을 데이터로 갖고 있는지 아니면 경험으로 갖고 있는지 말입니다. 이미 데이터로 그 가설을 뒷받침 하고 계시다면 더이상의 조언은 의미가 없을 것입니다. 그렇지만 경험으로만 갖고 계신 의사결정이라면 반드시 틀렸다고 만은 말할 수 없으나 데이터를 기반으로 하는 의사결정과 가설의 뒷받침을 할 수 있길 권고 하려고 합니다.

그래서 우리는 오늘 그 데이터에 대한 이야기를 좀더 해보고자 합니다.

* 데이터 자체에 대한 이야기
데이터베이스에 대한 공부를 하신 분들이 만약에 계시다면 대부분의 첫장에 설명되어 있는 데이터에 대한 설명은 데이터와 정보의 차이를 구분하여 설명하는 것이 일반적일 것입니다. 저 또한 그와 틀리지 않은 이야기로 시작하려고 합니다.

우리의 모든 현상 다시 말해 현실세계에는 모두 데이터로 표현 가능 합니다. 데이터는 크게 정성적데이터와 정량적 데이터로 구분을 합니다. 정성적 데이터특성이나 특징을 나타내는 기호나 문자를 대표합니다. 또한 숫자로 표현할 수 있는 데이터들을 정량적 데이터라고 합니다. 정의에 대한 이야기가 나왔으니 정보나 지식에 대한 이야기도 해보겠습니다. 무수히 많은 데이터들은 데이터 자체로만은 의미가 없었습니다(과거형으로 표현하는 이유는 뒤에서 자연스럽게 이해가 되시리라 생각이 됩니다). 의사결정을 위해서 사용한 데이터들을 다르게 표현하여 우리는 정보(Information) 이라고 합니다. 또한 이러한 정보들은 유기적인 구조로 분리하고 개인의 경험을 보태어 축척하는 것을 지식이라고 합니다. 이러한 지식의 축척과 아이디어가 결합된 창의적 산물을 지혜로 설명할 수 있습니다. (참조-데이터분석전문가가이드)




위그림은 지식의 피라미드에 사례를 우리가 보기 편한 사례로 좀더 수정을 해봤습니다. 좀 억지스러운 예제일 수 있으나 구분하는 목적으로만 바라 봐 주시길 바랍니다. 누구나 위의 지식피라미드를 경험하리라고 봅니다. 살면서 경험하게 되는 많은 것들은 이 일련의 프로세스같은 경우가 많이 있기 때문이죠. 그런데 최근에(개인적으론 이런 저런 언급이 시작된건 4년 전 인것 같네요 - 이미 그전이라고 하더라도 지극히 개인적인 수준입니다) 상위 레벨의 지혜까지의 일련의 프로세스가 아닌 데이터 자체에 대한 관심이 높아 지고 있습니다. 왜 일까요?

주변의 활용 사례와 사용 사례들을 보면 그 이유가 조금은 이해가 됩니다. 그것은 바로 데이터 자체가 나타내고 있는 패턴입니다. 무수히 많은 그리고 무심코 지나치던 데이터 들은 통찰력과 새로운 시각으로 바라 보니 어떤 특징들을 가지고 있다는 것입니다. 과거에 비해서 우리는 데이터를 수집하고 저장하고 검색하고 분석하는데 드는 비용이 현저히 떨어지고 있습니다. 하여 이러한 궁금증과 실행이 좀더 쉬워지고 좀더 간편해졌다고 생각이 듭니다. 지금보다 앞으로는 이러한 것들의 더 좋은 인프라가 구성이 되리라 생각이 듭니다.


* 데이터를 활용한 국내 해외 사례
주변에서 전문가의 교육이나 세미나 등에서 자주 등장하는 이야기가 있습니다. 바로 기저귀 맥주의 사례인데요. 금요일 저녁에 기저귀를 사는 남자들이 맥주를 산다라고 하는 데이터 구매 이력을 보고 상품 진열을 함께 했더니 매출이 상승하였다. 과거에 데이터 분석의 주요 의미는 인과관계를 분석하는데 관점이 컸다면 이와 같이 인과관계를 설명할 수 없지만 어떤 상관성을 가지고 있는 것들을 찾아 냄으로 해서 그 다음 행동을 할 수 있게 의사결정 하는 것이죠. 이보다 국내에서도 다양한 사례들이 생겨나고 있습니다. KT와 서울시의 협업으로 생성된 심야교통버스의 노선을 분석한 사례등도 이와 같다고 할 수 있죠. 다양한 사례와 내용은 지면을 통하지 않고 아래 링크의 여러 보고서 자료가 존재 하니 참고 하시길 바랍니다.




- 빅데이터 국가전략 포럼 사례보고서


* 왜 다들 데이터에 집중 할까?
결국에 이러한 데이터를 가지고 숨겨져 있던 패턴을 찾아 내고 그 패턴을 기억하고 그 패턴에 맞는 예측된 내역을 사람에게 전달 합니다. 또는 공공의 문제를 해결하는데도 사용되죠. 결국에 그 방향은 정부의 정책에도 변화를 이끌어 내리라고 봅니다. 그것은 공통적인 적용에서 바로 개인적인 적용의 시대로 변화하고 있다는 의미 일 수 있습니다. 넓게 보지 않고 우리는 기업이니 기업의 관점에서만 한번 바라 보겠습니다. 우리는 현재 개인화 서비스까지 할 수 있는 인프라를 구성하진 않았습니다. 하지만 꿈같은 현실이지만 많은 고객을 개개인별로 응대하고 그의 성향을 알 수 있고 본인에게 딱맞는 맞춤형 서비스가 진행 된다면 좀더 좋지 않을까요? (물론 개인정보보 보호에 관한 사항이 얽혀 있긴 합니다만 이곳에서는 그 부분은 언급하지 않겠습니다. 그/그녀가 누구인지에 집중하는 것이 아니라 어떤 특성을 갖고 있는지에 대한 이야기를 하고 있으니까요)

개인화서비스가 좀더 알고 싶으신 분은 링크를 참조 하세요. (개인화서비스)
- 블러그 설명 자료 링크
- 뉴스기사


* 일반과정을 마무리 하며
글을 쓰다 보니 배가 산으로 간 느낌이 없지 않아 있습니다. 우리가 데이터에 관심을 갖는 이유는 결론이 개인화 서비스는 아닙니다. 여러가지 형태로 발전하고 변화 한것을 언급하다 보니 그 이야기 까지 하게 되었네요. 정신 차리고 다시 제자리에 서서 생각해보도록 하겠습니다. 우리는 과거 많은 의사결정을 또는 의사결정을 위한 사전 준비를 데이터를 기반으로 하지 않았습니다. 물론 데이터를 기반으로 했다고 주장할 순 있지만 좀 아쉬운 것은 데이터 기반에 포함되는 데이터가 현재의 데이터와 상관관계를 갖는 데이터가 제외 되지 않았는지 한번은 의심의 눈초리를 스스로에게 또는 조직에게 보내야 합니다. 또한 데이터를 기반으로 의사 결정을 한다는 것은 많은 것들을 내포하고 있지만 가장 큰것은 투명해진다는 특성을 가지고 있습니다. 부끄러움을 상징하는 투명함이 아니라 당당함과 견고함의 투명성을 갖는 개인과 조직문화를 만들어 가고자 우리는 이렇게 한발을 내딛은 것입니다.

사설이 길고 우왕좌왕한 설명들이 있었다는 것을 인정합니다. 하지만 시작을 했다는 것에 지금은 의미를 두고 싶습니다. 계속 변화 해갈 것이고 내부적으로 이러한 의사결정의 모델들을 만들어 보고 실행하고 검증하는 과정을 보낸다면 우리는 꿈같은 현실을 살아 갈 수 있을 것으로 확신합니다.







댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...