2014년 5월 16일 금요일

[SAF Intranet] 데이터분석과정 2주차 - Data Mining & Open Source R

* SAF internal training courses - data analysis process #2

지난 1차 기본과정에서는 데이터에 대해 우리가 가져야할 다른 시각에 대한 부분을 다양한 사례들과 몇가지 주의가 필요한 개념들로 알아 보았던 과정이었다. 이제 부터 진행되는 기초 과정은 향후 분석과정의 내에서 배우게될 과정 중에 기초과 되는 과정이며 새로운 것들을 배우게 됨으로써 현업에 조금은 부담스럽게 작용할 부분도 있다고 판단된다. 그러나 차근히 예제를 따라 해주고 구글 검색을 통해서 나오는 것들을 적절히 활용 한다면 충분히 함께 진행 할 수 있을 것으로 판단된다.

# 활용된 대부분의 내용은 이미 누군가의 책이나 블러그등에 올려져 있는 내용 위주로 되어 있다. 적절히 활용된 모든 내용은 출처를 하단에 참고 문헌 쪽에서 공개적으로 공유하면 문제가 될경우 연락 준다면 게시됐던 모든 내용은 삭제할 예정이다.


* 2주차 과정에서 다루게 될 개념 및 내용
1. Data Mining 개념 및 활용 분야
    - 우리 관심 사항에 해당하는 사례를 중심으로
    - 각 분석기법에 대한 내용은 3주차시 진행 예정

2. R & R Studio 설치 및 활용 방법 - 윈도우 설치 방법 (링크연결)

3. R 기본 사용 법 및 데이터 타입 - 기본사용법 (링크연결 #1, #2, #3)

4. R을 활용한 데이터 수집/가공 방법 - 관계형데이터베이스 및 일반 문서

5. 활용예제 (Text Mining - SNS 데이터, 게시판 및 일반 게시물 글 데이터 )
  - 트위터글 수집 방법 (링크연결)
  - 트위터글의 감성분석 샘플 (링크연결)
  - 사내 게시물 텍스트 마이닝 예제(오프라인 교육시 진행 )


참조자료 : 네이버 지식백과 " 데이터마이닝 " 


1. 데이터 마이닝 이란? (2주차 기본과정에 일부 포함)
간단하게는 "대용량의 데이터로부터 그 안에 숨겨져있는 의미있는 지식(패턴)을 찾아내는 과정"이라고 설명할 수 있습니다. 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙(rule)이나 패턴(Pattern)을 찾아 내는 것이다. 다른 말로는 KDD(데이터베이스 속의 지식 발견(Knowledge-discovery in databases)라고도 일컫는다. 이를 위해서, 데이터 마이닝은 통계석에서 패턴인식에 이르는 다양한 계량 기법을 사용한다. - 위키피디아 설명



2. 데이터 마이닝 분석과정 (3주차 데이터분석 주요 교육내용)

출처 : Chapman, et al.(2000), p. 10 

데이터 마이닝은 대용량 데이터를 활용해 다양한 분석방법론을 적용하기 때문에 별도의 소프트웨어를 사용하는 것이 필요 하다. 데이터베이스 업체에서 제공하는 소프트웨어가 일반적일고 분석용 소프트웨어로는 SAS, SPSS, Open Source R 이 있다. 우리는 앞으로 R을 활용하여 연습할 것이고 관련된 실행 소스도 모두 R을 활용한 것으로 진행 할 예정이다.


Open Source R 에 대한 자세한 사항은 아래 링크를 참고 하길 바란다.
http://www.r-project.org/ 


3. 데이터마이닝 분석 방법 정리 (3주차 데이터분석 주요 교육내용)
데이터마이닝의 분석의 종류는 분류, 군집, 연관규칙 등으로 소개할 수 있다.그 외에도 물론 더 많은 방법들이 존재 하고 있으나 우리가 진행되는 과정에선 고객관계관리(CRM)과 영업매출에 관한 분석 방법들로 제한 하고자 한다.


1) 분류분석(Classification) :
목표 필드의 값을 찾는 모델을 생성한다. 과거의 데이터를 입력으로 하여 분류 모델을 생성하고 새로운 데이터에 대하여 분류값을 예측한다. 이벤트를 진행할 때 고객 타켓을 정하는 중요한 기준이 될것이다. 응답할 확율이 높은 고객을 대상으로 하는 것이 성공율이 높다는것은 공감할 수 있지 않을까.


2) 군집분석(Clustering) :
데이터를 여러가지 속성(변수)들을 고려하여 성질이 비슷한 몇 개의 집합으로 구분하는 분석 기법이다. 고객군의 세그먼트를 세분화 시키고 그에 맞는 향후 프로모션이나 이벤트를 기획하기 위한 기초 데이터가 될 수 있다. 또한 그룹을 하고 있는 고객들의 특성을 한단계 더 세부 분석해 볼 수 있는 장점이 있다.


3) 연관규칙(Association) :
매장 에서 고객이 한번에 구입하는 메뉴들을 분석하여 함께 판매되는 패턴이 강한 연관된 메뉴들을 찾는다. 예를 들어 갈릭스노윙피자를 먹은 사람은 그랩&랍스타 파스타를 먹는다 또는 오랜지에이드를 주로 먹는다. 라는 연관 결과가 있다면 메뉴추천을 할때 이러한 연관관계가 높은 메뉴를 주로 추천하는 것을 채택할 수 있다.


4) Text Mining :
 고객의 소리 또는 현업직원과 관리 직원간의 텍스를 기반으로 하여 부각되는 의견이나 관계를 확인하여 의사결정 또는 향후 교육 진행 방향을 잡아 가는 방식을 체택한다. 일반적인 텍스트 마이닝 결과를 포함하여 기본적인 감성분석(긍정/부정)을 테스트해 볼 예정이다.


* 참고문헌
1. 데이터 분석 전문가 가이드- 데이터 분석 부분
2. 네이버 백과사전
3. Open Source R Blog




댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...