2016년 5월 31일 화요일

[Data Analysis] 산포도와 상관계수 - ( degree of scattering & coefficient of correlation )


회사에서 분석을 하게 되면 변수들 간의 어떠한 관계가 있는가에 대한 것으로 시작을 하게 되는 경우가 많다. 우리 매장의 숫자와 매출과의 관계는 어떻되지? 우리 매장의 면적과 매출과의 관계는? 고객수와 매출과의 관계는? 이러한 궁금증 또는 질문들에 대한 답을 들어 보고자 한다면 산포도와 상관계수 값을 확인함으로 해서 그 일을 시작 할 수 있다. 시작할 수 있다고 표현하는 이유는 두 변수의 상관관계는 이것을 포함한 더 추가적인 정보들이 모여서 더 나은 의사결정 또는 다음 작업이 이뤄지는 것을 현업에서 보아 왔기 때문이다.

어찌 되었든 이번에 대한 포스트에선 산포도와 상관계수에 대한 이야기만을 간략하게 해보고자 한다. 산포도는 변수 X와 변수 Y가 만나는 지점을 점으로 표현한 그래프이다.

예제 1(학생정보)
> head(DF, 10)
     name  sex age grade absence bloodtype height weight
1  김길동 남자  23     3      유         O  165.3   68.2
2  이미린 여자  22     2      무        AB  170.1   53.0
3  홍길동 남자  24     4      무         B  175.0   80.1
4  김철수 남자  23     3      무        AB  182.1   85.7
5  손세수 여자  20     1      유         A  168.0   49.5
6  박미희 여자  21     2      무         O  162.0   52.0
7  강수친 여자  22     1      무         O  155.2   45.3
8  이희수 여자  23     1      무         A  176.9   55.0
9  이철린 남자  23     3      무         B  178.5   64.2
10 방희철 남자  22     2      무         B  176.1   61.3

plot(DF)

데이터의 상관관계를 가져보이는 변수들로만 좀더 찾아 보게 되면
> DF2 <- data.frame(DF$height, DF$weight)
> DF3 <- cbind(DF2, DF$age)
> plot(DF3)


상관계수값을 확인 해보자
> cor(weight, height)
[1] 0.6641816


두 변수간의 상관계수를 확인하여 보면 다음과 같다. 우리는 이러한 결과 숫자를 확인하여 보고 어떠한 관계인지 해석 할 수 잇다. 상관계수 값은 -1 < 0 < 1 사이의 값을 표현 한다.


-1의 숫자에 가까울 수록 음의 상관관계를 갔고 있고 1의 숫자에 가까울수록 양의 상관관계를 가지고 있다고 해석할 수 있다. 당연히 0이거나 0에 가까울 수록 두 변수는 아무 상관관계를 가지고 있지 않다고 할 수 있다.


* 산포도 - 통계청-통계용어 지표이해
* 상관계수 - 상관계수란 - 나부랭의의 수학블러그

* 작성자의 공통적인 변
데이터 분석의 전문가는 아니지만 현업에서 기업의 데이터를 활용하여 분석 또는 분석의 전단계 까지의 데이터 정제(클린징)과 데이터의 분석을 위한 탬플릿 또는 모델링을 하게 되는 경우가 많다. 규모가 좀더 크고 인원이 지원되는 회사라면 각 파트별 각 업무별 로직과 조직(인원)이 있을 것이나 그러하지 못한것이 장점이되기도 한다. 회사의 자료를 외부에 오픈 하기 위한 용도나 목적은 아니며 개인적인 업무(지식)에 대한 정리 차원이라고 생각해 주었으면 한다. 어떤 경우 외부에서 검색을 통해 들어와 확인하게 되었다면 나와 같은 일을 하는 또는 하고자 하는 학생들에게 맞보기가 되어 보길 바란다.

댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...