2014년 3월 11일 화요일

[Statistics with R] Descriptive Statistics #2 - Mid-Value (대표치)

기술통계가 필요한 이유는 데이터의 합리적인 요약 능력에 있다. 기술통계는 매우 간단한 통계량으로 엄청난 양의 데이터가 갖는 속성을 합리적인 방법으로 간명하게 요약해 줌으로써 독자가 데이터의 속성을 쉽게 이해할 수 있도록 도와준다. 이것이 바로 기술통계가 필요한 이유이다.


기술통계량에는 어떤 것들이 있을까? 크게 4가지 범주로 분류할 수 있다. ① 중심경향성(central tendency) ② 산포도(dispersion) ③ 분포(distribution) ④ 백분위수(percentile) 등이다. 다만 백분위수는 커뮤니케이션 연구에서 거의 사용하지 않기 때문에, 이를 제외한 나머지 세 가지 범주의 기술통계량에 대해 상세하게 살펴보도록 하겠다.

** 기술통계가 필요한 이유 전문 참조
참고URL - 전문내역 원본 링크


* 대표치 : 측정한 데이터의 전체를 대표할 수 있는 성질이나 특성을 수치로 나타낸 값을 대표치라고 한다. 일반적으로 데이터의 중심적인 경향을 나타내는 값이다. 즉 자료의 중심위치를 표시하는 특성치로 우리가 이미 잘 알고 있는 평균도 대표치 중의 하나이다.

1. 계산적 대표치
 - 모든 데이터가 대표치의 계산에 사용되는 추상적인 대표값. 극단적인 값에 영향을 받는 대푯값에는 산술평균, 기하평균, 조화평균, 평방평균 등이 있다.

 1.1. 산술평균(Arithmetic Mean)
- 수리통계학의 평균 계산법으로, n개의 변수의 산술평균은 변수들의 총합을 변수의 개수 n으로 나눈 값이다. 일반적으로 우리가 말하는 평균을 말한다.

 ㄱ. 산술평균에 대한 편차의 합은 0이다.
 ㄴ. 산술평균은 극단값의 영향을 많이 받는다.

- 분석을 접하다 보면 해당 자료중에 극대값을 만나게 된다. 그것으로 인하여 평균값에 영향을 미치게 되고 결정적으로 잘못된 정보를 제공하는 경우가 종종 발생한다. 즉 경우에 따라서는 산술평균의 신뢰도는 떨어 질 수 있다는 단점이 있다.

 - 편차(Deviation) : 각 수치와 대표치와의 차이, 편차의 절대치 합계를 도수로 나눈것을 평균편차라 한다. 즉 편자의 절대치 평균이라 할 수 있다. 

Q. 다음데이터의 산술평균과 표준편차를 구하라!

물론 간단하게 summary(x) 를 하게 되면
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
   20.0    80.0    85.0    79.5    90.0    95.0

쉽게 값을 뽑아 낼 수도 있다. 일반적으로 산술평균에서 최대치값(MAX)의 편차를 보고 제외 할 것인지 포함 할 것인지 결정하는 것이 경우에 따라서는 데이터 클린징 하는 과저에서 제외 하는 경우가 있다.


 1.2. 기하평균(Geometric Mean)
 - n개의 양수가 있을 때, 이들 수의 곱의 n제곱근의 값이다. 기하평균은 산술평균보다 크지 않다

 - 계산하는 방식도 알겠고 수식도 알겠다. 근데 이해가 가지 않는다. 그래서 찾아 보았다. 기하학적 접근 그것은 무엇인가? 하여튼 갈수록 난해함은 더 커진다.

 - 기하학(Geometry) : 백과사전 용어설명 토지 측량을 위해 도형을 연구하는데서 기원했으며, 공간의 수리적 성질을 연구하는 수학의 한 분야이다.

 - R에서 기하평균을 계산하기 위해선 geometric.mean() 함수를 활용한다.

대략적인 조합의 설명들로 보면 기하평균은 상승률에 대한 평균정보를 알고자 할때 사용하는 것이 적절할것으로 보인다. 올해 경제성장률이 4%, 내년 경제 성장률이 9%일때 평균 성장률이 얼마인가? 산술평균은 6.5%이지만 실제 성장한 정도를 따져보면 100을 기준으로 4%성장은 104가 되고 104에서 9%성장하여 113.36이 되므로 평균적으로 6.47%상승한 것으로 확인 할 수 있다.


 1.3. 조화평균(Arithmetic Mean)
 - n개의 양수에 대하여 그 역수들을 산술평균한 것의 역수를 말한다. 예를 들어, 두 지점 A,B를 갈 때는 a km/h의 속도로, 올 때는 b km/h의 속도로 왕복했다면 이 사람의 평균속력은 a와 b의 조화평균에 해당된다. 또 100 m를 뛰는 데 3회 뛴 시간이 a초, b초, c초였다고 하면, 그 평균은 a,b,c의 조화평균으로 구해진다. 이와 같이 일이나 능률의 예에서는 산술평균을 구하면 틀리게 된다.

Q. 자동차의 5회 운행의 속도(km/sec)를 조사한 자료의 평균속도는?


평균값들을 정리 하면 산술평균 >= 기하평균 >= 조화평균의 관계가 성립힌다. 
x1 = a, x2 = b , a = 5로 고정  b를 5부터 10까지 증가시킬 경우 평균값들의 관계도 
[두값 차이에 따른 평균의 분포]

[세가지 평균의 극단값의 영향도]

이런 기본적인 수준의 평균값 정도를 알았다면 모델링 할때 구매금액에 대한 평균값을 구할때 조화 평균으로 구했었다면 의미가 있었을까 라는 생각을 해보게 된다. 여하튼 극단값에 대한 영향도나 어떠한 경우에 평균값을 사용하는냐에 따라 다른 결과를 가져 올 수 있겠다는 것이 명확하니 반드시 숙지하고 상황에 맞는 것을 선택하여 사용해야 겠다.


2. 위치적 대표치
 계산적 대표치가 극단값에 영향을 받는 단점을 보완한 대표값이다. 데이터의 일부를 이용해서 전체의 특성을 유지하면서 극단값의 영향을 회피하는 방법으로 대표값을 계산

2.1 중위수(Median)
크기순으로 배열 했을 때 전체의 중앙에 위치하는 수치. 예를 들면, 주어진 n개의 자료에 대해 n이 홀수인 경우 크기가 (n+1)/2번째 값, n이 짝수인 경우 크기가 n/2번 째 또는 (n/2)+1 번째 값을 중위수이라고 한다.

2.2 중간값(Mid-Point) 
얻어진 n개의 값 중에서 가장 큰 값과 가장 작은 값의 평균값을 일컫는 말이다. 각 값의 분포상태에는 영향을 미치지 않는다. 평균값·중앙값·최빈값 등과 함께 어떤 측정항목의 도수분포(度數分布)를 하나의 값으로 대표할 때에 사용되는 대표값이다.

2.3 최빈수(Mode)
도수분포에서 최대의 도수를 가지는 변량의 값이다. 예를 들면, 어느 학생의 7회에 걸친 성적이 각각 40점 ·42점 ·45점 ·46점 ·45점 ·45점 ·45점이었다면, 7회 중에서 45점이 모두 4회로서 절대다수이므로 이 집단의 최빈수는 45점이다.

또, 변량의 분포형태가 대칭이면 평균 ·중앙값(메디안) ·최빈수는 일치하나, 비대칭이면 보통 다음과 같은 경험식(經驗式)이 성립한다. (평균)-(최빈수)=3×{(평균)-(중앙값)}

2.4 사분위수(Quartiles) 및 백분위수(Percentiles)
 - 사분위수(Quartiles) : 자료를 크기 순으로 배열하고, 누적 백분율을 4 등분한 각 점에 해당하는 값을 말한다. 제1사분위수는 누적 백분율이 25%에 해당하는 점수이고, 제2사분위수는 누적 백분율이 50%, 제3사분위수는 75%, 제4사분위수는 100%에 해당하는 점수이다. 특히 제2사분위수는 누적 백분율이 50%이므로 개념적으로 중앙값과 동일하다.

- 백분위수(Percentiles) : 사분위수를 4등분이 아닌 100등분할 경우 각각의 절단점을 백분위수라고 한다. 



2.5 절사평균(Trimmed Mean) 
자료의 가장 큰 부분과 작은 부분을 일정 비율 잘라내 버림으로써 계산된다. 예를 들면 20%의 절사 평균이란 포본의 크기가 10인 표본집단의 경우에 제일 작은 값 2개와 제일 큰 값 2개를 버리고 산술평균을 구하는 것이다.


2.6 윈저화 평균(Winsorized Mean) 
극단값을 보정한 평균을 의미하는데 극단값을 제거한 절사평균과 유사함


#참고문헌 및 참고URL
1. R을 이용한 통계학의 이해 - 자유아카데미
2. 네이버백과사전

댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...