2014년 2월 25일 화요일

[Statistics with R] Descriptive Statistics #1


Descriptive Statistics (기술통계) - 주어진 데이터를 가지고 도표나 그래프를 그려보거나, 데이터의 중심 경향도나 퍼짐의 정도 등을 이용하여 데이터의 특성을 설명하는 통계 방법

* Inferential Statistics(추측통계) - 모집단에서 추출된 표본에서 나온 통계치로부터 모수를 추정하거나 가설을 검정함


1. 집계표와 집계 그래프

* Frequency Table (도수분포표) - 자료를 일정한 수의 범위로 나누어 분류하고, 각 범위별로 수량을 정리한 표.


(1) 변량 : 자료를 수량으로 나타낸 것

(2) Class(계급) : 변량을 일정한 간격으로 나눈 구간

(3) 계급의 크기 : 변량을 나눈 구간의 너비

(4) 계급값 : 계급의 중앙의 값.

(5) Frequency(도수) : 각 계급에 속하는 자료의 수

(6) Frequency Table(도수분포표) : 주어진 자료를 몇 개의 구간으로 나누고 각 계급에 속하는 도수를 조사하여 나타낸

** Example Script - R


* Contingency Table(분할표) - 각 개체를 어떤 특성(예를 들면, 성별, 나이)에 따라 분류할 때에 얻어지는 자료 정리표이다. 두 가지 변수만으로 구성될 경우 이차원 분할표 혹은 이원분할표가 만들어지고, 여러 가지 변수로 구성될 경우 다차원 분할표가 만들어진다. 두 특성을 분류기준으로 이용할 때 어느 것을 행(row)으로, 어느 것을 열(column)로 정하느냐 하는 것은 자의적이며, 이원분할표에서 두 변수간의 동질성 가정이나 독립성 여부는 카이자승 검정으로 결정한다.


- Marginal Frequency (주변도수) : 분할표에서 행이나 열의 합 - addmargins(data)
- Joint Frequency(결합도수) :  각 셀의 도수

- Marginal Probability(주변확률) : 결합분포표에서 행이나 열의 합계

- hist(), truehist()
- Pie Chart : pie()
- Bar Chart : barplot()
- Mosaic Plot 


* 비율이라는 수치가 2차원 공간에서 면적으로 시각화되어 이해를 쉽게 도와주는 것이고, 이것이 바로 수치 정보인 분할표를 그래프로 변환하는 배경이기도 하다.



댓글 없음:

댓글 쓰기

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...