2014년 2월 25일 화요일

[Statistics with R] Descriptive Statistics #1


Descriptive Statistics (기술통계) - 주어진 데이터를 가지고 도표나 그래프를 그려보거나, 데이터의 중심 경향도나 퍼짐의 정도 등을 이용하여 데이터의 특성을 설명하는 통계 방법

* Inferential Statistics(추측통계) - 모집단에서 추출된 표본에서 나온 통계치로부터 모수를 추정하거나 가설을 검정함


1. 집계표와 집계 그래프

* Frequency Table (도수분포표) - 자료를 일정한 수의 범위로 나누어 분류하고, 각 범위별로 수량을 정리한 표.


(1) 변량 : 자료를 수량으로 나타낸 것

(2) Class(계급) : 변량을 일정한 간격으로 나눈 구간

(3) 계급의 크기 : 변량을 나눈 구간의 너비

(4) 계급값 : 계급의 중앙의 값.

(5) Frequency(도수) : 각 계급에 속하는 자료의 수

(6) Frequency Table(도수분포표) : 주어진 자료를 몇 개의 구간으로 나누고 각 계급에 속하는 도수를 조사하여 나타낸

** Example Script - R


* Contingency Table(분할표) - 각 개체를 어떤 특성(예를 들면, 성별, 나이)에 따라 분류할 때에 얻어지는 자료 정리표이다. 두 가지 변수만으로 구성될 경우 이차원 분할표 혹은 이원분할표가 만들어지고, 여러 가지 변수로 구성될 경우 다차원 분할표가 만들어진다. 두 특성을 분류기준으로 이용할 때 어느 것을 행(row)으로, 어느 것을 열(column)로 정하느냐 하는 것은 자의적이며, 이원분할표에서 두 변수간의 동질성 가정이나 독립성 여부는 카이자승 검정으로 결정한다.


- Marginal Frequency (주변도수) : 분할표에서 행이나 열의 합 - addmargins(data)
- Joint Frequency(결합도수) :  각 셀의 도수

- Marginal Probability(주변확률) : 결합분포표에서 행이나 열의 합계

- hist(), truehist()
- Pie Chart : pie()
- Bar Chart : barplot()
- Mosaic Plot 


* 비율이라는 수치가 2차원 공간에서 면적으로 시각화되어 이해를 쉽게 도와주는 것이고, 이것이 바로 수치 정보인 분할표를 그래프로 변환하는 배경이기도 하다.



댓글 없음:

댓글 쓰기

 다양한 채널의  블로그 작성으로  집중이 좀 안되기도 하고  나의 회사를 운영하고 관리 하다 보니  회사의 블로그로 작성 해보는 것은 어떤가 하고  하나로 옮겨 봅니다.  (주)다이닝웨이브 - 블로그 바로가기