2016년 5월 31일 화요일

[Data Analysis] 산포도와 상관계수 - ( degree of scattering & coefficient of correlation )


회사에서 분석을 하게 되면 변수들 간의 어떠한 관계가 있는가에 대한 것으로 시작을 하게 되는 경우가 많다. 우리 매장의 숫자와 매출과의 관계는 어떻되지? 우리 매장의 면적과 매출과의 관계는? 고객수와 매출과의 관계는? 이러한 궁금증 또는 질문들에 대한 답을 들어 보고자 한다면 산포도와 상관계수 값을 확인함으로 해서 그 일을 시작 할 수 있다. 시작할 수 있다고 표현하는 이유는 두 변수의 상관관계는 이것을 포함한 더 추가적인 정보들이 모여서 더 나은 의사결정 또는 다음 작업이 이뤄지는 것을 현업에서 보아 왔기 때문이다.

어찌 되었든 이번에 대한 포스트에선 산포도와 상관계수에 대한 이야기만을 간략하게 해보고자 한다. 산포도는 변수 X와 변수 Y가 만나는 지점을 점으로 표현한 그래프이다.

예제 1(학생정보)
> head(DF, 10)
     name  sex age grade absence bloodtype height weight
1  김길동 남자  23     3      유         O  165.3   68.2
2  이미린 여자  22     2      무        AB  170.1   53.0
3  홍길동 남자  24     4      무         B  175.0   80.1
4  김철수 남자  23     3      무        AB  182.1   85.7
5  손세수 여자  20     1      유         A  168.0   49.5
6  박미희 여자  21     2      무         O  162.0   52.0
7  강수친 여자  22     1      무         O  155.2   45.3
8  이희수 여자  23     1      무         A  176.9   55.0
9  이철린 남자  23     3      무         B  178.5   64.2
10 방희철 남자  22     2      무         B  176.1   61.3

plot(DF)

데이터의 상관관계를 가져보이는 변수들로만 좀더 찾아 보게 되면
> DF2 <- data.frame(DF$height, DF$weight)
> DF3 <- cbind(DF2, DF$age)
> plot(DF3)


상관계수값을 확인 해보자
> cor(weight, height)
[1] 0.6641816


두 변수간의 상관계수를 확인하여 보면 다음과 같다. 우리는 이러한 결과 숫자를 확인하여 보고 어떠한 관계인지 해석 할 수 잇다. 상관계수 값은 -1 < 0 < 1 사이의 값을 표현 한다.


-1의 숫자에 가까울 수록 음의 상관관계를 갔고 있고 1의 숫자에 가까울수록 양의 상관관계를 가지고 있다고 해석할 수 있다. 당연히 0이거나 0에 가까울 수록 두 변수는 아무 상관관계를 가지고 있지 않다고 할 수 있다.


* 산포도 - 통계청-통계용어 지표이해
* 상관계수 - 상관계수란 - 나부랭의의 수학블러그

* 작성자의 공통적인 변
데이터 분석의 전문가는 아니지만 현업에서 기업의 데이터를 활용하여 분석 또는 분석의 전단계 까지의 데이터 정제(클린징)과 데이터의 분석을 위한 탬플릿 또는 모델링을 하게 되는 경우가 많다. 규모가 좀더 크고 인원이 지원되는 회사라면 각 파트별 각 업무별 로직과 조직(인원)이 있을 것이나 그러하지 못한것이 장점이되기도 한다. 회사의 자료를 외부에 오픈 하기 위한 용도나 목적은 아니며 개인적인 업무(지식)에 대한 정리 차원이라고 생각해 주었으면 한다. 어떤 경우 외부에서 검색을 통해 들어와 확인하게 되었다면 나와 같은 일을 하는 또는 하고자 하는 학생들에게 맞보기가 되어 보길 바란다.

[Book #32] 채식주의자 - 한강 지음


<<채식주의자>> 지은이 한강 

불현듯(?) 급작스레 읽고자 했던 목록에 쓱 하고 들어온 "채식주의자" 사실 뉴스나 일반 매체에 언급이 없었다면 또 주변에서 지인의 언급이 없었다면 찾아서 읽지 못했을 책이다. 개인적인 취향(?)인 경우도 있지만 소설 종류의 책은 친구가 저자라서 읽은 책 이외에는 손에 꼽히기도 하다. 일단 기대감과 거부감을 함께 가지고 읽어 보자 책을 폈다.

구입은 가금 직접 책을 사고 싶다는 느낌을 받을 때가 있다. 오프라인 매장에서의 책 구입은 왠지 모르게 아날로그적 감성을 자극하는 아주 좋은 자극제 이기도 하고 책을 좋아 하는 한 사람으로서 꿋꿋히 약수역 사거리의 노다지 임대료 땅에서 서점을 하는 "약수서점"의 대단한 모습에 응원을 보내고 싶은 마음을 담아 간혹 오프라인에서 책을 구입하곤 한다. 금요일에 구입한 책을 주말 하루만에 읽어 볼 수 있었던것은 아마도 내용에서나 그리고 읽는 동안의 다음장의 궁금증 그리고 뭔가 모를 불편함이 함께 해서 였지 않을까 싶다. 그 불편함이라 느낀것은 저자가 표현한 문장과 감성이라기 보다는 주인공 영혜에 대한 관점의 서술이 존재하지 않아 그 궁금증과 함께 무엇이었을까? 라고 생각하며 나라면 어떤생각일까? 하는 물음과 고민을 책이 끝나는 순간 까지도 놓을 수 없었기 때문으로 느껴진다.

주된 내용은 이것이 다이다. 주인공 영혜는 어느날 악몽을 꾼 뒤 극단적인 방식으로 채식을 시작하는 인물이다. 그러나 소설안에서 영혜의 입장은 서술되어 있지 않는것 같다. 중간 중간 몇단락에서 영혜의 생각인가? 라고 느껴지는 부분이 있긴 했지만 명확한 입장의 생각과 전달은 없었던것 같다.

<채식주의자>에서는 영혜의 남편에 관점에서의 생각/감정,
<몽고반점>에서는 영혜의 형부에 대한 생각
<나무 불꽃>에서는 영혜의 언니 시선으로 영혜를 바라보게 되는

그리고 끝나 버린다.

대단하다 좋다 라고 말하는것에 대한 위치도 그럴 생각도 없지만 문득 소설이라는 것을 편애(?) 하던 개인의 나에게 조금은 다른 시각을 주게 되는 책 이었던 것은 분명한것 같다. 불편함을 또 갖게 되면서 뭐지? 다음 주말에 다시 한번 읽어 봐야 하나? 하는 생각도 하게 된다. 문득 서술되어 있진 않지만 내가 이입된던 영혜의 생각은 그러하지 않았을까 생각을 해보게 된다. 어느날 문득 악몽으로 인한 힘겨움 어려움 이러한 것들을 생각하고 함께 살고 있는 남편으로 또는 가족으로 부터의 관심과 사랑이 필요 했던 때 그냥 지나침으로 인한 극단적인 채식을 선택하게 한것은 나에 대한 관심과 사랑을 가져달란 뜻은 아니었을까? 그러한 상처에 대한 치유는 과거 가지고 있던 개의 죽음으로 인하였던 트라우마와 같은 상처에 대해서 각자의 시선과 욕망의 세상에서 자연스러움으로 돌아 가는것은 극단적인 방식으로의 채식선택이었지 않았을까 생각이 든다. 몽고반점의 예술과 욕망사이에서의 꽃을 통한 표현이나 나무불꽃의 언니의 시선의 가족과 부정한 현실의 사이에서의 고민과 생각들은 아직까지고 어려운 해석이다. 어려운 질문이다. 그래서 개인적으로 나에겐 불편하다. 나에겐 어떤 선택이 있고 나는 어떤 목표를 가지고 행동을 하게 될까? 라는 불안한 자문을 하게 된다.


2016년 5월 26일 목요일

[Using R] Mac RStudio Plot 출력에 한글이 깨지는 경우

주로 윈도우에서 RStudio를 사용할 때는 잘 몰랐는데 이동성 때문에 Mac Ari/Book에서  사용하는 경우 한글 깨짐현상이 발생 하기도 한다. 이럴때 해야 하는 여러가지 방법이 있는데 그중에 내가 사용한 내용을 공유하고자 한다.

우선은 RStudio에 있는 기본 설정 정보를 UTF-8로 선택하여 기본 인코딩 정보를 수정 한다.


그런다고 plot창에 출력하는 한글은 여전히 깨짐 현상이 발생한다. 위에 설정은 R Console에서의 한글 깨짐현상을 유니코드로 변경하여 해결한 내용이다.

몇몇가지 방법이 있었으나 아래의 방법이 가장 잘 맞았던것 같아 공유한다. 단 마지막 단의 시스템 폰트를 Import 하는 과정에서는 상황에 따라 많은 시간이 소요될 수 있으니 적용하기전 다른 방법들도 점검해 본 후 적절한 방법을 선택하길 바란다.

install.packages("extrafont")
library(extrafont)
font_import()


이미지에서도 확인 할 수 있긴 하지만 시스템에 사용되는 폰트를 R에서도 사용할 수 있도록 Import해주는 작업이다.

간혹 하다 보니 import 과정에서의 에러로 인하여 이 또한 되지 않는 경우가 있을때 뭐 잘 모르겠다. 그냥 고정으로 맞춰 보자

par(family="NanumGothic")

ggplot2 의 테마를 사용하는 경우
theme_set(theme_gray(base_family='NanumGothic'))
구글에서 더 검색을 하시면 개인 테마를 .Rprofile 형태로 생성하여 하는 방법도 있으니 실행할때 자동으로 적용 하길 바란다면 그것을 사용하는 것도 추천을 한다. 사실 나머지 여러가지 폰트에 대한 한글 이름을 영문으로 적용하여 해야 하는데 어떻게 써야 하는지 좀 알아 봐야 할것 같다.


#가져오고자 하는 CSV나 엑셀파일 또는 텍스트에 한글이 포함된 경우  깨질 때

간혹 가져오고자 하는 파일 안에 한글이 있는데 일반적으로 단순하게 불러올 경우 한글 깨짐현상이 있는 경우로 많은 짜증과 에너지를 소비한 경우가 있다.
개인적으로 다음과 같은 내용으로 파일을 가져오면 해결 가능하리라 본다.

DF <- read.csv("~/example.csv"stringsAsFactors = T, na = "-", fileEncoding = "CP949", encoding = "UTF-8")

2016년 5월 19일 목요일

[Book #31] 말이 통해야 일이 통한다 - 박재연





대화라는 것에 대한 관점이 시간이 지나면서 계속 변하기도 하고 또 상대방에 대한 공감의 능력이 조금씩 진화( ? - 조금씩 변하면서 발전한다는 관점에선)되어 가고 있다고 생각을 하지만 조직생활을 하면서 또 가정에서 남편으로서 아버지로써 그리고 아들로서의 부족함을 항상 느끼게 된다. 그 부족함이란 어찌 보면 대화를 시작으로 또는 대화를 끝으로 상대방과의 갈등관계가 지속되거나 갈등으로 인한 불편함 오해가 시작되어서 그런것 같다란 생각이 든다.

어찌 되었든 그 순간을 그 갈등의 고리를 끊어 버리고자 하는 노력들이 나 스스로 나름의 방법을 찾아 가고는 있지만 그리 쉬운일만은 아닌것 같다. 또한 책에 쓰여 있는 내용을 또는 교육을 통하여 오프라인에서 가이드를 받는다고 하더라도 시기와 주변의 상황 개인의 마음속 상황은 언제나 기대했던것과는 항상 다른 위치에 놓여져 있었기 때문으로 생각됩니다.

아는 것보다 더 중요한것은 행동하는 것이며 행동 하려면 우리는 몸에 익숙해져야 하고 그 익숙함을 위해서는 자주 생각하고 고민하며 반복적으로 해야 한다는 것을 안다.  나는 대화법에 대해서 누군가를 교육하고 알려주는 위치이거나 그런 자리에 있지는 않으나 지나온 나의 학창시절이나 조직생활 내에서 그러한 대화에 대한 많은 부분이 때론 갈등으로 때론 상처로 남아 있던것을 회상하게 되면 우리 아이들에게도 또 필요 하겠구나 생각이 들면서 저자께서 정리 해놓은 핵심욕구를 찾아가는 방법이나 상대방의 대화의도를 이해하고 반응하는 법에 대한 내용은 앞으로 큰 도움이 되리라 생각이 든다.

어제도 퇴근하기 전 문득 짧은 대화의 시간에 타 부서 직원들에게 우리는 "왜 일하는 걸까" 라는 작은 물음을 던지고 대화를 이어갔다. 또한 집에 살고 있는 가족 아내를 포함하여 그 사람들보다 우리가 더 많은 시간을 함께 보내고 있는데 우리는 업무적이고 기계적이인 이야기 말고 정말 사람과 사람이 하는 대화를 해봤는가? 안했다면 우리 다음부턴 그런 이야기 들도 좀 하면서 살아 볼까? 라고 말했다. 하루아침에 그렇게 쉽게 바뀌지는 않겠지만 내가 일하는 곳 내가 함께 하는 어느 공간에서 나는 사람과 함께 이고 싶다는 생각이 든다. 그것에 첫 시작은 바로 대화의 시작이고 그 대화의 시작은 조직을 떠나 나의 삶 그리고 우리의 삶을 크게 바꿔 놓을 것으로 생각이 든다.

또한 이 책의 수익금은 첫번째 책에 이어서 100% 전액 아동학대 피해아동에게 전달한다고 하네요

<목차>
Chapter 1. 말이 통하지 않는 이유는 무엇일까?
Reason 1 우리가 나빠서가 아니라 잘못 배워 왔기 때문입니다
Reason 2 내가 옳다고 믿는 것이 정답이라고 생각하기 때문입니다
Reason 3 상사니까 당연히, 부하 직원이니까 마땅히 그래야 한다고 믿기 때문입니다
Reason 4 우리의 경험과 평가를 ‘사실’이라고 믿기 때문입니다

Chapter 2. 말이 통하는 사람은 감정을 다루는 방법이 다르다
Emotion 1 분노와 화는 잘 보살필 수 있는 감정입니다
Emotion 2 불안과 두려움도 관계를 돈독하게 해 줄 수 있습니다
Emotion 3 죄책감과 희생은 관계의 중요성을 인식하게 하는 힘이 될 수 있습니다
Emotion 4 우울(열등감과 우월감)을 통해 진정한 가치를 발견합니다

Chapter 3. 진정한 소통을 가능하게 해 주는 내 안의 힘
Power 1 동료를 아끼는 힘-사랑
Power 2 무언가 주려는 힘-기여
Power 3 함께 성장하려는 힘-협력

Chapter 4. 대화의 두 가지 패턴
Pattern 1 단절이 되는 대화의 패턴
Pattern 2 연결이 되는 대화의 패턴

Chapter 5. 정직하고 명료하게 말하기
Expression 1 내가 원하는 것을 요청하는 방법
Expression 2 의사결정권자로서 명료하고 부드럽게 지시하는 방법
Expression 3 사과하고 싶은 마음이 들 때 말하는 방법
Expression 4 상대에게 고마운 마음을 잘 전하는 방법
Expression 5 자기 자신의 자랑스러운 모습을 잘 표현하는 방법

Chapter 6. 말하는 사람의 의도를 정확하게 확인하며 듣기
Listening 1 상대의 말을 정확하게 확인하며 듣는 방법
Listening 2 제3자의 입장에서 상대의 심정을 공감하며 듣는 방법
Listening 3 갈등을 경험하는 사람들 사이에서 중재자로 듣는 방법
Listening 4 상대가 고마움을 표현할 때 현명하게 듣는 방법

Chapter 7. 갈등을 예방하고 해결할 수 있게 말하기
Expression 6 대화 도중 대화를 끝낼 필요가 있을 때 말하는 방법
Expression 7 거절하고 싶을 때 서로를 보호하며 말하는 방법
Expression 8 화가 났을 때 자기감정에 책임지고 명료하게 말하는 방법
Expression 9 두려운 마음이 들 때 의견을 말하는 방법

Chapter 8. 마음의 준비가 필요한 말에 잘 대처하여 듣기
Listening 5 인정하고 동의하지만 원치 않는 피드백을 듣는 방법
Listening 6 비난의 말을 들을 때 나의 자존감을 유지하며 듣는 방법
Listening 7 싫어하는 사람의 말을 듣는 방법
Listening 8 내 요청을 거절하는 사람의 말을 제대로 이해하며 듣는 방법

언제 부터 였던가 생각해보니 아르바이트 겸 외부 컨설팅을 의뢰 받고 맥북 프로를 처음 써봤을 때 부터 였던 것 같다. 지금은 거의 대부분의 작업을 맥으로 작업을 하다 보니 윈도우에서만 실행되는 일부 프로그램들 때문과 회사 내부 ERP프로그램이 윈도우 ...