정보공간_1

[6기 신촌 김윤상] R 언어 #3 - 간단한 예제를 통한 단순회귀분석 본문

IT 놀이터/Elite Member Tech & Talk

[6기 신촌 김윤상] R 언어 #3 - 간단한 예제를 통한 단순회귀분석

알 수 없는 사용자 2014. 12. 10. 22:20

안녕하세요 신촌멤버십 23-1 김윤상입니다.

이번 시간엔 간단한 Data와 예제를 통하여

기본적인 선형 분석을 하는 방법과 예측을 하는 방법을 알아보겠습니다.



다음 데이터는 남자의 키와 여자의 키에 대한 데이터 입니다. 

이 데이터를 이용하여 무슨 분석을 할 수 있나 알아보겠습니다.


- 단순 회귀 분석

y = ax+b 와 같이 종속변수(y)가 독립변수(x)에 의해 변화되며, 그 변화의 기울기(a)와 절편(b) 등으로 데이터를 분석할 때 쓰는 분석입니다. 통계학적으로 자세한 내용을 쓰기 보다는, 예제로 보며 이해하시면 됩니다.


ki라는 변수에 read.table을 이용하여 clipboard의 내용을 넣고, summary로 확인을 해 봅니다.

이 데이터의 H와 W를 바로 쓸 수 있게 attach하고, 남자와 여자로 그래프를 그려 보았습니다.

이제 회귀분석을 진행해 보면


다음과 같이 분석이 됩니다.

abline(reg)로 선을 그은 것이 다음의 직선이며, 이 직선은 reg 결과로 보았을 때

W = 0.6997 * H + 41.9302

의 식으로 볼 수 있습니다.


H 변수에서 *** << 이 기호의 뜻은 유의수준을 이야기합니다. 0.001에서 유의하다는 것을 나타내며 보통 0.05 안의 유의수준을 적합한 변수라고 봅니다.

통계학을 배우시게 되면 여러가지 계수에 대한 의미를 배우실 텐데, 이 중 가장 중요한 계수가

R 상관계수(R-squared)입니다. 이 R 상관계수는 얼마나 많은 데이터가 회귀식 위에 있는지를 나타내며 0~1 사이의 값을 가집니다.

1일 경우 완벽히 회귀식 위에 존재하는 데이터라고 보시면 됩니다.

p 값은 0.05 이하면 유의하다고 볼 수 있습니다.

본 데이터의 R 상관계수는 0.57,  유의확률은 매우 작으므로 W에 대한 H 변수가 유의하단 것을 알 수 있습니다.




다음 Predict라는 함수를 통하여 예측을 할 수 있습니다. 이와 같이, 회귀분석 데이터 안에서 170~175의 키일때 여자의 키를 유추 가능합니다.

이는 W~H 의 의미를 알면 알 수 있는데요. W는 여자의 키(종속변수)고 독립변수가 H라는 것을 의미하기에 독립변수의 데이터에 따라 예측을 가능케 하는 것입니다.


독립변수는 W~H와 같이 1개가 될 수 있고, W~H+J+K와 같이 여러개를 넣을 수도 있습니다.

이런 회귀 분석을 '다중 회귀 분석' 이라 부릅니다.


이번 시간엔 R로 간단한 회귀분석을 진행해 보았습니다.

사용한 데이터는 첨부 파일로 올려 놓겠으니, 연습을 해 보셔도 됩니다.

예제_부부간키.csv


다음 포스팅은 SAS E-Miner를 통한 Decision Tree에 대하여 포스팅하겠습니다.

이상 삼성소프트웨어멤버십 23-1기 엘리트회원 김윤상이었습니다.