TODAY TOTAL


회귀모델에서 '회귀'란 무엇인가?

브런치에서 gimmesilver님이 올린 글을 요약한 내용입니다.

원문은 아래 링크를 통해 보실 수 있습니다.

 

회귀 모델에서 '회귀'란 무엇인가?

Tribute to error | 페이스북에서 'regression model에서 regression 이라는 용어는 잘못되었다' 는 글(https://www.facebook.com/dgtgrade/posts/1153483458043852) 를 봤습니다. 우선 '회귀(regression)' 라는 단어가 일상에서 잘

brunch.co.kr

 

0. 회귀(Regression) 모델이란 무엇인가?

회귀 모델은 어떤 연속형 데이터 Y와 이 Y의 원인이 되는 (엄밀히 말해 원인이라고 추정되는) X와의 관계를 추정하기 위해 아래와 같이 만든 관계식을 말함.

 

Y = f(X)

 

실제 데이터에는 측정상 한계나 여러가지 원인으로 데이터에 잡음(Noise)이나 유실 발생하며 이를 반영하기 위해 확률 변수인 오차항을 둠.

 

Y = f(X) + e

 

 

1. 무엇이 어디로부터 '회귀'하는가?

'회귀'의 사전적 정의는 '한바퀴 돌아 제자리로 돌아간다'

회귀는 '잔차(Residual: 데이터의 실측치와 모델의 예측치의 차이)가 평균으로 회귀하는 것'을 의미 하며 이런 맥락에서 회귀 모델은 '잔차가 평균으로 회귀하도록 만든 모델'이라고 정의할 수 있음. 이런 관점에서 아래 문장은 부정확하다고 할 수 있음

 

'회귀 모델링은 오차의 합이 최소가 되도록 만드는 작업이다'

 

회귀 모델링을 '데이터와 오차합이 가장 작은 선'을 찾는 작업이라고 얘기한다면 엄밀히 말해 절반은 맞음. 실제 회귀 모델링을 할 때 잔차가 최소의 선을 찾기에 앞서 다음과 같은 전제 조건이 선행되어야 함.

 

"데이터의 실측치와 데이터의 추정치 사이의 잔차가 i.i.d.(Independent and Identically Distriubuted random)성질을 만족해야한다."

 

위 전제조건을 만족하지 않으면 제대로 된 회귀 모델이 아님.

 

 

2. 모델링 = 모델의 관계식 추정 + 파라미터 추정

회귀식을 모델링 할 때는 X와 Y의 관계에 대해 먼저 추정을 한 후 구체적인 파라미터를 추정하게 됨. "부피=w*온도" 식을 추정한다면 X(온도)와 Y(부피) 사이에는 선형 관계가 있고 그 가중치가 w일 것이라고 추정을 먼저 하고 관계식 안의 w가 무엇인지 파라미터에 대한 추정을 함.

 

만약 부피와 온도사이에 아무런 관계가 없거나 온도의 제곱과 선형관계가 있거나 온도 뿐만 아니라 습도와도 밀접한 관련이 있다면 비록 오차의 합이 최소가 되도록 w를 추정하더라도 회귀식은 정확한 회귀 모델이 되지 못하며 이 회귀식을 이용하여 부피를 예측하면 실제 부피와 차이가 있을 수 밖에 없음.

 

한편, 실제의 부피는 온도와 선형 관계에 있는 것이 맞다면 이 회귀모델은 w를 잘 추정하면 정확함. 하지만 현실 세계에서는 여러 가지 오차 혹은 잡음(Noise)으로 인해 모델에서 예측한 부피와 실제 부피 사이에 여전히 약간의 차이가 발생함.

 

결국 정확한 회귀 모델을 만들든 그렇지 못하든 항상 모델의 예측치와 실측치 사이에 차이가 존재함. 다만 부정확한 회귀 모델로 인한 차이와 정확한 회귀 모델에서 발생하는 차이 사이에는 근본적으로 다른 성질이 있음. 정확한 모델을 만들었다면 잔차(Residual)는 평균이 0으로 회귀하지만 부정확한 모델에서는 그렇지 못함. 이것이 위에서 말한 잔차의 성질(i.i.d.).

 

내가 추정한 모델과 실제 데이터 사이의 오차가 단순히 현실 세계에 존재하는 잡음인지 아니면 내가 고려하지 못한 속성 때문인지를 알려면 잔차가 i.i.d.한 속성을 가지고 있는지 확인해야함. 이를 위해 다음과 같은 조건을 모두 만족하는지 살펴봐야 함.

 

 - 잔차의 분포는 정규분포여야 한다.

 - 잔차와 독립변수 X사이에 상관 관계가 없고 자기 자신과도 상관이 없어야 한다(잔차는 독립이어야 한다)

 - 잔차의 분포가 일정해야 한다(잔차는 등분산성을 만족해야 한다)

 

 

3. 잔차의 정규성

어떤 데이터에 대해 정확한 모델을 만들었다면 그 모델과 실제 데이터 사이의 오차의 확률분포는 정규분포를 따름. 그 이유는 정규 분포 자체가 원래 오차에 대한 확률 분포이기 때문. 정규분포에 가장 큰 기여를 한 가우스의 경우 천체 관측시 발생하는 오차의 성질을 연구하던 중 정규분포를 발견했음. 당시 천체를 눈으로 관측하다 보니 매번 오차가 조금씩 발생했고 이 오차의 관계를 분석해보니 이 값들이 평균에 근접할수록 발생확률이 높고 평균에서 멀어질수록 확률이 떨어지는 것을 발견함.

 

따라서 어떤 모델이 데이터 성질을 완벽히 설명한다면 이 둘 사이의 차이는 잡음(Noise)만 남게 되며 이런 잡음의 분포는 정규분포. 반대로 모델과 데이터 사이의 차이가 정규분포를 따르지 않는다면 둘 사이는 단순한 잡음 외에 반영하지 못한 어떤 특징이 있음을 의미.

 

 

4. 잔차의 독립성

잔차가 독립이 아니라는 말은 잔차가 어떤 패턴을 가지고 있다는 것을 의미함.

잔차의 독립성은 아래 두가지 관계를 확인해야함.

 - X와의 상관성

 - 자기 자신과의 상관성

 

상관성을 확인하는 가장 쉬운 방법은 피어슨 상관 계수를 구하는 것. 다만 피어슨 상관 계수가 낮더라도 일정한 패턴을 가지는 경우가 있음. 이럴땐 scatter plot을 찍어보면 확인 가능.

 

잔차의 독립성을 검정할 땐 독립변수인 X와의 상관성 뿐만 아니라 자기 자신과의 상관성도 확인해야함. 만약 자기 상관성을 가진다면 잔차에 대한 자기 상관 관계를 모델에 반영해야함. ex) 시계열 데이터의 auto regression모델

 

 

5. 잔차의 등분산성

마지막으로 잔차의 분산이 항상 일정한지 확인해야함.

 

 

6. 결론

잔차가 1) 정규 분포를 띄고 2) 데이터와 상관이 없으며 3) 분산이 항상 일정하다면 평균으로 회귀하는 속성을 갖으며 이렇게 잔차가 평균으로 회귀하도록 만든 모델을 '회귀 모델'이라고 함.

  Comments,     Trackbacks
통계학이란 무엇인가?

브런치의 gimmsilver글을 요약 정리하였습니다.

 

통계학이란 무엇인가

0. 통계학을 한마디로 정의하면 무엇인가 제가 면접에서 종종 물어보는 질문이 하나 있습니다. 바로 '통계학을 한마디로 말하면 무엇이라고 생각하느냐?' 입니다. 그러면 다양한 대답이 돌아옵니다. '예측을 하는 학문이다', '자료에서 정보를 얻는 학문이다', '확률을 실생활에 적용할 수 있게 해주는 응용 학문이다' 등등... 아 얼마 전에는 '숫자 놀음'이라는

brunch.co.kr

통계학을 한마디로 표현해달란 질문에 대한 다양한 대답...'예측을 하는 학문', '자료에서 정보를 얻는 학문', '확률을 실생활에서 적용할 수 있게 해주는 응용 학문', '숫자 놀음' 등등

 

어떤 대상을 잘 정리했는지를 판단할 때의 두가지 기준

1) 대상이 담고 있는 특징을 충분히 담고 있는가?

2) 그 정의가 충분히 다른 대상과 차별성이 있는가?

 

'예측을 하는 학문'이라는 정의는 1)번 기준에서 생각해볼 때 좋지 못함. 통계학은 '예측'만 하는 학문이 아니기 때문. 회귀 분석만 하더라도 예측을 할때 뿐만 아니라 어떤 결과에 대한 요인과 그 영향력을 분석할 때도 사용함.

'확률의 실생활 적용' 이나 '숫자 놀음'이라는 정의 역시 2)기준에 좋지 못함. 광범위한 정의임.

 

통계는 '오차의 과학'이다라는 정의는 1)번, 2)번을 모두 만족함.

 

1. 통계는 오차를 연구하는 학문이다.

통계에서 오차를 다루지 않는 부분은 없음. 선형회귀분석은 만든 모델과 실제 데이터 사이의 오차가 정규분포가 되도록 하는 데이터 분석 기법이고 분산 분석은 표본 집단 사이의 차이가 우연한 오차인지 아니면 어떤 요인에 의한 차이인지를 검정하는 분석 기법임. 통계학의 근간이 되는 원리인 '중심 극한 정리'는 모집단 평균과 표본 집단 평균 사이의 오차에 대한 원리임.

반대로 생각해보면 오차가 없는 상황에서는 통계학은 아무런 힘을 발휘하지 못함. 뭔가 미지의 영역이 있고 그래서 오차가 존재할 가능성이 있는 자료를 다룰 때 통계학이 가치를 발휘함.

'빅데이터' 세상에서는 모집단을 직접 다루기 때문에 표본 데이터를 이용하는 것을 가정하는 통계학이 필요없다는 건 모집단을 잘 못 이해한 것. 하둡 시스템에 저장된 고객정보는 '현재 시점'의 모든 고객의 정보일 뿐. 또한 모든 정보가 아닌 일부만 담고 있음.

더 나아가 대부분의 자료에는 측정이나 표현 과정에서 생기는 오차가 있음. 

세상에는 수많은 오차가 이런 오차를 다루는 학문이 통계학임.

 

2. 통계학 이전에 사람들은 오차를 어떻게 다루었나?

통계학은 역사가 매우 짧은 학문. 현대 통계학은 고작 100년 정도 밖에 되지 않음.

통계학 이전에 사람들은 오차를 수정해야할 실수 내지 무시해야할 예외 정도로 취급했음.

통계학을 통해 오차를 처리해야할 대상으로 바뀜. 정확히는 오차를 학문적으로 다루게 되면서 통계학이 생겨나게 됨.

 

3. 오차의 중요성

'통계학은 오차의 과학이다'라는 정의는 직관적으로 와닿지 않는 정의이지만 데이터를 다룰 때 오차를 중요하게 다뤄야 함을 강조함.

많은 사람들이 예측모델링을 할 때 모델의 통계량이나 RMSE같은 오차합만 살펴보지 모델과 데이터 사이의 오차(잔차, Residual)가 어떤 특징을 가지고 있는지에 대해선 생각하지 않음. 오차(잔차, Residual)의 생김새나 특징을 살펴보는 것은 매우 중요함.

 

  Comments,     Trackbacks
이산확률분포 - 이항분포(Binomial Distribution), 베르누이 분포(Bernoulli Distribution)

이항분포

 

"이항분포(binomial distribution)은 연속된 n번의 독립시행에서 각 시행이 확률 p를 가질 떄의 이산확률분포이다."

이항분포를 설명하기 위해 주사위를 다섯번 던져 1이 나온 횟수를 구하고자 하는 예를 들어보겠습니다. 주사위를 다섯번 던지므로 n=5 입니다. 또한 주사위이기 때문에 1이나올 확률 p=1/6에 해당합니다. 그리고 확률변수는 1이 나온 횟수입니다.

이항분포의 정의를 살펴보면 독립시행이라는 말이 나옵니다. 독립시행이란 이전 시행이 다음 시행의 확률에 영향을 주지 않는다는 뜻입니다. 예를 들어, 주사위를 던졌을 때 1이 나올 확률이 1/6이라고하면 첫번째 던졌을때 1이 나왔다고 해도, 두번째 던졌을 때 1이 나올 확률에 영향을 주지 않는다는 것이죠. 즉, 첫번째 던졌을때나…백번째 던졌을때나 주사위 1이 나올 확률은 동일하게 1/6이라는 뜻입니다.

 

n은 시도한 횟수, x는 성공한 횟수입니다.

 

이항분포식에 대한 보다 자세한 설명은 아래 글을 참조하시면 됩니다.

 

롯데 '가을야구' 진출 확률, 이항분포로 알아보자!

일단 2018년 5월 7일 현재 정답은 14.4%입니다. 한 고등학생이 kini's Sportugese 페이스북에 다음 같은 메시지를 보냈습니다. 안녕하세요? 블로그 보고 메시지를 보내봅니다. 학교에서 하는 수학 과제연구로 피..

kuduz.tistory.com

 

 

베르누이분포

 

"이항분포에서 n=1일 때, 베르누이분포라고 한다."

 

베르누이분포는 이항분포의 특수한 경우 입니다. 이항분포에서 n이 1인 경우, 즉, 주사위를 한번만 던졌을때라고 생각하시면 됩니다.
베르누이분포는 주사위를 한 번만 던지므로 베르누이시행이라고도 합니다. 따라서 베르누이시행을 여러번 한 것이 이항분포라고 할 수 있는 것이죠.

 

  Comments,     Trackbacks
최근 작성 글
최근 작성 댓글
최근 작성 트랙백
공지사항
링크
글 보관함
캘린더
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
검색