브런치에서 gimmesilver님이 올린 글을 요약한 내용입니다.
원문은 아래 링크를 통해 보실 수 있습니다.
회귀 모델에서 '회귀'란 무엇인가?
Tribute to error | 페이스북에서 'regression model에서 regression 이라는 용어는 잘못되었다' 는 글(https://www.facebook.com/dgtgrade/posts/1153483458043852) 를 봤습니다. 우선 '회귀(regression)' 라는 단어가 일상에서 잘
brunch.co.kr
0. 회귀(Regression) 모델이란 무엇인가?
회귀 모델은 어떤 연속형 데이터 Y와 이 Y의 원인이 되는 (엄밀히 말해 원인이라고 추정되는) X와의 관계를 추정하기 위해 아래와 같이 만든 관계식을 말함.
Y = f(X)
실제 데이터에는 측정상 한계나 여러가지 원인으로 데이터에 잡음(Noise)이나 유실 발생하며 이를 반영하기 위해 확률 변수인 오차항을 둠.
Y = f(X) + e
1. 무엇이 어디로부터 '회귀'하는가?
'회귀'의 사전적 정의는 '한바퀴 돌아 제자리로 돌아간다'
회귀는 '잔차(Residual: 데이터의 실측치와 모델의 예측치의 차이)가 평균으로 회귀하는 것'을 의미 하며 이런 맥락에서 회귀 모델은 '잔차가 평균으로 회귀하도록 만든 모델'이라고 정의할 수 있음. 이런 관점에서 아래 문장은 부정확하다고 할 수 있음
'회귀 모델링은 오차의 합이 최소가 되도록 만드는 작업이다'
회귀 모델링을 '데이터와 오차합이 가장 작은 선'을 찾는 작업이라고 얘기한다면 엄밀히 말해 절반은 맞음. 실제 회귀 모델링을 할 때 잔차가 최소의 선을 찾기에 앞서 다음과 같은 전제 조건이 선행되어야 함.
"데이터의 실측치와 데이터의 추정치 사이의 잔차가 i.i.d.(Independent and Identically Distriubuted random)성질을 만족해야한다."
위 전제조건을 만족하지 않으면 제대로 된 회귀 모델이 아님.
2. 모델링 = 모델의 관계식 추정 + 파라미터 추정
회귀식을 모델링 할 때는 X와 Y의 관계에 대해 먼저 추정을 한 후 구체적인 파라미터를 추정하게 됨. "부피=w*온도" 식을 추정한다면 X(온도)와 Y(부피) 사이에는 선형 관계가 있고 그 가중치가 w일 것이라고 추정을 먼저 하고 관계식 안의 w가 무엇인지 파라미터에 대한 추정을 함.
만약 부피와 온도사이에 아무런 관계가 없거나 온도의 제곱과 선형관계가 있거나 온도 뿐만 아니라 습도와도 밀접한 관련이 있다면 비록 오차의 합이 최소가 되도록 w를 추정하더라도 회귀식은 정확한 회귀 모델이 되지 못하며 이 회귀식을 이용하여 부피를 예측하면 실제 부피와 차이가 있을 수 밖에 없음.
한편, 실제의 부피는 온도와 선형 관계에 있는 것이 맞다면 이 회귀모델은 w를 잘 추정하면 정확함. 하지만 현실 세계에서는 여러 가지 오차 혹은 잡음(Noise)으로 인해 모델에서 예측한 부피와 실제 부피 사이에 여전히 약간의 차이가 발생함.
결국 정확한 회귀 모델을 만들든 그렇지 못하든 항상 모델의 예측치와 실측치 사이에 차이가 존재함. 다만 부정확한 회귀 모델로 인한 차이와 정확한 회귀 모델에서 발생하는 차이 사이에는 근본적으로 다른 성질이 있음. 정확한 모델을 만들었다면 잔차(Residual)는 평균이 0으로 회귀하지만 부정확한 모델에서는 그렇지 못함. 이것이 위에서 말한 잔차의 성질(i.i.d.).
내가 추정한 모델과 실제 데이터 사이의 오차가 단순히 현실 세계에 존재하는 잡음인지 아니면 내가 고려하지 못한 속성 때문인지를 알려면 잔차가 i.i.d.한 속성을 가지고 있는지 확인해야함. 이를 위해 다음과 같은 조건을 모두 만족하는지 살펴봐야 함.
- 잔차의 분포는 정규분포여야 한다.
- 잔차와 독립변수 X사이에 상관 관계가 없고 자기 자신과도 상관이 없어야 한다(잔차는 독립이어야 한다)
- 잔차의 분포가 일정해야 한다(잔차는 등분산성을 만족해야 한다)
3. 잔차의 정규성
어떤 데이터에 대해 정확한 모델을 만들었다면 그 모델과 실제 데이터 사이의 오차의 확률분포는 정규분포를 따름. 그 이유는 정규 분포 자체가 원래 오차에 대한 확률 분포이기 때문. 정규분포에 가장 큰 기여를 한 가우스의 경우 천체 관측시 발생하는 오차의 성질을 연구하던 중 정규분포를 발견했음. 당시 천체를 눈으로 관측하다 보니 매번 오차가 조금씩 발생했고 이 오차의 관계를 분석해보니 이 값들이 평균에 근접할수록 발생확률이 높고 평균에서 멀어질수록 확률이 떨어지는 것을 발견함.
따라서 어떤 모델이 데이터 성질을 완벽히 설명한다면 이 둘 사이의 차이는 잡음(Noise)만 남게 되며 이런 잡음의 분포는 정규분포. 반대로 모델과 데이터 사이의 차이가 정규분포를 따르지 않는다면 둘 사이는 단순한 잡음 외에 반영하지 못한 어떤 특징이 있음을 의미.
4. 잔차의 독립성
잔차가 독립이 아니라는 말은 잔차가 어떤 패턴을 가지고 있다는 것을 의미함.
잔차의 독립성은 아래 두가지 관계를 확인해야함.
- X와의 상관성
- 자기 자신과의 상관성
상관성을 확인하는 가장 쉬운 방법은 피어슨 상관 계수를 구하는 것. 다만 피어슨 상관 계수가 낮더라도 일정한 패턴을 가지는 경우가 있음. 이럴땐 scatter plot을 찍어보면 확인 가능.
잔차의 독립성을 검정할 땐 독립변수인 X와의 상관성 뿐만 아니라 자기 자신과의 상관성도 확인해야함. 만약 자기 상관성을 가진다면 잔차에 대한 자기 상관 관계를 모델에 반영해야함. ex) 시계열 데이터의 auto regression모델
5. 잔차의 등분산성
마지막으로 잔차의 분산이 항상 일정한지 확인해야함.
6. 결론
잔차가 1) 정규 분포를 띄고 2) 데이터와 상관이 없으며 3) 분산이 항상 일정하다면 평균으로 회귀하는 속성을 갖으며 이렇게 잔차가 평균으로 회귀하도록 만든 모델을 '회귀 모델'이라고 함.
'통계학(Statistics) 기초' 카테고리의 다른 글
통계학이란 무엇인가? (0) | 2020.05.01 |
---|---|
이산확률분포 - 이항분포(Binomial Distribution), 베르누이 분포(Bernoulli Distribution) (0) | 2020.03.25 |
확률분포(Probability Distribution) (0) | 2020.03.25 |
확률변수(Random Variable) (0) | 2020.03.25 |
평균(Mean)과 분산(Variance) (0) | 2020.03.25 |