TODAY TOTAL


통계학(Statistics) 기초 (6)
회귀모델에서 '회귀'란 무엇인가?

브런치에서 gimmesilver님이 올린 글을 요약한 내용입니다.

원문은 아래 링크를 통해 보실 수 있습니다.

 

회귀 모델에서 '회귀'란 무엇인가?

Tribute to error | 페이스북에서 'regression model에서 regression 이라는 용어는 잘못되었다' 는 글(https://www.facebook.com/dgtgrade/posts/1153483458043852) 를 봤습니다. 우선 '회귀(regression)' 라는 단어가 일상에서 잘

brunch.co.kr

 

0. 회귀(Regression) 모델이란 무엇인가?

회귀 모델은 어떤 연속형 데이터 Y와 이 Y의 원인이 되는 (엄밀히 말해 원인이라고 추정되는) X와의 관계를 추정하기 위해 아래와 같이 만든 관계식을 말함.

 

Y = f(X)

 

실제 데이터에는 측정상 한계나 여러가지 원인으로 데이터에 잡음(Noise)이나 유실 발생하며 이를 반영하기 위해 확률 변수인 오차항을 둠.

 

Y = f(X) + e

 

 

1. 무엇이 어디로부터 '회귀'하는가?

'회귀'의 사전적 정의는 '한바퀴 돌아 제자리로 돌아간다'

회귀는 '잔차(Residual: 데이터의 실측치와 모델의 예측치의 차이)가 평균으로 회귀하는 것'을 의미 하며 이런 맥락에서 회귀 모델은 '잔차가 평균으로 회귀하도록 만든 모델'이라고 정의할 수 있음. 이런 관점에서 아래 문장은 부정확하다고 할 수 있음

 

'회귀 모델링은 오차의 합이 최소가 되도록 만드는 작업이다'

 

회귀 모델링을 '데이터와 오차합이 가장 작은 선'을 찾는 작업이라고 얘기한다면 엄밀히 말해 절반은 맞음. 실제 회귀 모델링을 할 때 잔차가 최소의 선을 찾기에 앞서 다음과 같은 전제 조건이 선행되어야 함.

 

"데이터의 실측치와 데이터의 추정치 사이의 잔차가 i.i.d.(Independent and Identically Distriubuted random)성질을 만족해야한다."

 

위 전제조건을 만족하지 않으면 제대로 된 회귀 모델이 아님.

 

 

2. 모델링 = 모델의 관계식 추정 + 파라미터 추정

회귀식을 모델링 할 때는 X와 Y의 관계에 대해 먼저 추정을 한 후 구체적인 파라미터를 추정하게 됨. "부피=w*온도" 식을 추정한다면 X(온도)와 Y(부피) 사이에는 선형 관계가 있고 그 가중치가 w일 것이라고 추정을 먼저 하고 관계식 안의 w가 무엇인지 파라미터에 대한 추정을 함.

 

만약 부피와 온도사이에 아무런 관계가 없거나 온도의 제곱과 선형관계가 있거나 온도 뿐만 아니라 습도와도 밀접한 관련이 있다면 비록 오차의 합이 최소가 되도록 w를 추정하더라도 회귀식은 정확한 회귀 모델이 되지 못하며 이 회귀식을 이용하여 부피를 예측하면 실제 부피와 차이가 있을 수 밖에 없음.

 

한편, 실제의 부피는 온도와 선형 관계에 있는 것이 맞다면 이 회귀모델은 w를 잘 추정하면 정확함. 하지만 현실 세계에서는 여러 가지 오차 혹은 잡음(Noise)으로 인해 모델에서 예측한 부피와 실제 부피 사이에 여전히 약간의 차이가 발생함.

 

결국 정확한 회귀 모델을 만들든 그렇지 못하든 항상 모델의 예측치와 실측치 사이에 차이가 존재함. 다만 부정확한 회귀 모델로 인한 차이와 정확한 회귀 모델에서 발생하는 차이 사이에는 근본적으로 다른 성질이 있음. 정확한 모델을 만들었다면 잔차(Residual)는 평균이 0으로 회귀하지만 부정확한 모델에서는 그렇지 못함. 이것이 위에서 말한 잔차의 성질(i.i.d.).

 

내가 추정한 모델과 실제 데이터 사이의 오차가 단순히 현실 세계에 존재하는 잡음인지 아니면 내가 고려하지 못한 속성 때문인지를 알려면 잔차가 i.i.d.한 속성을 가지고 있는지 확인해야함. 이를 위해 다음과 같은 조건을 모두 만족하는지 살펴봐야 함.

 

 - 잔차의 분포는 정규분포여야 한다.

 - 잔차와 독립변수 X사이에 상관 관계가 없고 자기 자신과도 상관이 없어야 한다(잔차는 독립이어야 한다)

 - 잔차의 분포가 일정해야 한다(잔차는 등분산성을 만족해야 한다)

 

 

3. 잔차의 정규성

어떤 데이터에 대해 정확한 모델을 만들었다면 그 모델과 실제 데이터 사이의 오차의 확률분포는 정규분포를 따름. 그 이유는 정규 분포 자체가 원래 오차에 대한 확률 분포이기 때문. 정규분포에 가장 큰 기여를 한 가우스의 경우 천체 관측시 발생하는 오차의 성질을 연구하던 중 정규분포를 발견했음. 당시 천체를 눈으로 관측하다 보니 매번 오차가 조금씩 발생했고 이 오차의 관계를 분석해보니 이 값들이 평균에 근접할수록 발생확률이 높고 평균에서 멀어질수록 확률이 떨어지는 것을 발견함.

 

따라서 어떤 모델이 데이터 성질을 완벽히 설명한다면 이 둘 사이의 차이는 잡음(Noise)만 남게 되며 이런 잡음의 분포는 정규분포. 반대로 모델과 데이터 사이의 차이가 정규분포를 따르지 않는다면 둘 사이는 단순한 잡음 외에 반영하지 못한 어떤 특징이 있음을 의미.

 

 

4. 잔차의 독립성

잔차가 독립이 아니라는 말은 잔차가 어떤 패턴을 가지고 있다는 것을 의미함.

잔차의 독립성은 아래 두가지 관계를 확인해야함.

 - X와의 상관성

 - 자기 자신과의 상관성

 

상관성을 확인하는 가장 쉬운 방법은 피어슨 상관 계수를 구하는 것. 다만 피어슨 상관 계수가 낮더라도 일정한 패턴을 가지는 경우가 있음. 이럴땐 scatter plot을 찍어보면 확인 가능.

 

잔차의 독립성을 검정할 땐 독립변수인 X와의 상관성 뿐만 아니라 자기 자신과의 상관성도 확인해야함. 만약 자기 상관성을 가진다면 잔차에 대한 자기 상관 관계를 모델에 반영해야함. ex) 시계열 데이터의 auto regression모델

 

 

5. 잔차의 등분산성

마지막으로 잔차의 분산이 항상 일정한지 확인해야함.

 

 

6. 결론

잔차가 1) 정규 분포를 띄고 2) 데이터와 상관이 없으며 3) 분산이 항상 일정하다면 평균으로 회귀하는 속성을 갖으며 이렇게 잔차가 평균으로 회귀하도록 만든 모델을 '회귀 모델'이라고 함.

  Comments,     Trackbacks
통계학이란 무엇인가?

브런치의 gimmsilver글을 요약 정리하였습니다.

 

통계학이란 무엇인가

0. 통계학을 한마디로 정의하면 무엇인가 제가 면접에서 종종 물어보는 질문이 하나 있습니다. 바로 '통계학을 한마디로 말하면 무엇이라고 생각하느냐?' 입니다. 그러면 다양한 대답이 돌아옵니다. '예측을 하는 학문이다', '자료에서 정보를 얻는 학문이다', '확률을 실생활에 적용할 수 있게 해주는 응용 학문이다' 등등... 아 얼마 전에는 '숫자 놀음'이라는

brunch.co.kr

통계학을 한마디로 표현해달란 질문에 대한 다양한 대답...'예측을 하는 학문', '자료에서 정보를 얻는 학문', '확률을 실생활에서 적용할 수 있게 해주는 응용 학문', '숫자 놀음' 등등

 

어떤 대상을 잘 정리했는지를 판단할 때의 두가지 기준

1) 대상이 담고 있는 특징을 충분히 담고 있는가?

2) 그 정의가 충분히 다른 대상과 차별성이 있는가?

 

'예측을 하는 학문'이라는 정의는 1)번 기준에서 생각해볼 때 좋지 못함. 통계학은 '예측'만 하는 학문이 아니기 때문. 회귀 분석만 하더라도 예측을 할때 뿐만 아니라 어떤 결과에 대한 요인과 그 영향력을 분석할 때도 사용함.

'확률의 실생활 적용' 이나 '숫자 놀음'이라는 정의 역시 2)기준에 좋지 못함. 광범위한 정의임.

 

통계는 '오차의 과학'이다라는 정의는 1)번, 2)번을 모두 만족함.

 

1. 통계는 오차를 연구하는 학문이다.

통계에서 오차를 다루지 않는 부분은 없음. 선형회귀분석은 만든 모델과 실제 데이터 사이의 오차가 정규분포가 되도록 하는 데이터 분석 기법이고 분산 분석은 표본 집단 사이의 차이가 우연한 오차인지 아니면 어떤 요인에 의한 차이인지를 검정하는 분석 기법임. 통계학의 근간이 되는 원리인 '중심 극한 정리'는 모집단 평균과 표본 집단 평균 사이의 오차에 대한 원리임.

반대로 생각해보면 오차가 없는 상황에서는 통계학은 아무런 힘을 발휘하지 못함. 뭔가 미지의 영역이 있고 그래서 오차가 존재할 가능성이 있는 자료를 다룰 때 통계학이 가치를 발휘함.

'빅데이터' 세상에서는 모집단을 직접 다루기 때문에 표본 데이터를 이용하는 것을 가정하는 통계학이 필요없다는 건 모집단을 잘 못 이해한 것. 하둡 시스템에 저장된 고객정보는 '현재 시점'의 모든 고객의 정보일 뿐. 또한 모든 정보가 아닌 일부만 담고 있음.

더 나아가 대부분의 자료에는 측정이나 표현 과정에서 생기는 오차가 있음. 

세상에는 수많은 오차가 이런 오차를 다루는 학문이 통계학임.

 

2. 통계학 이전에 사람들은 오차를 어떻게 다루었나?

통계학은 역사가 매우 짧은 학문. 현대 통계학은 고작 100년 정도 밖에 되지 않음.

통계학 이전에 사람들은 오차를 수정해야할 실수 내지 무시해야할 예외 정도로 취급했음.

통계학을 통해 오차를 처리해야할 대상으로 바뀜. 정확히는 오차를 학문적으로 다루게 되면서 통계학이 생겨나게 됨.

 

3. 오차의 중요성

'통계학은 오차의 과학이다'라는 정의는 직관적으로 와닿지 않는 정의이지만 데이터를 다룰 때 오차를 중요하게 다뤄야 함을 강조함.

많은 사람들이 예측모델링을 할 때 모델의 통계량이나 RMSE같은 오차합만 살펴보지 모델과 데이터 사이의 오차(잔차, Residual)가 어떤 특징을 가지고 있는지에 대해선 생각하지 않음. 오차(잔차, Residual)의 생김새나 특징을 살펴보는 것은 매우 중요함.

 

  Comments,     Trackbacks
이산확률분포 - 이항분포(Binomial Distribution), 베르누이 분포(Bernoulli Distribution)

이항분포

 

"이항분포(binomial distribution)은 연속된 n번의 독립시행에서 각 시행이 확률 p를 가질 떄의 이산확률분포이다."

이항분포를 설명하기 위해 주사위를 다섯번 던져 1이 나온 횟수를 구하고자 하는 예를 들어보겠습니다. 주사위를 다섯번 던지므로 n=5 입니다. 또한 주사위이기 때문에 1이나올 확률 p=1/6에 해당합니다. 그리고 확률변수는 1이 나온 횟수입니다.

이항분포의 정의를 살펴보면 독립시행이라는 말이 나옵니다. 독립시행이란 이전 시행이 다음 시행의 확률에 영향을 주지 않는다는 뜻입니다. 예를 들어, 주사위를 던졌을 때 1이 나올 확률이 1/6이라고하면 첫번째 던졌을때 1이 나왔다고 해도, 두번째 던졌을 때 1이 나올 확률에 영향을 주지 않는다는 것이죠. 즉, 첫번째 던졌을때나…백번째 던졌을때나 주사위 1이 나올 확률은 동일하게 1/6이라는 뜻입니다.

 

n은 시도한 횟수, x는 성공한 횟수입니다.

 

이항분포식에 대한 보다 자세한 설명은 아래 글을 참조하시면 됩니다.

 

롯데 '가을야구' 진출 확률, 이항분포로 알아보자!

일단 2018년 5월 7일 현재 정답은 14.4%입니다. 한 고등학생이 kini's Sportugese 페이스북에 다음 같은 메시지를 보냈습니다. 안녕하세요? 블로그 보고 메시지를 보내봅니다. 학교에서 하는 수학 과제연구로 피..

kuduz.tistory.com

 

 

베르누이분포

 

"이항분포에서 n=1일 때, 베르누이분포라고 한다."

 

베르누이분포는 이항분포의 특수한 경우 입니다. 이항분포에서 n이 1인 경우, 즉, 주사위를 한번만 던졌을때라고 생각하시면 됩니다.
베르누이분포는 주사위를 한 번만 던지므로 베르누이시행이라고도 합니다. 따라서 베르누이시행을 여러번 한 것이 이항분포라고 할 수 있는 것이죠.

 

  Comments,     Trackbacks
확률분포(Probability Distribution)

1. 확률 분포의 정의

 

"확률분포(probability distribution)은 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다."

 

확률변수는 아래 글을 참고하시고

 

 

확률변수(Random Variable)

확률변수의 정의 확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미합니다. 확률현상이란 확률현상이란 어떤 결과들이 나올지는 알지만 가능한 결과들 중 어떤 결과가 나..

percept.tistory.com

확률분포는 ‘함수’를 의미하는데요. 함수란 mapping을 의미합니다. 즉, 함수란 집합의 임의의 한 원소를 다른 집합의 한 원소에 대응시키는 관계를 의미합니다. 즉, 확률분포란 확률변수가 특정 값을 가질 확률이 얼마나 되느냐를 나타내는 것입니다.

 

확률 분포는 확률 변수의 종류에 따라 이산확률분포와 연속확률분포로 나뉘는데요. 쉽게 말해 확률변수를 셀 수 있는지 없는지에 따라 나눈다고 생각하시면 됩니다.

 

독립항등분포(iid, independent and identically distributed)
두 개 이상의 확률변수를 고려할 때, 각 변수들이 통계적으로 독립(independent)이고, 동일한 확률분포를 가지고 있을때(identically distributed) 독립항등분포를 따른다고 하는데요. 실제로 독립항등분포라는 한글 쓰는 대신 iid라고 줄여서 부릅니다.

 

 

2-1. 이산확률분포
이산확률분포(discrete probability distribution)는 이산확률변수의 확률분포를 의미합니다. 여기서 이산확률변수는 확률변수가 가질 수 있는 값의 개수를 셀 수 있다는 의미입니다. 예를 들어, 확률변수 X를 주사위를 던져서 나오는 눈의 개수라고 하면 X는 1,2,3,4,5,6 여섯가지 경우를 가질 수 있습니다. 그리고 이 경우 확률변수가 가질 수 있는 값이 6개로 ‘셀 수 있는’ 경우 이므로 이산확률변수에 해당합니다.

 


2-2. 확률질량함수
확률질량함수(probatility mass function, pmf)는 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수입니다.

즉 확률질량함수란 이산확률변수가 특정 값을 가질 확률을 의미합니다. 예를 들어 주사위를 던졌을 때 나오는 수를 X라고 하면 X가 1일 확률을 1/6이 된다는 것을 알 수 있습니다. 이를 수식을 나타내면 아래와 같습니다.

 

 

여기에서 fx(x)는 확률질량함수이며, fx(1)은 확률변수 X가 1일 때의 확률을 의미합니다. P(X=1)도 확률변수 X가 1일때의 확률을 의미합니다.

 

 

3-1. 연속확률분포
연속확률분포(continuous probability distribution)은 연속확률변수의 확률분포를 의미합니다. 여기서 연속확률변수는 확률변수가 가질 수 있는 값의 개수를 셀 수 없다는 의미입니다. 예를 들어, 임의로 선택한 사람의 키나 어느 지역의 연간 강수량 처럼 연속된 실수값을 확률변수 X로 둘 경우 이는 ‘셀 수 없는’ 경우에 해당합니다. 따라서 이 경우 확률변수 X는 연속확률변수에 해당한다고 할 수 있습니다.

3-2. 확률밀도함수
확률밀도함수(probability density function, pdf)는 연속확률변수가 특정 구간에 포함될 확률을 의미합니다.

확률밀도함수는 이산확률분포에서 확률 질량함수에 대응된다고 할 수 있습니다. 다만 확률밀도함수는 연속확률변수에 대응되기 때문에 특정값을 가질 확률은 0이 되므로 특정값을 가질 확률이 아닌 특정 구간에 포함된다고 표현합니다.

4. 누적분포함수
누적분포함수(cumulative distribution function, cdf)는 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.

즉, 누적분포함수를 수식으로 나타내면 아래와 같습니다.

 

  Comments,     Trackbacks
확률변수(Random Variable)

확률변수의 정의
확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미합니다. 

확률현상이란
확률현상이란 어떤 결과들이 나올지는 알지만 가능한 결과들 중 어떤 결과가 나올지는 모르는 현상입니다. 예를들어 동전을 던지는 현상에서 우리는 앞이나 뒤가 나올 것이라는 것은 알고 있습니다. 가능한 결과는 앞, 뒤 뿐이죠. 하지만 앞, 뒤 중 어떤 결과가 나올지는 모르죠. 이것이 확률현상입니다.

 

확률변수의 개념
확률변수는 상수가 아닌 ‘변수’입니다. 변수와 상수는 어떻게 다를까요? 상수는 pi = 3.141592…처럼 정해져있는 수이지만, 변수는 이름 그대로 변할수 있는 수입니다. 마찬가지로 확률변수는 ‘변수’이므로 ‘변할수 있는 수’인데요. 그럼 어떻게 변하는 것이냐, 바로 확률적으로 변하는 것입니다. 즉, 우리 주변에 확률적인 현상이 존재할때, 확률변수는 확률적으로 정해지는 것이죠.

 

확률변수의 간단한 예제

100원짜리 동전을 던지는 상황을 가정해봅시다. 동전을 던지는 상황은 확률현상이죠. 앞이 나올지 뒤가 나올지 알 수 없으니까요. 그리고 X를 100원짜리 동전을 한 번 던졌을 때 이순신 장군이 나오는 횟수라고 하면, X는 확률현상에 기인해 결과값이 확률적으로 정해지므로 확률변수라는 것을 알 수 있습니다. 동전을 한번 던졌을 때 나올수있는 결과는 이순신 또는 숫자 100이므로 확률변수 X는 0 또는 1을 가집니다. X는 확률변수이므로 0 또는 1이 될 수 있다는 뜻입니다. 즉, 동전을 던졌을때 숫자 100이 나오면 이순신 장군이 나온 횟수는 0이므로 확률변수 X=0 이고, 이순신 장군이 나오면 이순신 장군이 나온 횟수는 1이므로 확률변수  X=1 이 되는 것입니다. 여기서 확률의 개념 까지 보면, 확률변수  X 가 0일 확률, 즉,  X=0 일 확률  P(X=0)은 1/2입니다. 동전을 던져서 숫자가 나올 확률은 50%라는 뜻이죠. 마찬가지로  X=1 일 확률, 즉  P(X=1) 도 1/2입니다. 동전을 던저셔 이순신이 나올 확률도 50%니까요. 이를 정리하면 아래 표와 같습니다.

 

확률현상 확률 현상의 결과 확률변수 X P(X)
동전을 던짐 0 1/2
1 1/2

 

  Comments,     Trackbacks
평균(Mean)과 분산(Variance)

0. 대표값
표본추출로 구한 표본데이터는 분포를 따르게 되는데요. 분포의 특성을 나타내는데 대표값이라는 개념을 사용합니다. 대표값은 이름 그대로 데이터셋을 대표하는 값을 의미합니다. 그리고 가장 흔히 쓰이는 대표값은 평균, 분산, 표준편차 등이 있습니다.

 


1. 평균(mean)과 기대값(expected value)
1-1. 평균(mean)
평균에는 산술평균, 기하평균, 조화평균과 같이 여러 종류가 있는데요. 오늘 알아볼 평균은 산술평균 입니다.

평균은 단순히 모든 관측값을 더해서 관측값 개수로 나눈 것이다.

평균은 데이터의 중심을 나타내는데 사용됩니다. 가끔 평균 대신 기대값이라는 용어를 사용하기도 하는데요. 그렇다면 기대값은 무엇일까요?

1-2. 기대값(expected value)
기대값은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.

1-3. 평균과 기대값의 차이
사실 기대값은 평균과 동일하다고 생각해도 크게 문제 되지는 않을 것 같아요. 실제로 두 용어를 섞어서 사용하기도 하는데요.
저는 평균과 기대값에는 관점의 차이가 있다고 생각합니다. 즉, 표본으로부터 얻어진 표본데이터값의 연산 자체에 중점을 두고 보면 평균이고, 확률변수에 중점을 두고 보면 기대값이라고 생각합니다. 다른 말로하면 표본은 데이터로부터 이미 구해진 데이터의 평균, 기대값은 아직 구해지지않은 값(미래에 기대되는)에 대한 평균이라고도 볼 수 있을 것 같아요.

1-4. 중앙값(median)
중앙값(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다.

중앙값은 이름그대로 값을 크기순으로 나열했을 때 가장 중앙에 위치하는 값을 의미합니다.

1-5. 평균과 중앙값의 차이
평균에 비해 중앙값은 사용빈도가 떨어지는 경향이 있는데요. 평균이 모든 상황에서 좋은 것은 아니며, 상황에 따라 평균보다 중앙값이 나은 경우도 존재합니다. 평균을 쓸지 중앙값을 쓸지는 데이터의 분포에 따라 결정되는데요.

 

데이터가 대칭 형태로 분포한다면, 대표값으로 평균이 적절합니다. 하지만 한쪽으로 치우처진 데이터의 경우에는 평균보다 중앙값이 더 적절합니다. 현실세계에선 대칭형태보다 한쪽으로 치우쳐진 데이터가 다수 존재하는데요. 아래에서 예를 들어보겠습니다.

 

과목 성적
국어 95
수학 100
영어 95
사회 50
과학 97

평균: (95+100+95+50+97)/5 = 86.4

중앙값: 95

 

위 예제를 보면 시험성적은 한쪽으로 치우쳐진 분포입니다. 이때 평균과 중위수를 구해보면 다소 차이가 나는 것을 볼 수 있는데요. 데이터의 분포가 대칭형태에 가까울수록 평균과 중위수가 비슷해지는 경향이 있습니다.

 

2. 분산(variance)와 표준편차(standard deviation)
위에서 살펴보았던 평균이나 중앙값은 데이터의 중심을 표현하는데 사용되는 값이라면, 분산과 표준편차는 데이터가 얼마나 넓게 퍼져있는지를 나타내는 값입니다. 이를 산포도라고 합니다.

2-1. 분산(variance)
"분산은 평균에 대한 편차 제곱의 평균을 구한 값이다."

정의를 잠시 살펴보면, 분산은 편차 제곱의 평균이라고 적혀있습니다. 여기서 편차란 평균과의 차이인데요. 이 편차는 모두 합하면 0이 됩니다. 따라서 분산을 구하기 위해서는 편차 자체를 그냥 더하지 않고 제곱해서 더하는 과정을 거칩니다. 즉, 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가하게 되는 것입니다.

 

위 그림에서 빨간색 그래프처럼 데이터가 모여있으며 분산은 작고 파란색 그래프처럼 데이터가 넓게 퍼져있으면 분산은 크게 됩니다. 

 

 

2-2. 표준편차(standard deviation)
"표준편차는 분산의 양의 제곱근으로 정의 된다."

위에서 분산은 데이터의 퍼짐정도를 나타낸다고 했습니다. 그럼 분산이 있는데 표준편차는 왜 필요할까요? 사실 분산에는 단점이 있습니다. 그것은 바로 편차를 ‘제곱’하면서 값이 크게 증가하는데요. 이렇게구한 분산은 값 자체의 의미를 파악하기 어려운 경향이 있습니다. 예를들어 시험점수 데이터라고 했을 때, 편차가 3이라면 우리는 3점차이 나는구나라고 직관적으로 이해할수있는데요. 이 값을 제곱하면 9가 되는데, 이 숫자가 무엇을 의미하는지 혼란스러울 수 있습니다. 따라서 표준편차는 분산에 루트를 씌우는 것은, 제곱하면서 증가했었던 값을 다시 원래 단위로 맞추는 과정이라고 이해하시면 되겠습니다. 만약 분산이 25라면 표준편차는 5가 되고, 우리는 5가 5점을 의미한다는 것을 알 수 있습니다.

  Comments,     Trackbacks
최근 작성 글
최근 작성 댓글
최근 작성 트랙백
공지사항
링크
글 보관함
캘린더
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
검색