TODAY TOTAL


확률분포(Probability Distribution)

1. 확률 분포의 정의

 

"확률분포(probability distribution)은 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다."

 

확률변수는 아래 글을 참고하시고

 

 

확률변수(Random Variable)

확률변수의 정의 확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미합니다. 확률현상이란 확률현상이란 어떤 결과들이 나올지는 알지만 가능한 결과들 중 어떤 결과가 나..

percept.tistory.com

확률분포는 ‘함수’를 의미하는데요. 함수란 mapping을 의미합니다. 즉, 함수란 집합의 임의의 한 원소를 다른 집합의 한 원소에 대응시키는 관계를 의미합니다. 즉, 확률분포란 확률변수가 특정 값을 가질 확률이 얼마나 되느냐를 나타내는 것입니다.

 

확률 분포는 확률 변수의 종류에 따라 이산확률분포와 연속확률분포로 나뉘는데요. 쉽게 말해 확률변수를 셀 수 있는지 없는지에 따라 나눈다고 생각하시면 됩니다.

 

독립항등분포(iid, independent and identically distributed)
두 개 이상의 확률변수를 고려할 때, 각 변수들이 통계적으로 독립(independent)이고, 동일한 확률분포를 가지고 있을때(identically distributed) 독립항등분포를 따른다고 하는데요. 실제로 독립항등분포라는 한글 쓰는 대신 iid라고 줄여서 부릅니다.

 

 

2-1. 이산확률분포
이산확률분포(discrete probability distribution)는 이산확률변수의 확률분포를 의미합니다. 여기서 이산확률변수는 확률변수가 가질 수 있는 값의 개수를 셀 수 있다는 의미입니다. 예를 들어, 확률변수 X를 주사위를 던져서 나오는 눈의 개수라고 하면 X는 1,2,3,4,5,6 여섯가지 경우를 가질 수 있습니다. 그리고 이 경우 확률변수가 가질 수 있는 값이 6개로 ‘셀 수 있는’ 경우 이므로 이산확률변수에 해당합니다.

 


2-2. 확률질량함수
확률질량함수(probatility mass function, pmf)는 이산확률변수에서 특정 값에 대한 확률을 나타내는 함수입니다.

즉 확률질량함수란 이산확률변수가 특정 값을 가질 확률을 의미합니다. 예를 들어 주사위를 던졌을 때 나오는 수를 X라고 하면 X가 1일 확률을 1/6이 된다는 것을 알 수 있습니다. 이를 수식을 나타내면 아래와 같습니다.

 

 

여기에서 fx(x)는 확률질량함수이며, fx(1)은 확률변수 X가 1일 때의 확률을 의미합니다. P(X=1)도 확률변수 X가 1일때의 확률을 의미합니다.

 

 

3-1. 연속확률분포
연속확률분포(continuous probability distribution)은 연속확률변수의 확률분포를 의미합니다. 여기서 연속확률변수는 확률변수가 가질 수 있는 값의 개수를 셀 수 없다는 의미입니다. 예를 들어, 임의로 선택한 사람의 키나 어느 지역의 연간 강수량 처럼 연속된 실수값을 확률변수 X로 둘 경우 이는 ‘셀 수 없는’ 경우에 해당합니다. 따라서 이 경우 확률변수 X는 연속확률변수에 해당한다고 할 수 있습니다.

3-2. 확률밀도함수
확률밀도함수(probability density function, pdf)는 연속확률변수가 특정 구간에 포함될 확률을 의미합니다.

확률밀도함수는 이산확률분포에서 확률 질량함수에 대응된다고 할 수 있습니다. 다만 확률밀도함수는 연속확률변수에 대응되기 때문에 특정값을 가질 확률은 0이 되므로 특정값을 가질 확률이 아닌 특정 구간에 포함된다고 표현합니다.

4. 누적분포함수
누적분포함수(cumulative distribution function, cdf)는 주어진 확률 변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.

즉, 누적분포함수를 수식으로 나타내면 아래와 같습니다.

 

  Comments,     Trackbacks
확률변수(Random Variable)

확률변수의 정의
확률변수(random variable)란, 확률현상에 기인해 결과값이 확률적으로 정해지는 변수를 의미합니다. 

확률현상이란
확률현상이란 어떤 결과들이 나올지는 알지만 가능한 결과들 중 어떤 결과가 나올지는 모르는 현상입니다. 예를들어 동전을 던지는 현상에서 우리는 앞이나 뒤가 나올 것이라는 것은 알고 있습니다. 가능한 결과는 앞, 뒤 뿐이죠. 하지만 앞, 뒤 중 어떤 결과가 나올지는 모르죠. 이것이 확률현상입니다.

 

확률변수의 개념
확률변수는 상수가 아닌 ‘변수’입니다. 변수와 상수는 어떻게 다를까요? 상수는 pi = 3.141592…처럼 정해져있는 수이지만, 변수는 이름 그대로 변할수 있는 수입니다. 마찬가지로 확률변수는 ‘변수’이므로 ‘변할수 있는 수’인데요. 그럼 어떻게 변하는 것이냐, 바로 확률적으로 변하는 것입니다. 즉, 우리 주변에 확률적인 현상이 존재할때, 확률변수는 확률적으로 정해지는 것이죠.

 

확률변수의 간단한 예제

100원짜리 동전을 던지는 상황을 가정해봅시다. 동전을 던지는 상황은 확률현상이죠. 앞이 나올지 뒤가 나올지 알 수 없으니까요. 그리고 X를 100원짜리 동전을 한 번 던졌을 때 이순신 장군이 나오는 횟수라고 하면, X는 확률현상에 기인해 결과값이 확률적으로 정해지므로 확률변수라는 것을 알 수 있습니다. 동전을 한번 던졌을 때 나올수있는 결과는 이순신 또는 숫자 100이므로 확률변수 X는 0 또는 1을 가집니다. X는 확률변수이므로 0 또는 1이 될 수 있다는 뜻입니다. 즉, 동전을 던졌을때 숫자 100이 나오면 이순신 장군이 나온 횟수는 0이므로 확률변수 X=0 이고, 이순신 장군이 나오면 이순신 장군이 나온 횟수는 1이므로 확률변수  X=1 이 되는 것입니다. 여기서 확률의 개념 까지 보면, 확률변수  X 가 0일 확률, 즉,  X=0 일 확률  P(X=0)은 1/2입니다. 동전을 던져서 숫자가 나올 확률은 50%라는 뜻이죠. 마찬가지로  X=1 일 확률, 즉  P(X=1) 도 1/2입니다. 동전을 던저셔 이순신이 나올 확률도 50%니까요. 이를 정리하면 아래 표와 같습니다.

 

확률현상 확률 현상의 결과 확률변수 X P(X)
동전을 던짐 0 1/2
1 1/2

 

  Comments,     Trackbacks
평균(Mean)과 분산(Variance)

0. 대표값
표본추출로 구한 표본데이터는 분포를 따르게 되는데요. 분포의 특성을 나타내는데 대표값이라는 개념을 사용합니다. 대표값은 이름 그대로 데이터셋을 대표하는 값을 의미합니다. 그리고 가장 흔히 쓰이는 대표값은 평균, 분산, 표준편차 등이 있습니다.

 


1. 평균(mean)과 기대값(expected value)
1-1. 평균(mean)
평균에는 산술평균, 기하평균, 조화평균과 같이 여러 종류가 있는데요. 오늘 알아볼 평균은 산술평균 입니다.

평균은 단순히 모든 관측값을 더해서 관측값 개수로 나눈 것이다.

평균은 데이터의 중심을 나타내는데 사용됩니다. 가끔 평균 대신 기대값이라는 용어를 사용하기도 하는데요. 그렇다면 기대값은 무엇일까요?

1-2. 기대값(expected value)
기대값은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이다. 이것은 어떤 확률적 사건에 대한 평균의 의미로 생각할 수 있다.

1-3. 평균과 기대값의 차이
사실 기대값은 평균과 동일하다고 생각해도 크게 문제 되지는 않을 것 같아요. 실제로 두 용어를 섞어서 사용하기도 하는데요.
저는 평균과 기대값에는 관점의 차이가 있다고 생각합니다. 즉, 표본으로부터 얻어진 표본데이터값의 연산 자체에 중점을 두고 보면 평균이고, 확률변수에 중점을 두고 보면 기대값이라고 생각합니다. 다른 말로하면 표본은 데이터로부터 이미 구해진 데이터의 평균, 기대값은 아직 구해지지않은 값(미래에 기대되는)에 대한 평균이라고도 볼 수 있을 것 같아요.

1-4. 중앙값(median)
중앙값(median) 또는 중위수는 어떤 주어진 값들을 크기의 순서대로 정렬했을 때 가장 중앙에 위치하는 값을 의미한다. 예를 들어 1, 2, 100의 세 값이 있을 때, 2가 가장 중앙에 있기 때문에 2가 중앙값이다.

중앙값은 이름그대로 값을 크기순으로 나열했을 때 가장 중앙에 위치하는 값을 의미합니다.

1-5. 평균과 중앙값의 차이
평균에 비해 중앙값은 사용빈도가 떨어지는 경향이 있는데요. 평균이 모든 상황에서 좋은 것은 아니며, 상황에 따라 평균보다 중앙값이 나은 경우도 존재합니다. 평균을 쓸지 중앙값을 쓸지는 데이터의 분포에 따라 결정되는데요.

 

데이터가 대칭 형태로 분포한다면, 대표값으로 평균이 적절합니다. 하지만 한쪽으로 치우처진 데이터의 경우에는 평균보다 중앙값이 더 적절합니다. 현실세계에선 대칭형태보다 한쪽으로 치우쳐진 데이터가 다수 존재하는데요. 아래에서 예를 들어보겠습니다.

 

과목 성적
국어 95
수학 100
영어 95
사회 50
과학 97

평균: (95+100+95+50+97)/5 = 86.4

중앙값: 95

 

위 예제를 보면 시험성적은 한쪽으로 치우쳐진 분포입니다. 이때 평균과 중위수를 구해보면 다소 차이가 나는 것을 볼 수 있는데요. 데이터의 분포가 대칭형태에 가까울수록 평균과 중위수가 비슷해지는 경향이 있습니다.

 

2. 분산(variance)와 표준편차(standard deviation)
위에서 살펴보았던 평균이나 중앙값은 데이터의 중심을 표현하는데 사용되는 값이라면, 분산과 표준편차는 데이터가 얼마나 넓게 퍼져있는지를 나타내는 값입니다. 이를 산포도라고 합니다.

2-1. 분산(variance)
"분산은 평균에 대한 편차 제곱의 평균을 구한 값이다."

정의를 잠시 살펴보면, 분산은 편차 제곱의 평균이라고 적혀있습니다. 여기서 편차란 평균과의 차이인데요. 이 편차는 모두 합하면 0이 됩니다. 따라서 분산을 구하기 위해서는 편차 자체를 그냥 더하지 않고 제곱해서 더하는 과정을 거칩니다. 즉, 데이터가 평균에 가까울수록 편차는 작아지므로 분산은 작아지고, 평균과 멀리 떨어져있을수록 편차는 커지고 분산 또한 증가하게 되는 것입니다.

 

위 그림에서 빨간색 그래프처럼 데이터가 모여있으며 분산은 작고 파란색 그래프처럼 데이터가 넓게 퍼져있으면 분산은 크게 됩니다. 

 

 

2-2. 표준편차(standard deviation)
"표준편차는 분산의 양의 제곱근으로 정의 된다."

위에서 분산은 데이터의 퍼짐정도를 나타낸다고 했습니다. 그럼 분산이 있는데 표준편차는 왜 필요할까요? 사실 분산에는 단점이 있습니다. 그것은 바로 편차를 ‘제곱’하면서 값이 크게 증가하는데요. 이렇게구한 분산은 값 자체의 의미를 파악하기 어려운 경향이 있습니다. 예를들어 시험점수 데이터라고 했을 때, 편차가 3이라면 우리는 3점차이 나는구나라고 직관적으로 이해할수있는데요. 이 값을 제곱하면 9가 되는데, 이 숫자가 무엇을 의미하는지 혼란스러울 수 있습니다. 따라서 표준편차는 분산에 루트를 씌우는 것은, 제곱하면서 증가했었던 값을 다시 원래 단위로 맞추는 과정이라고 이해하시면 되겠습니다. 만약 분산이 25라면 표준편차는 5가 되고, 우리는 5가 5점을 의미한다는 것을 알 수 있습니다.

  Comments,     Trackbacks
최근 작성 글
최근 작성 댓글
최근 작성 트랙백
공지사항
링크
글 보관함
캘린더
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
검색