2. 초심자가 혼동하기 쉬운 2가지 포인트
표준편차에 대해서 혼동하기 쉬운 2가지 포인트가 있다.
2.1 표준편차 X의 의미
표준편차 X의 의미는 「각 데이터가 평균값으로부터 표준적으로 X떨어져 있다」라는 의미이다. 예를들어 평균값 50, 표준편차 10인 경우는 「평균값 50에 대해서 각 데이터가 표준적으로 10 떨어져 있다」 라는 의미가 된다. 그러니까, 50 ± 10 = 40~60의 범위에 전 데이터의 약 68%가 포함되어 있다는 말이다.
2.2 분산과 표준편차의 관계
분산은 표준편차를 제곱한 값이다. 표준편차와의 관계는 다음과 같다.
예를들면, 표준편차가 10일때, 분산 = 표준편차 × 표준편차 = 10 × 10 = 100
표준편차가 5일때는 분산은 = 25
그래서 분산하고 표준편차는 닮은 꼴(비례)이다. 분산을 알면 다음도 알게 된다.
분산이 크다 = 평균값에서 떨어져 있는 데이터가 많다. = 데이터가 흩어져 있다.
분산이 작다 = 평균값과 가까운 데이터가 많다. = 데이터가 집중되어 있다.
표준편차의 특징과 비슷하다.
분산의 난점
분산은 수학적으로 매우 편리한 것이지만, 표준편차를 제곱해서 만든 것이므로, 단위가 변해 버리는 것이 난점이다. 예를 들어, 표준편차가 5분인 경우, 분산은 25분이 되는데, 분산만 보면 실제로 평균값에서 어느정도 흩어져 있는지 그 정도를 직감적으로 알기 어렵다는 것이다. 그래서, 실제로 평균값에서 얼마나 흩어져 있는
지 파악하기 위해서는 표준편차를 볼 필요가 있다.
3. 간단한 예를 표준편차를 사용해서 생각해 보자.
1년간의 체중변화를 표준편차를 사용해서 살펴보자. 일년 동안 매월 체중을 기록해온 A씨와 B씨가 있는데 두 사람 모두 평균체중이 65kg이라고 가정하자. 두사람의 일년 간의 체중에 대한 표준편차는 다음과 같다
A씨 : 10kg
B씨 : 1kg
A씨의 경우 표준편차가 10kg이므로 평균체중 65kg에 대해서 ±10kg(55kg~75kg) 의 변동이 있었다는 말이다. 체중 변동이 상당히 큰데, 이건 틀림없이 다이어트와 리바운드가 반복되었다는 증거 일 것이다. 그럼 B씨의 경우는 어떨까? 표준편차가 1kg이므로 평균체중 65kg에 대해서 ±1kg (64kg~66kg) 의 변동이 있었다는 얘기인데, B씨의 경우는 1년간 체중 변화가 거의 없다고 할 수 있어 참으로 건강한 식생활을 하고 있다고 짐작할 수 있다.
이처럼, 평균값 만으로는 알 수 없었던 진실(?)이 표준편차를 봄으로써 밝혀질 수 있다는 말이다.
4. 표준편차를 구하는 4단계 step
표준편차를 구하는 방법은 다음 4단계 step으로 나눌 수 있다.
step1 평균을 구한다.
step2 편차를 구한다.
step3 분산을 구한다.
step4 제곱근을 구한다.
이다. 그럼 한 스텝씩 구체적인 예를 들어가면 확인해 보자.
4.1 평균값을 구한다.
다음과 같은 테스트 결과데이터가 있다고 하자.
이름 | 테스트 점수 |
A군 | 60점 |
B군 | 83점 |
C군 | 72점 |
D군 | 68점 |
E군 | 93점 |
F군 | 45점 |
G군 | 78점 |
H군 | 65점 |
I군 | 54점 |
J군 | 42점 |
이 경우, 평균값 = (60 + 83 + 72 + 68 + 93 + 45 + 78 + 65 + 54 + 42) ÷ 10 = 66점 이다.
4.2 편차를 구한다
편차란 앞에서 설명했듯이 「각 데이터와 평균의 차이」이다. 그래서 평균을 알고 있으면, 편차를 구하는건 식은죽 먹기가 된다.
편차 = 각 데이터의 값 - 평균값
이므로 이 예에서 편차를 구할려면
편차 = 각 테스트 결과 - 평균점수
라는 식으로 계산하면 된다.
그렇게 해서 구한 편차는 다음과 같다.
이름 | 테스트 점수 | 평균 | 편차 |
A군 | 60점 | 66점 | -6점 |
B군 | 83점 | 66점 | 17점 |
C군 | 72점 | 66점 | 6점 |
D군 | 68점 | 66점 | 2점 |
E군 | 93점 | 66점 | 27점 |
F군 | 45점 | 66점 | -21점 |
G군 | 78 점 | 66점 | 12점 |
H군 | 65점 | 66점 | -1점 |
I군 | 54점 | 66점 | -12점 |
J군 | 42점 | 66점 | -24점 |
4.3 step3 : 분산을 구한다.
편차가 계산되었으니 분산을 계산해 보자.
분산은 다음 식과 같이 각 데이터의 편차를 제곱해서 그 결과를 전부 더하고 데이터 수로 나누면 된다.
이 식으로 계산해 보면 결과는 다음과 같다.
분산 = (36 + 289 + 36 + 4 + 729 + 441 + 144 + 1 + 144 + 576) ÷ 10 = 2,400 ÷ 10 = 240
이름 | 테스트 점수 | 평균 | 편차 | 편차의 제곱 |
A군 | 60점 | 66점 | -6점 | 36 |
B군 | 83점 | 66점 | 17점 | 289 |
C군 | 72점 | 66점 | 6점 | 36 |
D군 | 68점 | 66점 | 2점 | 4 |
E군 | 93점 | 66점 | 27점 | 728 |
F군 | 45점 | 66점 | -21점 | 441 |
G군 | 78 점 | 66점 | 12점 | 144 |
H군 | 65점 | 66점 | -1점 | 1 |
I군 | 54점 | 66점 | -12점 | 144 |
J군 | 42점 | 66점 | -24점 | 576 |
편차제곱의 합계 | 2400 | |||
분산 | 240 |
※ 아니고 일부러 편차를 제곱해서 분산을 구해야 할 꺄?
그것은 편차의 평균을 구하면 항상 결과가 0이 되기 때문이다. 예로든 테스트 결과 처럼 각각의 편차는
플러스도 있고 마이너스도 있다. 때문에 전체 편차를 합하면 결국엔 0이 되어 버린다.
편차값들을 합해 보면
편차의 합계 = (-6 + 17 + 6 + 2 + 27 - 21 + 12 - 1 - 12 - 24) = 0
이때문에 편차의 합계가 아닌 편차의 제곱을 내서 그 결과의 평균값을 구하는 것이다.
4.4 step4 : 제곱근을 구한다.
마지막으로 졔곱근을 구한다. step3까지의 결과가 분산 = 240 이었다.
그런데 이 분산값은 그대로 사용하지 못한다. 왜냐하면 편차를 제곱해서 구한 값이기 때문이다.
그래서, 그 값을 원래의 값으로 되돌리기 위해 제곱근을 구해야 한다.
이것이 표준편차 이다,
위의 예를 적용하면,
이 된다. 이 결과로 생각하면, 평균점 66점 ± 15.5점 의 범위내에 전 데이터의 68%의 데이터가 포함 되어 있다는 것을 알 수 있다.
'AI는 정답일까? > 통계에 관한 지식' 카테고리의 다른 글
표준편차에 대해서 #1 (0) | 2024.05.31 |
---|