표준편차에 대해서 #2

2. 초심자가 혼동하기 쉬운 2가지 포인트
표준편차에 대해서 혼동하기 쉬운 2가지 포인트가 있다.

2.1 표준편차 X의 의미

표준편차 X의 의미는 「각 데이터가 평균값으로부터 표준적으로 X떨어져 있다」라는 의미이다. 예를들어 평균값 50, 표준편차 10인 경우는 「평균값 50에 대해서 각 데이터가 표준적으로 10 떨어져 있다」 라는 의미가 된다. 그러니까, 50 ± 10 = 40～60의 범위에 전 데이터의 약 68%가 포함되어 있다는 말이다.

2.2 분산과 표준편차의 관계
분산은 표준편차를 제곱한 값이다. 표준편차와의 관계는 다음과 같다.

예를들면, 표준편차가 10일때, 분산 = 표준편차 × 표준편차 = 10 × 10 = 100
표준편차가 5일때는 분산은 = 25
그래서 분산하고 표준편차는 닮은 꼴(비례)이다. 분산을 알면 다음도 알게 된다.

분산이 크다 = 평균값에서 떨어져 있는 데이터가 많다. = 데이터가 흩어져 있다.
분산이 작다 = 평균값과 가까운 데이터가 많다. = 데이터가 집중되어 있다.

표준편차의 특징과 비슷하다.

분산의 난점
분산은 수학적으로 매우 편리한 것이지만, 표준편차를 제곱해서 만든 것이므로, 단위가 변해 버리는 것이 난점이다. 예를 들어, 표준편차가 5분인 경우, 분산은 25분이 되는데, 분산만 보면 실제로 평균값에서 어느정도 흩어져 있는지 그 정도를 직감적으로 알기 어렵다는 것이다. 그래서, 실제로 평균값에서 얼마나 흩어져 있는
지 파악하기 위해서는 표준편차를 볼 필요가 있다.

3. 간단한 예를 표준편차를 사용해서 생각해 보자.
1년간의 체중변화를 표준편차를 사용해서 살펴보자. 일년 동안 매월 체중을 기록해온 A씨와 B씨가 있는데 두 사람 모두 평균체중이 65kg이라고 가정하자. 두사람의 일년 간의 체중에 대한 표준편차는 다음과 같다
A씨 : 10kg
B씨 : 1kg

A씨의 경우 표준편차가 10kg이므로 평균체중 65kg에 대해서 ±10kg(55kg~75kg) 의 변동이 있었다는 말이다. 체중 변동이 상당히 큰데, 이건 틀림없이 다이어트와 리바운드가 반복되었다는 증거 일 것이다. 그럼 B씨의 경우는 어떨까? 표준편차가 1kg이므로 평균체중 65kg에 대해서 ±1kg (64kg~66kg) 의 변동이 있었다는 얘기인데, B씨의 경우는 1년간 체중 변화가 거의 없다고 할 수 있어 참으로 건강한 식생활을 하고 있다고 짐작할 수 있다.
이처럼, 평균값 만으로는 알 수 없었던 진실(?)이 표준편차를 봄으로써 밝혀질 수 있다는 말이다.

4. 표준편차를 구하는 4단계 step
표준편차를 구하는 방법은 다음 4단계 step으로 나눌 수 있다.

step1  평균을 구한다.
step2  편차를 구한다.
step3  분산을 구한다.
step4  제곱근을 구한다.

이다. 그럼 한 스텝씩 구체적인 예를 들어가면 확인해 보자.

4.1 평균값을 구한다.
다음과 같은 테스트 결과데이터가 있다고 하자.

이름	테스트 점수
A군	60점
B군	83점
C군	72점
D군	68점
E군	93점
F군	45점
G군	78점
H군	65점
I군	54점
J군	42점

이 경우, 평균값 = (60 + 83 + 72 + 68 + 93 + 45 + 78 + 65 + 54 + 42) ÷ 10 ＝ 66점 이다.

4.2 편차를 구한다

편차란 앞에서 설명했듯이 「각 데이터와 평균의 차이」이다. 그래서 평균을 알고 있으면, 편차를 구하는건 식은죽 먹기가 된다.

편차 = 각 데이터의 값 - 평균값
이므로 이 예에서 편차를 구할려면

편차 = 각 테스트 결과 - 평균점수
라는 식으로 계산하면 된다.
그렇게 해서 구한 편차는 다음과 같다.

이름	테스트 점수	평균	편차
A군	60점	66점	-6점
B군	83점	66점	17점
C군	72점	66점	6점
D군	68점	66점	2점
E군	93점	66점	27점
F군	45점	66점	-21점
G군	78 점	66점	12점
H군	65점	66점	-1점
I군	54점	66점	-12점
J군	42점	66점	-24점

4.3 step3 : 분산을 구한다.

편차가 계산되었으니 분산을 계산해 보자.
분산은 다음 식과 같이 각 데이터의 편차를 제곱해서 그 결과를 전부 더하고 데이터 수로 나누면 된다.

이 식으로 계산해 보면 결과는 다음과 같다.

분산 = （36 + 289 + 36 + 4 + 729 + 441 + 144 + 1 + 144 + 576） ÷ 10 ＝ 2,400 ÷ 10 ＝ 240

이름	테스트 점수	평균	편차	편차의 제곱
A군	60점	66점	-6점	36
B군	83점	66점	17점	289
C군	72점	66점	6점	36
D군	68점	66점	2점	4
E군	93점	66점	27점	728
F군	45점	66점	-21점	441
G군	78 점	66점	12점	144
H군	65점	66점	-1점	1
I군	54점	66점	-12점	144
J군	42점	66점	-24점	576
편차제곱의 합계				2400
분산				240

※ 아니고 일부러 편차를 제곱해서 분산을 구해야 할 꺄?
그것은 편차의 평균을 구하면 항상 결과가 0이 되기 때문이다. 예로든 테스트 결과 처럼 각각의 편차는
플러스도 있고 마이너스도 있다. 때문에 전체 편차를 합하면 결국엔 0이 되어 버린다.

편차값들을 합해 보면

편차의 합계 = （-6 + 17 + 6 + 2 + 27 - 21 + 12 - 1 - 12 - 24） = 0

이때문에 편차의 합계가 아닌 편차의 제곱을 내서 그 결과의 평균값을 구하는 것이다.

4.4 step4 : 제곱근을 구한다.
마지막으로 졔곱근을 구한다. step3까지의 결과가 분산 = 240 이었다.
그런데 이 분산값은 그대로 사용하지 못한다. 왜냐하면 편차를 제곱해서 구한 값이기 때문이다.
그래서, 그 값을 원래의 값으로 되돌리기 위해 제곱근을 구해야 한다.

이것이 표준편차 이다,

위의 예를 적용하면,

이 된다. 이 결과로 생각하면, 평균점 66점 ± 15.5점 의 범위내에 전 데이터의 68%의 데이터가 포함 되어 있다는 것을 알 수 있다.

표준편차에 대해서 1로 돌아가기

'AI는 정답일까? > 통계에 관한 지식' 카테고리의 다른 글

표준편차에 대해서 #1 (0)	2024.05.31

메모라의 작업장

표준편차에 대해서 #2

'AI는 정답일까? > 통계에 관한 지식' 카테고리의 다른 글

티스토리툴바

표준편차에 대해서 #2

'AI는 정답일까? > 통계에 관한 지식' 카테고리의 다른 글

관련글

티스토리툴바