3. 변이와 분포 측정하기
범위
범위는 값들이 분포되어 있는 방식을 측정하는 방법으로, 다음과 같이 계산합니다.
상한 - 하한
상한은 가장 큰 값이고 하한은 가장 작은 값입니다.
사분위수(quartile)
데이터를 네 조각으로 나누는 값입니다. 값이 가장 작은 사분위수는 하한 사분위수이고, 값이 가장 큰 사분위수는 상한 사분위수입니다.
가운데에 있는 사분위수는 중앙값입니다.
사분범위(interquartile range, IQR)
이상치에 덜 민감한 '미니'범위를 의미합니다. 상한 사분위수 - 하한 사분위수를 계산해서 찾습니다.
하한 사분위수 위치 찾기
1. 우선 n /4를 계산합니다.
2. 만약 결과가 정수면 하한 사분위수의 위치는 이 정수 위치의 값과 그 다음에 오는 값 사이가 됩니다. 두 값의 평균값을 구하면 하한 사분위수를 얻을 수 있습니다.
3. 만약 결과가 정수가 아니면 올림을 합니다. 그러면 하한 사분위수의 위치를 얻을 수 있습니다.
예를 들어 만약 6개의 수가 있다면 우선 6/4를 계산해서 1.5를 얻습니다. 이것을 올림하면 2가 됩니다. 하한 사분위수의 위치는 2가 됩니다.
상한 사분위수 위치 찾기
1. 우선 3n/4를 계산합니다.
2. 만약 결과가 정수면 상한 사분위수의 위치는 이 정수 위치의 값과 그 다음에 오는 값 사이가 됩니다. 두 값의 평균값을 구하면 상한 사분위수를 얻을 수 있습니다.
3. 만약 결과가 정수가 아니면 올림을 합니다. 그러면 상한 사분위수의 위치를 얻을 수 있습니다.
백분위수
k번째 백분위수는 데이터를 k% 지점에서 분할하는 값입니다. 다움과 같이 표기합니다.
백분위수 찾기
1. 우선 모든 값을 오름차순으로 나열합니다.
2. n개의 숫자 중에서 k번째 백분위수의 위치를 찾으려면 우선
을 계산합니다.
3. 만약 결과가 정수면 백분위수의 위치는 이 정수 위치의 값과 그 다음에 오는 값 사이가 됩니다. 두 수의 평균값을 구하면 백분위수의 위치를 얻을 수 있습니다.
4. 만약 결과가 정수가 아니면 올림을 합니다. 그러면 백분위수의 위치를 얻을 수 있습니다.
분산(variance)
분산은 분포를 측정하는 방법입니다. 분산은 평균값으로부터의 거리를 제곱해서 평균을 구한 값입니다.
표준편차(standard deviation)
출처 http://terms.naver.com/entry.nhn?cid=200000000&docId=1158826&mobile&categoryId=200000450
표준점수(standard score)
원점수를 주어진 집단의 평균을 중심으로 표준편차 단위로 전환한 전환점수.
엑셀 함수로 분산, 표준편차를 구할 때 참조 http://feelhouse.tistory.com/987