본문 바로가기

Statistic

4. 확률 계산하기 사건(evnet)확률을 속성으로 갖는 어떤 결과나 발생(occurrence) 가능성 공간(possibllity space)표본 공간(sample space) 확률(probability)사건 A가 일어날 확률 = 사건 A가 일어날 수 있는 경우의 수 / 전체 경우의 수 상호배반(mutually exclusive)두 사건의 교집합이 0일때, 즉 두 개의 사건은 서로 독립적일 경우이다. 교차(intersect)두 사건의 교집합이 존재한다. 즉 두 사건이 동시에 발생할 수 있다. 조건부확률(conditional probabilities)어떤 사건이 다른 사건의 발생을 조건으로 일어나는 확률을 의미한다.'사건 B가 주어졌을 때 사건 A가 일어날 확률' 전확률의 법칙(Law of Total Probability) .. 더보기
3. 변이와 분포 측정하기 범위 범위는 값들이 분포되어 있는 방식을 측정하는 방법으로, 다음과 같이 계산합니다.상한 - 하한상한은 가장 큰 값이고 하한은 가장 작은 값입니다. 사분위수(quartile) 데이터를 네 조각으로 나누는 값입니다. 값이 가장 작은 사분위수는 하한 사분위수이고, 값이 가장 큰 사분위수는 상한 사분위수입니다.가운데에 있는 사분위수는 중앙값입니다. 사분범위(interquartile range, IQR) 이상치에 덜 민감한 '미니'범위를 의미합니다. 상한 사분위수 - 하한 사분위수를 계산해서 찾습니다. 하한 사분위수 위치 찾기 1. 우선 n /4를 계산합니다.2. 만약 결과가 정수면 하한 사분위수의 위치는 이 정수 위치의 값과 그 다음에 오는 값 사이가 됩니다. 두 값의 평균값을 구하면 하한 사분위수를 얻을 수.. 더보기
2. 중심적 경향 측정하기 평균(average) 평균값(mean) , 이상치(outlier) 다른 데이터에 비해 눈에 뜨일 정도로 지나치게 높거나 낮은 값. 편향(skewed)된 데이터 이상치가 데이터를 오른쪽이나 왼쪽으로 '잡아끄는' 경우. 중앙값(median) 가운데에 있는 값. 모든 값을 나열하여 가운데에 있는 값을 고른다. 만약 데이터의 개수가 짝수면 가운데에 있는 두 수의 평균값을 취한다. 중앙값을 구하는 3단계1. 작은 수에서 큰 수 순으로 나열합니다.2. 홀수 개의 수가 있으면 중앙값은 한가운데 있는 수입니다. 만약 n개의 수가 있다고 하면 중앙값의 위치는 (n+1)/2 입니다.3. 짝수 개의 수가 있으면 가운데에 있는 두 수를 서로 더한 다음에 2로 나눕니다. 가운데 위치는 (n+1)/2를 계산하면 찾을 수 있습니다.. 더보기
1. 정보의 시각화 통계란? 통계는 날것 그대로의 사실과 숫자를 뭔가 의미 있는 방식으로 정리해 주는 수입니다. 통계는 날것 그대로의 데이터를 겉으로 보는 것만으로는 제대로 파악할 수 없는 핵심적인 내용을 볼 수 있도록 해줍니다. 여기서 데이터란 어떤 결론을 도출하는 데 사용할 수 있는 사실이나 숫자를 의미합니다. 도수(frequency) 도수는 어떤 특정한 그룹이나 범위 안에 얼마나 많은 항목이 들어 있는니 나타내는 값입니다. 항목의 수를 센 값이죠. 범주적(categorical) 데이터 일정한 범주로 나누어진 다음에 각 범주의 성질이나 특성을 묘사한다. 정성적(qualitative) 데이터 정성적 데이터의 예로는 게임 장르가 있습니다. 각 장르는 하나의 독자적인 범주를 구성합니다. 더보기