눈 위에 발자국
article thumbnail

통계량

수집한 데이터로 계산을 수행하여 얻은 값

 

기술통계량, 요약통계량

데이터 그 자체의 성질을 기술하고 요약하는 통계량

 

대푯값(Representative value)

대략적인 분포의 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량

평균값, 중앙값, 최빈값이 있음

 

1️⃣ 평균값(Mean)

모집단의 평균은 (\(\mu)\)으로 표본평균은 (\(\bar{x}\))로 표현함

이상치(outlier)에 영향을 많이 받음

 

표본평균(\(\bar{x}\))

표본크기가 \(n\)인 양적 변수 표본 \(x_{1}, x_{2}, ... , x_{n}\)이 있을 때

\(\bar{x} = {{1} \over {n}} (x_{1} + x_{2}+ ... + x_{n}) = {{1} \over {n}} \sum_{i=1}^n x_{i} \)

 

2️⃣ 중앙값(Median)

크기 순으로 값을 정렬했을 때 한가운데 위치한 값

n이 짝수일 때는 가운데 값이 2개 이므로 두 값을 모두 중앙값으로 사용

이상치(outlier)에 민감하지 않음

 

모든 \(n\)개의 데이터를 오름차순으로 나열 후 \({(n+1)}\over{2}\) 번째의 데이터를 선택한다.

\(n\)이 짝수일 경우 -0.5, +0.5한 두 개의 값이 중앙값

 

ex.

1, 2, 3, 4, 5 일때 중앙값은 3

1, 2, 3, 4, 5, 6 일때 중앙값은 3, 4

 

3️⃣ 최빈값(Mode)

데이터 중 가장 자주 나타나는 값

모든 값이 동일하게 등장한다면 → 최빈값은 없음

2~3개의 최빈값은 유효하나 그 이상의 최빈값은 구하는 의미가 없음

 

 

 

[출처]

통계 101 X 데이터 분석, 아베 마사토, 2022

Statistics for Data Science and Business Analysis, 유데미