통계량
수집한 데이터로 계산을 수행하여 얻은 값
기술통계량, 요약통계량
데이터 그 자체의 성질을 기술하고 요약하는 통계량
대푯값(Representative value)
대략적인 분포의 위치, 즉 대표적인 값을 정량화하기 위해 사용하는 통계량
평균값, 중앙값, 최빈값이 있음
1️⃣ 평균값(Mean)
모집단의 평균은 (\(\mu)\)으로 표본평균은 (\(\bar{x}\))로 표현함
이상치(outlier)에 영향을 많이 받음
표본평균(\(\bar{x}\))
표본크기가 \(n\)인 양적 변수 표본 \(x_{1}, x_{2}, ... , x_{n}\)이 있을 때
\(\bar{x} = {{1} \over {n}} (x_{1} + x_{2}+ ... + x_{n}) = {{1} \over {n}} \sum_{i=1}^n x_{i} \)
2️⃣ 중앙값(Median)
크기 순으로 값을 정렬했을 때 한가운데 위치한 값
n이 짝수일 때는 가운데 값이 2개 이므로 두 값을 모두 중앙값으로 사용
이상치(outlier)에 민감하지 않음
모든 \(n\)개의 데이터를 오름차순으로 나열 후 \({(n+1)}\over{2}\) 번째의 데이터를 선택한다.
\(n\)이 짝수일 경우 -0.5, +0.5한 두 개의 값이 중앙값
ex.
1, 2, 3, 4, 5 일때 중앙값은 3
1, 2, 3, 4, 5, 6 일때 중앙값은 3, 4
3️⃣ 최빈값(Mode)
데이터 중 가장 자주 나타나는 값
모든 값이 동일하게 등장한다면 → 최빈값은 없음
2~3개의 최빈값은 유효하나 그 이상의 최빈값은 구하는 의미가 없음
[출처]
통계 101 X 데이터 분석, 아베 마사토, 2022
'통계' 카테고리의 다른 글
5. 분포 (2) 표본오차, 중심극한정리, 표준오차 (1) | 2023.11.08 |
---|---|
5. 분포 (1) 분포의 정의와 정규분포, 표준정규분포 (3) | 2023.11.08 |
4. 중심경향치, 비대칭, 산포도 (4) 공분산(Covariance), 상관계수(Correlation coefficient) (0) | 2023.10.19 |
4. 중심경향치, 비대칭, 산포도 (3) 분산, 표준편차, 변동계수 (1) | 2023.10.19 |
4. 중심경향치, 비대칭, 산포도 (2) 왜도(skewness) (0) | 2023.10.18 |
3. 기술통계의 기초 (1) 데이터의 유형 (0) | 2023.10.10 |
2. 모집단과 표본 (0) | 2023.10.05 |
1. 통계학이란? (0) | 2023.10.05 |