강사: 오영석강사님
분산 (Variance)
분산은 데이터가 평균으로부터 얼마나 흩어져 있는지를 나타내는 통계량입니다.
- 편차 (Deviation)
- 정의: 각 데이터 값에서 평균을 뺀 값.
- 수식: $$(x_i - \bar{x})$$
- 편차 제곱 (Squared Deviation)
- 정의: 편차의 제곱.
- 수식: $$(x_i - \bar{x})^2$$
- 편차 제곱합 (Sum of Squared Deviations)
- 정의: 모든 편차 제곱의 합.
- 수식: $$\sum (x_i - \bar{x})^2$$
- 분산 (Variance)
- 정의: 편차 제곱합을 데이터 개수로 나눈 값.
- 수식: $$\sigma^2 = \frac{\sum (x_i - \bar{x})^2}{n}$$
- 표준편차 (Standard Deviation)
- 정의: 분산의 제곱근으로, 원래 데이터 단위로 변환.
- 수식: $$\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}$$
표준편차 (Standard Deviation)
- 정의: 수치가 평균에서 얼마나 벗어났는지 측정하는 통계량.
- 수식: $$\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{n}}$$
공분산 행렬 (Covariance Matrix)
공분산 (Covariance)
- 정의: 두 변수 간의 관계를 나타내는 값.
- 양의 공분산: 두 변수가 같은 방향으로 변화 (한 변수가 증가하면 다른 변수도 증가).
- 음의 공분산: 두 변수가 반대 방향으로 변화 (한 변수가 증가하면 다른 변수는 감소).
- 0에 가까운 공분산: 두 변수 간 관계가 거의 없음.
- 수식: $$ \text{Cov}(X, Y) = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{n - 1} $$
각 데이터에서 평균을 뺀값(편차), 변수 X의 각 값이 평균에서 얼마나 떨어져 있는지 측정.
$$(x_i - \bar{x})$$
각 데이터 y 에서 평균뺀 값 (편차), 변수 $Y$의 각 값이 평균에서 얼마나 떨어져 있는지 측정.
$$(y_i - \bar{y})$$
두 편차의 곱: 두 변수 간의 연관성을 계산
$$(x_i - \bar{x})(y_i - \bar{y})$$
모든 데이터에 대해 편차 곱을 합산:
$$\sum$$
데이터 개수 n에서 1을 뺀 값으로 나누어 표본 공분산 계산:
$$\frac{\cdots}{n-1}$$
공분산 행렬 정의
- 여러 변수 간 공분산을 행렬로 표현.
- 수식: $$\Sigma = \frac{1}{n - 1} (X - \mu)^\top (X - \mu)$$
공분산 행렬 계산 예제
데이터
데이터 벡터:
$$x_1 = [1, 2, 3], x_2 = [2, 2, 4], x_3 = [1, 1, 2], x_4 = [0, 3, 3]$$
Step 1: 데이터 행렬 작성
Step 2: 평균 벡터 계산
Step 3: 중심화 (Centering)
Step 4: 공분산 행렬 계산
Step 5: 최종 공분산 행렬
마무리
오영석 강사님 강의를 통해 분산과 표준편차를 알아보고 공분산 예제까지 알아보았다.
'프로그래밍 > AI' 카테고리의 다른 글
해시 함수 와 해시충돌 (1) | 2024.12.11 |
---|---|
Computational Thinking (0) | 2024.12.06 |
통계학(5) 대푯값 분산도 가설검정 회귀분석 (0) | 2024.12.02 |
통계학(4) 변수와 척도(Variables & Scales) (1) | 2024.12.02 |
통계학(3) 통계적 확률 (1) | 2024.12.02 |