본문 바로가기
프로그래밍/AI

통계학(4) 변수와 척도(Variables & Scales)

by slowin 2024. 12. 2.

강사님: 오영석강사님

변수와 척도(Variables & Scales)

1. 변수(Variables)

정의

  • 관찰이나 측정에서 값이 달라질 수 있는 속성이나 특성.

종류

  1. 독립변수 (Independent Variable):
    • 다른 변수에 영향을 주는 변수.
    • 실험에서 조작되는 변수.
    • 예: 약물 실험에서 복용량.
  2. 종속변수 (Dependent Variable):
    • 독립변수에 의해 영향을 받는 변수.
    • 측정되거나 관찰되는 값.
    • 예: 치료 효과, 반응 속도.
  3. 통제변수 (Control Variable):
    • 실험에서 일정하게 유지되는 변수.
    • 예: 실험 환경(온도, 습도 등).
  4. 질적 변수 (Qualitative Variable):
    • 수치가 아닌 범주나 특성을 나타내는 변수.
    • 명목 척도(순서 없음): 성별, 혈액형.
    • 서열 척도(순서 있음): 학위, 만족도.
  5. 연속 변수 (Continuous Variable):
    • 특정 구간 내 모든 실수 값을 가질 수 있음.
    • 예: 키, 몸무게, 온도.
  6. 비연속 변수 (Discrete Variable):
    • 정수 값만 가질 수 있음.
    • 예: 학생 수, 동전 앞면 횟수.

2. 척도(Scales of Measurement)

정의

  • 데이터를 측정하고 분석하는 방식.

종류

  1. 명목 척도 (Nominal Scale):
    • 이름이나 범주만 나타냄. 순서 없음.
    • 예: 성별, 혈액형.
  2. 서열 척도 (Ordinal Scale):
    • 순서 존재, 간격 일정하지 않음.
    • 예: 만족도, 학년.
  3. 등간 척도 (Interval Scale):
    • 간격 일정, 절대적 0 없음.
    • 예: 온도(IQ 점수).
  4. 비율 척도 (Ratio Scale):
    • 간격 일정, 절대적 0 있음.
    • 예: 무게, 키, 소득.

모집단과 표본(Population & Sample)

1. 모집단(Population)

  • 연구 대상이 되는 전체 집합.
  • 특징을 나타내는 값: 모수(Parameter).
  • 예: 국가의 모든 시민, 학교의 모든 학생.

2. 표본(Sample)

  • 모집단에서 선택된 일부 데이터 집합.
  • 모집단 특성을 추정하는 데 사용.
  • 특징:
    • 표본오차: 모집단 전체를 포함하지 않아 발생하는 오차.

표본추출(Sampling)

확률적 표본추출

  • 모든 구성원이 동일한 확률로 선택될 기회를 가짐.
  • 방법:
    • 단순 무작위 추출(Simple Random Sampling).
    • 체계적 추출(Systematic Sampling).
    • 층화 추출(Stratified Sampling).
    • 군집 추출(Cluster Sampling).

비확률적 표본추출

  • 구성원이 동일한 확률로 선택될 보장이 없음.
  • 방법:
    • 편의 표본추출(Convenience Sampling).
    • 판단 표본추출(Judgmental Sampling).
    • 할당 표본추출(Quota Sampling).
    • 눈덩이 표본추출(Snowball Sampling).

데이터 표현 및 기술 통계

1. 기술 통계(Descriptive Statistics)

  • 수집된 데이터를 요약하고 정리.

코드 예제

import pandas as pd

df = pd.read_csv("gapminder.tsv", sep="\t")

# 특정 열 추출
df['continent']

# 행 선택
df.loc[0]
df.iloc[0]

도수분포표 생성

frequency_table = df.groupby('year')['pop'].sum().reset_index()
frequency_table

배운 점 및 마무리

이번 학습을 통해 데이터의 변수와 척도를 명확히 이해하였으며, 데이터 수집 및 표본 추출 방법에 대해 심화 학습할 수 있었다.