Post

Statistics Midterm Exam

Statistics Midterm Exam

[toc]

통계학 중간고사 정리

1. 기본용어 정리

용어설명
실험단위사물, 사람 등 자료를 수집하는 실험 대상인 객체
모집단실험단위의 전체 집합
변수모집단의 특성이나 성질
표본모집단의 부분집합(Ex. 대한민국 20대 남성 중 혈당량이 평균 이상인 사람 1000명 )(모집단 : 대한민국 20대 남성, 표본 : 그 중 1000명)
평균(µ)모집단에 속하는 모든 값을 모집단의 크기로 나눈 것
편차관측값과 평균의 차이, 편차의 합은 0이다
분산(𝛔^2)편차의 제곱합을 모집단의 크기로 나눈 것
표준편차(𝛔 = √𝛔^2)변동성을 나타냄(자료가 평균으로 부터 떨어진 정도)
  • 분산과 표준편차가 작으면 자료의 변동성 낮다.(반대로 높으면 변동성 또한 커진다.)

2. 일변수 기술통계

  1. 자료의 척도
    • 통계에서 사용하는 자료는 명목척도(norminal scale(), 순서척도(ordinal scale), 비척도(ratio scale)이 있다.
  2. 명목척도
    • 순서가 없는 자료의 척도, 집단(group, category)을 표현한다.
    • 자료를 어떠한 조건을 기준으로 나눈 것
  3. 순서척도
    • 자료들 사이에서 순서는 있지만, 값들의 차이를 측정할 수 없는 자료의 척도이다.
    • 주관적인 선호도가 그 예시임
      • 매우 좋음 < 좋음 < 보통 < 나쁨 < 매우 나쁨
  4. 비척도
    • 0이 물리적인 0을 의미한다.
    • 차이와 비를 측정할 수 있다.
    • 차이와 비가 물리적인 의미를 갖는 척도이다.
    • 혈압, 혈당 등과 같은 연속값들이 여기에 속한다.
  • 위 세가지 척도로 측정된 자료는 자료는 크게 집단을 표현하는 범주형 자료집단을 표현하지 않는 연속형 자료로 구분된다.

    • 명목척도는 집단을 표현하는 범주형 자료에 속한다.
    • 순서척도는 경우에 따라서 범주형 자료로 처리하기도 하고, 연속형 자료로 처리하기도 한다.
      • 연속형 자료로 구분하면 추이나 경향을 나타냄(순서척도의 예시를 보면서 생각)
    • 비척도는 연속형 자료에 해당한다
  • 분포

    • 자료의 분포를 표현하는 방법으로는 표와 그래프가 있다.

    • 이들은 자료의 척도에 따라 달라진다.

      • 범주형 : 빈도표, 상대빈도표, 막대그래프, 원그래프 => 모두 범주화(분류) 되어있다.
        • 연속형 : 구간에 대한 빈도표, 상대빈도표, 히스토그램, 상자도표
  • R 연습

    2.3

    1
    2
    3
    4
    5
    6
    
    # 자료
    rep('A', 34)
    rep('B', 46)
    rep('C', 14)
    x <- c(rep('A', 34), rep('B', 46), rep('C', 14))
    x
    
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    
    # 빈도표
    my.table <- table(x)
    my.table
      
    # 막대그래프 그리기
    barplot(my.table, space=0.1) # 빈도가 막대의 높이
      
    # 원그래프 그리기
    lb <- c('A', 'B', 'C')
    pie(my.table, lb)
    
    1
    2
    3
    4
    5
    6
    
    # 상대빈도표
    my.ptable <- prop.table(my.table)
    my.ptable
      
    # 상대빈도표로 막대그래프 그리기
    barplot(my.ptable, space=0.1) # 상대빈도가 막대의 높이
    
    1
    2
    3
    4
    5
    6
    7
    
    mean(x) # 평균
    median(x) # 중앙값
    var(x) # 분산 
    sd(x) # 표준편차
    quantile(x) # Q1, Q2, Q3
    IQR(x) # IQR = Q3 - Q1
    range(x) # 범위 = (min, max)
    
  • R 실습1

    1
    
    R mtcars 의 hp(마력) (표 2.4)를 이용하여 얻은 32 대 자동차의 마력의 분포를 알아보자. 마력은 연속형 자료이므로 상대빈도표(표 1.4)와 히스토그램(그림 2.3)을 구하자.
    
    1
    2
    3
    4
    5
    
    # 자료
    x <- mtcars$hp # mtcars에서 hp 자료를 가져옴
      
    # 히스토그램 그리기1(자동 그리기)
    hist(x)
    
    1
    2
    3
    4
    5
    
    # 상대빈도표를 이용해서 히스토그램 그리기(구간 나눠서 그리기)
    x.freq <- cut(x, break = 6) # 6개의 계급구간을 정함
    x.table <- table(x.freq) # 빈도표 생성
    x.p.table <- prop.table(x.table) # 상대빈도표 생성
    barplot(x.p.table, space=0.01) # 내가 정한 6개의 구간을 가지는 히스토그램 생성
    
    함수의미
    mean(x)평균(표본의 값의 합 나누기 표본의 크기)
    median(x)중앙값(표본의 크기가 홀수면 가운데 값, 짝수면 가운데 두 값의 평균)
    var(x)분산(편차의 제곱합을 n-1로 나눈 값)
    sd(x)표준편차(전체합 - 평균)
    quantile(x)Q1(25%), Q2(50%), Q3(75%)
    IQR(x)IQR = Q3 - Q1
    range(x)범위 = (min, max)
  • R 실습2

    1
    
    R mtcars 에서 hp(표 2.6)의 기술통계량에 해당하는 평균, 분산, 표준편차, 범위, 사분위수, 사분위수범위를 계산해보자. 32 대 자동차들의 평균 마력은 146.7 이고, 표준편차는 약 69 이며, 범위는 (52,335)이다. 그림 2.5 상자도표에서𝑄1=96.5,𝑄2=123,𝑄3=180이고, 𝐼𝑄𝑅=83.5이다. 위쪽 수염 끝에 마력이 335 인 이상치가 동그라미로 표시되어 있다. 먼저 𝑄3+1.5∗𝐼𝑄𝑅=305.25를 계산하여, 자료 중에서 305.25 보다 큰 값을 찾자.
    
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    
    # 데이터
    x <- mtcars$hp
    # 평균
    mean(x)
    # 분산
    var(x)
    # 표쥰편차
    sd(x)
    # 범위
    range(x)  # (52, 335)
    # 사분위수
    quantile(x)  # (𝑄1 = 96.5,𝑄2 = 123,𝑄3 = 180
    # 사분위수 범위
    IQR(x)  # (Q3 - Q1(180 - 96.5))
    # 이상치
    # 335 > 𝑄3 + 1.5 ∗ 𝐼𝑄𝑅 = 180 + 1.5 ∗ 83.5 = 305.25
    

연습문제 풀이

  1. 이미지

    1
    2
    3
    4
    5
    6
    7
    8
    
    x <- mtcars$cyl
    x
    x.table <- table(x)
    x.table
    x.p.table <- prop.table(x.table)
    x.p.table
    barplot(x.table)
    pie(x.table)
    
  2. 이미지

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    
    iris
    x <- iris[1:50, 1]
    x
    mean(x)
    var(x)
    sd(x)
    median(x)
    max(x)
    min(x)
    range(x)
    quantile(x)
    IQR(x)
       
    boxplot(x)
    hist(x, main="히스토그램")
    
  3. 이미지

    1
    2
    3
    4
    
    x <- c(4,4,5,6,7)
    x
    mean(x)
    sd(x)
    

  • 시간 문제로 완성 못하고 따로 공부함
  • 모든 이미지는 홍익대학교 최경미 교수님의 교재에서 참고함