Statistics Midterm Exam
Statistics Midterm Exam
[toc]
통계학 중간고사 정리
1. 기본용어 정리
용어 | 설명 |
---|---|
실험단위 | 사물, 사람 등 자료를 수집하는 실험 대상인 객체 |
모집단 | 실험단위의 전체 집합 |
변수 | 모집단의 특성이나 성질 |
표본 | 모집단의 부분집합(Ex. 대한민국 20대 남성 중 혈당량이 평균 이상인 사람 1000명 )(모집단 : 대한민국 20대 남성, 표본 : 그 중 1000명) |
평균(µ) | 모집단에 속하는 모든 값을 모집단의 크기로 나눈 것 |
편차 | 관측값과 평균의 차이, 편차의 합은 0이다 |
분산(𝛔^2) | 편차의 제곱합을 모집단의 크기로 나눈 것 |
표준편차(𝛔 = √𝛔^2) | 변동성을 나타냄(자료가 평균으로 부터 떨어진 정도) |
- 분산과 표준편차가 작으면 자료의 변동성 낮다.(반대로 높으면 변동성 또한 커진다.)
2. 일변수 기술통계
- 자료의 척도
- 통계에서 사용하는 자료는 명목척도(norminal scale(), 순서척도(ordinal scale), 비척도(ratio scale)이 있다.
명목척도
- 순서가 없는 자료의 척도,
집단(group, category)
을 표현한다. - 자료를 어떠한 조건을 기준으로 나눈 것
- 순서가 없는 자료의 척도,
순서척도
- 자료들 사이에서 순서는 있지만,
값들의 차이를 측정할 수 없는 자료의 척도
이다. - 주관적인 선호도가 그 예시임
- 매우 좋음 < 좋음 < 보통 < 나쁨 < 매우 나쁨
- 자료들 사이에서 순서는 있지만,
비척도
- 0이 물리적인 0을 의미한다.
- 차이와 비를 측정할 수 있다.
- 차이와 비가 물리적인 의미를 갖는 척도이다.
- 혈압, 혈당 등과 같은
연속값
들이 여기에 속한다.
위 세가지 척도로 측정된 자료는 자료는 크게
집단을 표현하는 범주형 자료
와집단을 표현하지 않는 연속형 자료
로 구분된다.- 명목척도는 집단을 표현하는 범주형 자료에 속한다.
- 순서척도는 경우에 따라서 범주형 자료로 처리하기도 하고, 연속형 자료로 처리하기도 한다.
- 연속형 자료로 구분하면 추이나 경향을 나타냄(순서척도의 예시를 보면서 생각)
- 비척도는 연속형 자료에 해당한다
분포
자료의 분포를 표현하는 방법으로는 표와 그래프가 있다.
이들은 자료의 척도에 따라 달라진다.
범주형
: 빈도표, 상대빈도표, 막대그래프, 원그래프 => 모두 범주화(분류) 되어있다.연속형
: 구간에 대한 빈도표, 상대빈도표, 히스토그램, 상자도표
R 연습
1 2 3 4 5 6
# 자료 rep('A', 34) rep('B', 46) rep('C', 14) x <- c(rep('A', 34), rep('B', 46), rep('C', 14)) x
1 2 3 4 5 6 7 8 9 10
# 빈도표 my.table <- table(x) my.table # 막대그래프 그리기 barplot(my.table, space=0.1) # 빈도가 막대의 높이 # 원그래프 그리기 lb <- c('A', 'B', 'C') pie(my.table, lb)
1 2 3 4 5 6
# 상대빈도표 my.ptable <- prop.table(my.table) my.ptable # 상대빈도표로 막대그래프 그리기 barplot(my.ptable, space=0.1) # 상대빈도가 막대의 높이
1 2 3 4 5 6 7
mean(x) # 평균 median(x) # 중앙값 var(x) # 분산 sd(x) # 표준편차 quantile(x) # Q1, Q2, Q3 IQR(x) # IQR = Q3 - Q1 range(x) # 범위 = (min, max)
R 실습1
1
R mtcars 의 hp(마력) (표 2.4)를 이용하여 얻은 32 대 자동차의 마력의 분포를 알아보자. 마력은 연속형 자료이므로 상대빈도표(표 1.4)와 히스토그램(그림 2.3)을 구하자.
1 2 3 4 5
# 자료 x <- mtcars$hp # mtcars에서 hp 자료를 가져옴 # 히스토그램 그리기1(자동 그리기) hist(x)
1 2 3 4 5
# 상대빈도표를 이용해서 히스토그램 그리기(구간 나눠서 그리기) x.freq <- cut(x, break = 6) # 6개의 계급구간을 정함 x.table <- table(x.freq) # 빈도표 생성 x.p.table <- prop.table(x.table) # 상대빈도표 생성 barplot(x.p.table, space=0.01) # 내가 정한 6개의 구간을 가지는 히스토그램 생성
함수 의미 mean(x) 평균(표본의 값의 합 나누기 표본의 크기) median(x) 중앙값(표본의 크기가 홀수면 가운데 값, 짝수면 가운데 두 값의 평균) var(x) 분산(편차의 제곱합을 n-1로 나눈 값) sd(x) 표준편차(전체합 - 평균) quantile(x) Q1(25%), Q2(50%), Q3(75%) IQR(x) IQR = Q3 - Q1 range(x) 범위 = (min, max) R 실습2
1
R mtcars 에서 hp(표 2.6)의 기술통계량에 해당하는 평균, 분산, 표준편차, 범위, 사분위수, 사분위수범위를 계산해보자. 32 대 자동차들의 평균 마력은 146.7 이고, 표준편차는 약 69 이며, 범위는 (52,335)이다. 그림 2.5 상자도표에서𝑄1=96.5,𝑄2=123,𝑄3=180이고, 𝐼𝑄𝑅=83.5이다. 위쪽 수염 끝에 마력이 335 인 이상치가 동그라미로 표시되어 있다. 먼저 𝑄3+1.5∗𝐼𝑄𝑅=305.25를 계산하여, 자료 중에서 305.25 보다 큰 값을 찾자.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
# 데이터 x <- mtcars$hp # 평균 mean(x) # 분산 var(x) # 표쥰편차 sd(x) # 범위 range(x) # (52, 335) # 사분위수 quantile(x) # (𝑄1 = 96.5,𝑄2 = 123,𝑄3 = 180 # 사분위수 범위 IQR(x) # (Q3 - Q1(180 - 96.5)) # 이상치 # 335 > 𝑄3 + 1.5 ∗ 𝐼𝑄𝑅 = 180 + 1.5 ∗ 83.5 = 305.25
연습문제 풀이
1 2 3 4 5 6 7 8
x <- mtcars$cyl x x.table <- table(x) x.table x.p.table <- prop.table(x.table) x.p.table barplot(x.table) pie(x.table)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
iris x <- iris[1:50, 1] x mean(x) var(x) sd(x) median(x) max(x) min(x) range(x) quantile(x) IQR(x) boxplot(x) hist(x, main="히스토그램")
1 2 3 4
x <- c(4,4,5,6,7) x mean(x) sd(x)
- 시간 문제로 완성 못하고 따로 공부함
- 모든 이미지는 홍익대학교 최경미 교수님의 교재에서 참고함