ADsP 스터디 모임 2주차 [3과목_4장_질문 정리]
일자: 2023.02.04 (스터디 D-DAY) 발표 내용: 3과목 4장. 통계 분석 오늘 목표: 기출문제 풀이 + 질문할 문제 정리 |
3과목 | 4장
41번
Default 데이터셋 10,000명의 신용카드 고객, 데이터셋에 대한 연체여부(1=default, 0=not default), 카드대금 납입 후 남은 평균 카드잔고(balance), 연봉(income)을 포함하고 있다. 아래는 연체 가능성을 95% 신뢰수준으로 모형화한 결과이다. 설명이 부적절한 것은?
> model<-glm(default~balance+income, data=Default, family="binomial")
> summary(model)
Call:
glm(formula = default ~ balance+income, family = "binomial", data = Default)
~생략~
Coeffients:
Estimate Std. Error z-Value Pr(>|z|)
(Intercept) -1.154e+01 4.348e-01 -26.545 < 2e-16 ***
balance 5.647e-03 2.274e-04 24.836 < 2e-16 ***
income 2.081e-05 4.985e-06 4.174 2.99e-05 ***
---
~생략~
● 선형식: p(r=1)=1/(1+e-(-11.54+0.0056*balance+0.00002*income)
default=-11.54+0.0056*balance+0.00002*income
① 로지스틱 회귀모형의 적합 결과이다. → family="binomial"
② balance는 default를 설명하는 데 통계적으로 유의하다. → balance의 P-value=2e-16***
③ balance가 높을수록 default 가능성이 높다. → 회귀계수가 양수이므로 맞다.
④ income이 높을수록 default 가능성이 낮다. → 회귀계수가 작긴 하지만 양수이므로 가능성이 높아진다.
♨ R데이터 함수 복습:
R함수 | 의미 | 해석 예시 |
str() | 데이터 구조, 변수 개수, 변수 명, 관찰치 개수, 관찰치의 미리보기 데이터 셋 탐색을 위해 제일 처음 해보면 좋을 유용한 함수입니다. |
> str(colon) 'data frame': 1858 ods. of 06 variables: # 'colon'가 1858개의 관측치, 6개의 변수로 되어있는 데이터 프레임. # 아래는 상위 10개의 관측치(변수명과 변수들의 유형) |
head(), tail() |
상위 6개, 하위 6개 관측치 보기 |
♨ 자료 분석 방법 종류 복습:
- 돌깁변수, 종속변수에 따른 범주형 자료 분석 방법론은 아래와 같다
설명변수(독립변수) | 반응변수(종속변수) | 통계분석방법 |
범주형 자료 | 범주형 자료 | 분할표 분석 & 카이제곱 검정 |
연속형 자료 | t-검정 & 분산분석 | |
연속형 자료 | 범주형 자료 | 로지스틱 회귀분석 |
● 로지스틱 회귀분석(Logistic Regression):
- 로지스틱 회귀분석 함수 glm(모형, data, family="binominal")
▶glm()함수는 일반화선형모형(=정규분포를 따르지 않는 종속변수의 선형 모형), 로지스틱 or 포아송회귀
- 종속변수(반응변수)가 범주 데이터인 경우 활용하는 분석법
- 종속변수 y는 이항변수( 0 또는 1, 합격/불합격, 사망.생존 등)
- 로지스틱 회귀분석은 지도 학습에 해당, 특정 결과의 분류 및 예측에 활용된다.
53번
Data는 메이저리그에서 활약하는 263명의 선수에 대한 타자 기록으로 연복(salart)을 비롯한 17개의 변수를 포함하고 있다. 아래는 17개의 변수들을 사용하여 주성분분석을 시행한 결과이다. 다음 설명 중 잘못된 것은?
> pca=princomp(data,cor=TRUE)
summary(pca)
Importance of components:
Com.1 Com.2 Com.3 Com.4 … Com.17
Standard Deviation 2.7733 2.0302 1.3148 0.9575 … 3.466841e-02
Porportion of Var. 0.4524 0.2424 0.1016 0.0539 … 7.069994e-05
Cumulative Propo 0.4524 0.6949 0.7966 0.8505 … 1.000000e+00
① 최소 80% 이상의 분산 셜명력을 갖기 위해서는 4개 이상의 주성분을 사용해야 한다. → 4개 이상이어야 85% 이상
② 가장 큰 분산설명력을 가지는 주성분은 전체 분산의 45.25%를 설명한다. → 가장 주인 성분 Com.1(=0.4524)
③ 공분산행렬을 사용하여 주성분분석을 시행한 것이다. → 공분상(X) 상관행렬(O)
④ 17차원을 2차원으로 축소한다면 잃게 되는 정보량은 약 30.5%이다. → 100% - 69.5% = 30.5%
● 주성분 분석(Principal Component Analysis)(PCA):
- 상관관계가 높은 변수들을 요약하는 기법(선형기법), 회귀분석의 다중공선성(변수 상관관계) 문제 해결.
▶누적기여울 85%인 변수를 주성분으로 결정
▶Screen Plot에서 고윳값이 수평으로 유지되기 전 단계, 주성분의 수가 결정된다.
- 설문조사처럼 모든 변수들이 같은 수준으로 점수화가 된 경우, 공분산 행렬 활용 가능
- 변수들의 scale이 서로 많이 다른 경우, 특정 변수가 전체적으로 영향을 주기 때문에 상관계수 행렬 사용
♨ 공분산, 상관계수 개념:
공분산(cov) | - 자료의 두 변수A, B간 선형 관계의 크기를 측정하는 공분산(cov)은 A와 B가 어떤 방향성을 가졌는지 나타낸다.(음/양) |
상관계수(cor) | - 두 변수 간의 상관계수(cor)의 값은 연관성의 정도가 얼마나 강한지 나타낸다.(ex. 상관계수=-0.7 → 강한 음의 상관) - 상관계수가 0이면 입력변수 x와 출력변수 y 사이에는 아무런 관계가 없다. (귀무가설=0, 대립가설≠0) |
70번
시계열 모형의 여러 종류 중 아래에서 설명하는 것은?
가) 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형 나) 백색 잡음의 현재값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형 다) 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차,..., p차 등을 사용하나 정상시계열 모형은 주로 1,2차를 사용 |
Answer: (AR 모형)
♨ 시계열 분석 방법 中:
1. 일변량 시계열 분석 中 | Box Jenkins(ARMA): 지난 과거 시계열 데이터를 가장 잘 접합시키는 방법론 ARMA → AR + MA ▶ AR 모형(자기회귀모형): 자기상관성(이전 값이 현재 값에 영향을 미치는 상황)을 시계열 모형으로 배열한 것. - 현대의 데이터로 미래를 예측, 백색 잡음이 있다. ▶ MA 모형(이동 평균 모형): 시간이 흐를수록 변수의 평균값이 증가하거나 감소하는 상황에 대한 이동평균을 시계열 모형으로 배열한 것. - 1차, 2차 시점의 백색잡음의 평균으로 이뤄진 모형 |
AR 모형 ▷ ACF 빠르게 감소, PACF 절단점 존재 MA 모형 ▷ ACF 절단점 존재, PACF 빠르게 감소 |
*백색 잡음(White noise): 시계열 분석의 오차항의 의미.
72번
아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 교육수준(Education)과의 관계를 회귀모형으로 추정한 것이다. 아래의 결과를 사용하여 결정계수(R²)을 계산.
> out=lm(Fertilty~Education,data=swiss)
> anova(out)
Analysis of Variance Table
Response: Fertility
Df Sum Sq Mean Sq F-value Pr(>F)
Education 1 3162.7 3162.7 35.446 3.659e-07 ***
Residuals 45 4015.2 89.2
---
Answer: (0.441) → 3162.7 / 7176.7 = 0.44067 ≒ 0.441
*잔차(Rersiduals = Error): 모델을 맞춘 후에 남는 것. 시계열 모델에서 적합값(fitted value)과 관측값의 차이.
Mean Squared(Education) = SSR / 1 → 3162.7, SSR = 3162.7
Mean Squared(Rersiduals) = SSE / n-2 → 89.2 = SSE / 45 , SSE = 89.2*45 = 4014
SST = SSR+SSE = 3162.7 + 4014 = 7176.7
F-value = (SSR /1) / (SSE / n-2) → 3162.7 / 89.2 = 35.456 ≒ 35.446(?)
P.321 참고
● 결정계수(R²): SSR/SST 0≤R²≤1
- SST 전체제곱합 / SSR 회귀제곱합 / SSE 오차제곱합
● ANOVA: 각 데이터의 분산에 대한 해석
'데이터 공부 > ADsP' 카테고리의 다른 글
ADsP 기출문제 풀이 영상 [3과목] (0) | 2023.02.14 |
---|---|
ADsP 스터디 모임 2주차 발표 준비 [3과목_4장_1] (4) | 2023.02.04 |
ADsP 공부 1일차 (1) | 2023.01.04 |