1주차
1. 데이터 분석에서 통계가 중요한 이유는 무엇인가요? 다음 보기 중에서 옳지 않은 것을 고르세요
1) 통계는 데이터를 이해하고 해석하는 데 도움을 준다.
2) 통계는 데이터에서 패턴을 발견하고 미래를 예측하는 도구를 제공한다.
3) 통계는 모든 데이터 분석 결과가 항상 정확하고 확실하다는 것을 보장한다
4) 통계는 복잡한 데이터를 간단한 요약 정보로 변환할 수 있다.
2. 다음 중 기술통계(Descriptive Statistics)에 해당하는 것은 무엇인가요? 2번
1) 모집단의 평균을 추정하는 것
2) 데이터의 중앙값을 계산하는 것
3) 표본을 통해 모집단의 특성을 추론하는 것
4) 가설을 검증하는 것
3. 다음 중 추론통계(Inferential Statistics)에 해당하는 것은 무엇인가요? 4번 → 3번
1) 데이터의 범위를 계산하는 것
2) 데이터의 분산을 계산하는 것
3) 표본을 기반으로 모집단의 평균을 추정하는 것
4) 데이터의 최빈값을 계산하는 것
4. 어느 학교의 학생들 10명의 수학 점수는 다음과 같습니다:
78, 82, 85, 88, 90, 92, 94, 96, 98, 100. 이 데이터의 평균을 구하세요.
math=[78,82,85,88,90,92,94,96,98,100]
np.mean(math)
90.3
5. 4번 문제의 학생 수학 점수의 중앙값을 구하세요.
np.median(math)
91.0
6. 4번 문제의 학생 수학 점수 데이터의 범위(Range)를 구하세요.
range=max(math)-min(math)
print(range)
22
7. 학생들의 수학 점수와 영어 점수가 각각 다음과 같을 때, 두 변수 간의 상관관계가 양의 상관관계인지, 음의 상관관계인지, 상관관계가 없는지 설명하고 그 이유를 얘기하세요.
a. 수학 점수: 78, 82, 85, 88, 90, 92, 94, 96, 98, 100.
b. 영어 점수: 70, 75, 80, 85, 85, 90, 90, 95, 95, 100.
a_math=[78,82,85,88,90,92,94,96,98,100]
b_eng=[70,75,80,85,85,90,90,95,95,100]
df=pd.DataFrame(a_math,b_eng)
import seaborn as sns
df.corr()
1
양의 상관관계를 가지며 수학점수가 증가할 때 영어점수도 증가하는 경향을 보임
8. 다음 중 인과관계(Causation)와 상관관계(Correlation)의 차이에 대한 설명으로 옳은 것은 무엇인가요?
1) 상관관계는 두 변수 간의 원인과 결과를 나타내고, 인과관계는 단순한 관계를 나타낸다.
2) 인과관계는 두 변수 간의 원인과 결과를 나타내고, 상관관계는 두 변수 간의 관계가 있지만
원인과 결과를 나타내지 않는다.
3) 상관관계와 인과관계는 동일한 개념이다.
4) 인과관계는 두 변수 간의 단순한 관계를 나타내고, 상관관계는 두 변수 간의 원인과 결과를 나타낸다.
2주차
1. 모집단(population)과 표본(sample)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 모집단은 연구 대상 전체를 의미하고, 표본은 모집단의 일부를 의미한다.
- 모집단은 표본의 일부이며, 표본은 모집단 전체를 의미한다.
- 모집단과 표본은 같은 의미를 가진다.
- 모집단은 표본보다 항상 작다.
2. 어떤 표본의 평균이 50이고, 표본 표준편차가 10인 경우, 95% 신뢰구간을 구하세요. (표본 크기는 25로 가정)
- 95% 신뢰구간은 표본 평균 ± (1.96 * 표본 표준오차)로 계산됩니다.
- 표본 표준오차는 표준편차를 표본 크기의 제곱근으로 나눈 값입니다.
m=50
s=10
n=25
lower=m-1.96*(s/(n**(1/2)))
upper=m+1.96*(s/(n**(1/2)))
print(f'신뢰구간의 크기는 {lower} ~ {upper} 입니다')
신뢰구간의 크기는 46.08 ~ 53.92 입니다
3. 다음 중 정규분포에 해당하는 데이터의 분포를 나타내는 그래프의 모양은 무엇인가요?
- U자형
- 종 모양
- 지수 감소형
- 선형
4. 정규분포에서 평균과 표준편차에 대한 설명으로 옳은 것을 고르세요.
- 평균은 분포의 중앙값과 항상 다르다.
- 표준편차는 데이터의 퍼짐 정도를 나타낸다.
- 평균이 커지면 분포는 좁아진다.
- 표준편차가 작아지면 분포는 넓어진다.
5. 긴 꼬리 분포(Long Tail Distribution)의 특징으로 옳지 않은 것을 고르세요.
- 데이터의 대부분이 낮은 빈도 값을 갖는다.
- 꼬리 부분에 많은 데이터가 분포되어 있다.
- 꼬리가 길어질수록 정규분포에 가까워진다.
일부 항목이 매우 높은 빈도 값을 가진다.
6. 스튜던트 t 분포를 사용하는 이유는 무엇인가요?
(스튜던트 t분포는 표본크기가 작고, 모집단 표준편차를 모를때)
- 표본 크기가 작을 때 사용한다.
- 모집단이 정규분포가 아닐 때 사용한다.
- 모집단 표준편차를 알 때 사용한다.
- 모집단 평균을 알 때 사용한다.
7. 카이제곱분포(Chi-Square Distribution)는 주로 어떤 분석에 사용되나요?
(카이제곱분포는 주로 범주형 데이터의 독립성 검정에 사용)
- 두 변수 간의 상관관계 분석
평균 간의 차이 분석- 범주형 데이터의 독립성 검정
- 연속형 데이터의 분포 분석
8. 동전 던지기를 10번 했을 때, 앞면이 6번 나올 확률을 구할 때 사용하는 분포는 무엇인가요?
- 정규분포
- 이항분포
- 푸아송분포
- 카이제곱분포
9. 어느 병원에서 1시간 동안 평균 3명의 환자가 도착한다고 할 때, 1시간 동안 5명의 환자가 도착할 확률을 구할 때 사용하는 분포는 무엇인가요?
(푸아송분포는 특정 시간 및 공간에 대한 분포를 나타내고자 할 때 사용)
- 정규분포
- 이항분포
- 푸아송분포
- 스튜던트 t 분포
3주차
1. 가설검정에서 사용되는 주요 개념 중 하나인 p-value의 의미를 설명하세요.
p-value는 가설검정에서 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률을 의미합니다
따라서 p-value가 유의수준보다 낮다는 것은 귀무가설이 참일 가능성이 우리가 유의하는 수준보다 굉장히 낮다는 의미가 됩니다.
- p-value는 두 그룹 간의 평균 차이를 나타낸다.
- p-value는 귀무가설이 참일 때, 관찰된 데이터 또는 더 극단적인 데이터가 나타날 확률이다.
- p-value는 두 그룹 간의 표준편차를 나타낸다.
- p-value는 실험 그룹의 크기를 나타낸다.
2. 가설검정에서 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
- 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
- 귀무가설과 대립가설은 동일한 개념이다.
- 귀무가설은 대립가설의 반대를 나타낸다.
3. 두 그룹의 평균이 서로 다른지 비교하기 위해 사용되는 t검정의 종류는 무엇인가요?
독립 표본 t검정은 두 개의 독립된 그룹 간의 평균을 비교할 때 사용되며, 대응 표본 t검정은 같은 그룹의 두 시점(사전/사후) 간 평균을 비교할 때 사용됩니다.
- 독립 표본 t검정
대응 표본 t검정- 분산 분석
- 카이제곱검정
4. 다중검정에서 발생할 수 있는 문제점은 무엇인가요?
- 표본의 크기가 작아진다.
- 한 번의 검정에서 제 1종 오류가 발생할 확률이 감소한다.
- 여러 번의 검정을 수행할 때, 전체 실험에서 제 1종 오류가 발생할 확률이 증가한다.
- 한 번의 검정에서 제 2종 오류가 발생할 확률이 증가한다.
5. 카이제곱검정은 주로 어떤 데이터를 분석할 때 사용되나요?
- 연속형 데이터
- 범주형 데이터
- 비율 데이터
- 순서형 데이터
6. 제 1종 오류(Type I error)와 제 2종 오류(Type II error)의 차이에 대한 설명으로 옳은 것을 고르세요.
- 제 1종 오류는 귀무가설이 참인데 기각하는 오류이고, 제 2종 오류는 대립가설이 참인데 기각하는 오류이다.
- 제 1종 오류는 대립가설이 참인데 기각하는 오류이고, 제 2종 오류는 귀무가설이 참인데 기각하는 오류이다.
- 제 1종 오류와 제 2종 오류는 동일한 개념이다.
- 제 1종 오류는 표본 크기와 관련이 없고, 제 2종 오류는 표본 크기와 관련이 있다.
4주차
1. 단순선형회귀 모델에서 독립변수 X와 종속변수 Y의 관계를 설명하는 회귀 직선의 방정식은 무엇인가요?
1)번
2. 다중선형회귀 모델에서 다음 중 올바른 회귀 방정식을 고르세요.
1)번
3. 다항회귀 모델에서 독립변수가 한 개이고 X와 Y의 관계가 비선형(2차)일 때, 회귀 방정식의 형태로 올바른 것을 고르세요.
1)번
4. 스플라인 회귀는 주로 어떤 문제를 해결하기 위해 사용되나요?
스플라인 회귀는 데이터의 복잡한 비선형적 관계(특히, 시간에 따라 비선형관계가 계속 바뀌는)를 모델링하기 위해 사용됩니다. 이를 통해 독립변수와 종속변수 간의 비선형적 패턴을 더 잘 설명할 수 있습니다.
- 변수 간의 상관관계를 분석하기 위해
- 데이터의 복잡한 비선형적 관계를 모델링하기 위해
- 두 그룹 간의 평균 차이를 비교하기 위해
- 범주형 변수를 처리하기 위해
5주차
1. 피어슨 상관계수(Pearson correlation coefficient)의 의미를 설명하세요.
- 두 변수 간의 비선형 관계를 측정한다.
- 두 변수 간의 선형 관계를 측정한다.
- 두 변수 간의 독립성을 측정한다.
- 두 변수 간의 비모수 관계를 측정한다.
2. 비모수 상관계수(non-parametric correlation coefficient)의 대표적인 예로 옳지 않은 것을 고르세요.
비모수 상관계수는 데이터의 분포에 대한 가정을 하지 않는 상관계수입니다. 스피어만 상관계수와 켄달의 타우 상관계수가 비모수 상관계수의 예입니다.
- 피어슨 상관계수
- 스피어만 상관계수
- 켄달의 타우 상관계수
- 정답 없음
3. 상호정보(Mutual Information) 상관계수의 의미를 설명하는 것을 모두 고르세요.
상호정보 상관계수는 두 변수 간의 비선형 관계를 측정하며, 상호 정보를 통해 두 변수 간의 상관성을 평가합니다.
- 두 변수 간의 선형 관계를 측정한다.
- 두 변수 간의 비선형 관계를 측정한다.
- 두 변수 간의 상호 정보를 측정한다.
- 두 변수 간의 독립성을 측정한다.
'TIL' 카테고리의 다른 글
240809 TIL / recursive CTE 관련 (0) | 2024.08.09 |
---|---|
240807 TIL (0) | 2024.08.07 |
240805 TIL (0) | 2024.08.05 |
240802 TIL (SQL With, 통계 분포에 대해) (0) | 2024.08.02 |
240801 TIL (0) | 2024.08.01 |