2023년 하반기 빅데이터분석기사 실기 문제
추천글 : 【빅데이터분석기사】 빅데이터분석기사 목차
※ 경험을 공유하는 수준에서 내용을 구성했습니다.
※ 파이썬보다는 R에서 훨씬 더 쉽게 계산할 수 있는 메트릭이 있었습니다 (e.g., residual deviance, R-squared, p-value).
※ 유형 2를 풀 때는 아래에서 제시한 단순 모형보다 체계적인 모델을 사용하기를 권장합니다. (알고보니 단순해도 유형 2 만점!)
※ 일반적으로 유형 1은 파이썬으로 풀기 좋고, 유형 2, 유형 3은 R로 풀기를 권장합니다.
1번 (유형 1, 10점)
⑴ 스코어에서 발생한 결측치 제거
⑵ 학생들이 가장 많이 듣는 과목에서 표준화 점수의 최댓값
⑶ 답 : 1.083
2번 (유형 1, 10점)
⑴ 특정 칼럼과 가장 상관계수가 큰 변수의 평균값
⑵ 답 : 4.809
3번 (유형 1, 10점)
⑴ 특정 칼럼 내 이상치의 개수
⑵ 답 : 224
4번 (유형 2, 40점)
⑴ 제주도 여행 매출 변수인 amount를 예측하는 모델 생성
⑵ RMSE로 평가한다고 함
⑶ 트레이닝 데이터를 절반 쪼개서 테스트 해볼 수도 있음
⑷ 다중선형회귀를 했을 경우 : cor = 0.55, RMSE = 16,000,000 정도 (단, 명목변수는 모델에 활용하지 않음)
⑸ 랜덤포레스트를 했을 경우 : cor = 0.70, RMSE = 14,000,000 정도
⑹ 참고로 amount 최댓값이 650,000,000 정도라 위 값들은 그나마 괜찮아 보임
5번 (유형 3, 15점)
⑴ 로지스틱 회귀 모형
⑵ 소문제 1번
① 조개 성별을 weight로 회귀했을 때 odds ratio를 계산 (210개 데이터 이용)
② 답 : 0.754
⑶ 소문제 2번
① 조개 성별을 4개 변수로 회귀했을 때 residual deviance (210개 데이터 이용)
② 답 : 214 정도?
⑷ 소문제 3번
① 소문제 1번 모델을 나머지 90개 데이터에 적용 시 오분류율(error rate)
② 답 : 0.189
6번 (유형 3, 15점)
⑴ 다중선형회귀모형
⑵ 소문제 1번
① 어떤 칼럼과 가장 큰 상관계수를 갖는 변수의 상관계수
② 답 : 0.901
⑶ 소문제 2번
① 다중선형회귀모형으로 어떤 칼럼을 예측 시 결정계수
② 답 : 0.985
⑷ 소문제 3번
① 소문제 1번 모델에서 가장 큰 p-value
② 답 : 0.05 정도?
결언
⑴ 필자는 제7회 빅데이터분석기사 실기에서 다음과 같은 점수를 득했음
⑵ 필기 학습기간 : 2주
⑶ 실기 학습기간 : 1주
⑷ 현업 종사기간 : 3년 (생물정보학)
입력: 2023.12.02 13:36
'▶ 자연과학 > ▷ 데이터베이스∙빅데이터분석기사' 카테고리의 다른 글
【빅데이터분석기사】 2024년 상반기 빅데이터분석기사 실기 문제 (0) | 2024.06.22 |
---|---|
【데이터베이스】 데이터베이스 목차 (0) | 2023.09.18 |
【데이터베이스】 12강. SQL (0) | 2021.10.11 |
【데이터베이스】 10강. 기타 데이터베이스 (0) | 2017.10.03 |
【데이터베이스】 11강. 빅데이터분석기사 (0) | 2017.10.02 |
최근댓글