본문 바로가기

Contact English

【빅데이터분석기사】 2023년 하반기 빅데이터분석기사 실기 문제

 

2023년 하반기 빅데이터분석기사 실기 문제

 

추천글 : 【빅데이터분석기사】 빅데이터분석기사 목차  


a. 빅데이터분석기사 R 실기 필수 암기 및 예제

b. 빅데이터분석기사 파이썬 실기 필수 암기 및 예제 

c. 2024년 상반기 빅데이터분석기사 실기 문제 


경험을 공유하는 수준에서 내용을 구성했습니다.

※ 파이썬보다는 R에서 훨씬 더 쉽게 계산할 수 있는 메트릭이 있었습니다 (e.g., residual deviance, R-squared, p-value).

유형 2를 풀 때는 아래에서 제시한 단순 모형보다 체계적인 모델을 사용하기를 권장합니다. (알고보니 단순해도 유형 2 만점!)

※ 일반적으로 유형 1은 파이썬으로 풀기 좋고, 유형 2, 유형 3은 R로 풀기를 권장합니다. 

 

출처 : DALL∙E (오탈자 유의)

 

1번 (유형 1, 10점)

⑴ 스코어에서 발생한 결측치 제거 

⑵ 학생들이 가장 많이 듣는 과목에서 표준화 점수의 최댓값

 : 1.083 

 

 

2번 (유형 1, 10점)

특정 칼럼과 가장 상관계수가 큰 변수의 평균값

: 4.809

 

 

3번 (유형 1, 10점)

⑴ 특정 칼럼 내 이상치의 개수 

: 224

 

 

4번 (유형 2, 40점)

제주도 여행 매출 변수인 amount를 예측하는 모델 생성

⑵ RMSE로 평가한다고 함

⑶ 트레이닝 데이터를 절반 쪼개서 테스트 해볼 수도 있음

⑷ 다중선형회귀를 했을 경우 : cor = 0.55, RMSE = 16,000,000 정도 (단, 명목변수는 모델에 활용하지 않음)

⑸ 랜덤포레스트를 했을 경우 : cor = 0.70, RMSE = 14,000,000 정도

⑹ 참고로 amount 최댓값이 650,000,000 정도라 위 값들은 그나마 괜찮아 보임

 

 

5번 (유형 3, 15점)

로지스틱 회귀 모형

소문제 1번

조개 성별을 weight로 회귀했을 때 odds ratio를 계산 (210개 데이터 이용)

: 0.754

소문제 2번 

① 조개 성별을 4개 변수로 회귀했을 때 residual deviance (210개 데이터 이용) 

: 214 정도?

소문제 3번

소문제 1번 모델을 나머지 90개 데이터에 적용 시 오분류율(error rate)

: 0.189

 

 

6번 (유형 3, 15점)

⑴ 다중선형회귀모형

소문제 1번

① 어떤 칼럼과 가장 큰 상관계수를 갖는 변수의 상관계수

: 0.901 

소문제 2번

① 다중선형회귀모형으로 어떤 칼럼을 예측 시 결정계수

: 0.985 

소문제 3번

소문제 1번 모델에서 가장 큰 p-value

: 0.05 정도?

 

 

결언

⑴ 필자는 제7회 빅데이터분석기사 실기에서 다음과 같은 점수를 득했음

 

 

필기 학습기간 : 2주 

실기 학습기간 : 1주 

현업 종사기간 : 3년 (생물정보학)

 

입력: 2023.12.02 13:36