인류 마지막 시험 ― 인공지능편
추천글 : 【알고리즘】 알고리즘·머신러닝 목차
이 문제들은 Humanity's Last Exam에서 발췌된 문제입니다.
문제 1. 다음은 실제로 사용되는 활성화 함수들입니다. 여러 이유로 인해, 시그모이드 함수 σ(x) = 1 / (1 + exp(-x))의 함수로 1차 도함수를 표현할 수 없는 활성화 함수를 선택하고자 합니다. 다른 항이 포함될 수 있지만, 해당 함수는 시그모이드와 어떠한 관련도 없어야 합니다. 이 조건을 만족하는 함수는 무엇입니까?

A. T1
B. T2
C. T3
D. T4
E. 위에 해당하는 것 없음
답 1. E
문제 2. 잔차 스트림 차원 dmodel, 어텐션 출력 차원 dattn, nhead개의 어텐션 헤드, 중간 피드포워드 네트워크 차원 dff를 갖는 기본 트랜스포머 기반 언어 모델을 고려합니다. 사전학습 중 컨텍스트 길이를 L에서 4L로 늘린다면, 동일한 총 토큰 수에 대한 학습에 필요한 추가 계산 비용의 비율(원래 대비)로 가장 좋은 추정값은 무엇입니까?
A. 4
B. L2 · dattn / (2 · dmodel · (dattn + dff) + dattn)
C. 3 · L · dattn / (2 · dmodel · (dattn + dff) + dattn)
D. 4 · L · nhead · dattn / (dmodel · (dattn + dff))
E. 1 + 3 · L · dattn / (2 · dmodel · (dattn + dff) + dattn)
F. 3 · L · dattn / (dmodel · (dattn + dff) + dattn)
답 2. C
문제 3. 다음은 human-aware losses (HALOs, Ethayarajh et al., 2024)의 정의입니다:
θ를 정렬 중인 모델 πθ : 𝒳 → 𝒫(𝒴)의 학습 가능한 파라미터, πref를 참조 모델, ℓ : 𝒴 → ℝ+를 정규화된 토큰 길이 함수라 합시다. 손실 함수 이 다음 두 조건을 만족할 때 human-aware하다고 합니다. ℒ : Θ → ℝ이 다음 두 조건을 만족할 때 human-aware하다고 합니다:
1. ℒ의 그래디언트 ∇θℒ이 πθ(y | x), πref(y | x), ℓ(y)만의 함수이다.
2. 이 의 단조 함수이다. 다음 중 human-aware loss인 것의 집합으로 올바른 것은?
DPO, KTO, PPO-Clip, CSFT, SLiC
답안 선택지
A. {DPO}
B. {DPO, KTO}
C. {DPO, KTO, PPO-Clip}
D. {KTO}
E. {PPO-Clip}
F. {DPO, KTO, PPO-Clip}
G. {DPO, KTO, PPO-Clip, CSFT}
H. {DPO, KTO, PPO-Clip, CSFT, SLiC}
답 3. F
문제 4. 평균 하드 어텐션 포화(average-hard-attention saturated) 트랜스포머가 부동 소수점 활성화로 인식할 수 있는 형식 언어의 회로 복잡도 클래스의 상한(upper bound)은 무엇입니까?
답 4. TC⁰
문제 5. 다음을 답하여라.
네트워크 설명 : 3층 다층 퍼셉트론(MLP) 신경망을 고려합니다. 각 층은 (층) 입력에 선형 변환을 적용한 뒤 ReLU 활성화 함수를 적용합니다. 처음 두 층은 각각 50차원을 가지며, 최종 출력은 10차원입니다. 활성화 이후의 표현을 잠재 표현(latent representation)이라 부릅니다.
입력 설명 : 각 층에 d차원의 입력 x가 주어진다고 가정합니다. 각 층에는 w × d 크기의 가중치 행렬 W와 w차원의 편향 b가 있습니다. 여기서 w는 해당 층의 너비입니다. 결과적으로 w차원의 잠재 표현이 생성됩니다.
질문 : 주어진 데이터셋의 잠재 표현 행렬은 N × d 행렬로 정의되며, 각 행은 하나의 데이터 포인트에 해당하고, 각 열은 하나의 잠재 차원에 해당합니다. 데이터셋이 충분히 많은 데이터 포인트를 포함한다고 가정할 때(즉, N이 충분히 큰 경우), 네트워크를 통과한 후 잠재 표현 행렬의 랭크(rank)에 대해 참인 진술은 무엇입니까?
답안 선택지
A. 최대 랭크는 min(N, d)이다.
B. 최대 랭크는 항상 잠재 공간의 차원보다 낮다.
C. 선형 변환에 이어 ReLU를 적용하면 랭크를 증가시킬 수 없다.
D. 선형 변환에 이어 ReLU를 적용하면 랭크를 항상 감소시킨다.
E. B와 C 모두 참이다.
F. B와 C와 D 모두 참이다.
답 5. F
문제 6. 같은 점을 중심으로 하는 N+1개의 동심원으로 이루어진 데이터셋이 있고, t번째 원의 반지름은 tc (t = 0, 1, 2, ···, N, c는 양의 실수)입니다. 각 원 위의 점은 서로 다른 클래스에 속하며(즉, 원 t에는 레이블 t를 부여), 각 원 위에 원-핫 프로토타입(one-hot prototype)을 선택하여, 점 x에서 가장 가까운 프로토타입까지의 1-NN 거리가 해당 점과 가장 가까운 다른 원 위의 점까지의 거리보다 작을 수 있도록 하고자 합니다. 최소 총 프로토타입 수는 얼마입니까?
답안 선택지

답 6.

문제 7. 교사와 학생이 모두 객체들 o1, o2, ···에 노출되어 있다고 가정합니다. 교사와 학생은 각자 이 객체들을 자신의 표현 공간(유클리드 공간으로 가정)에 임베딩합니다. "oi가 ok보다 oj에 더 가깝다"는 형태의 진술을 삼중항(triplet)이라고 합니다.
이제 교사에게 새로운 객체 o*를 보여주고, 학생이 자신의 표현 공간에서 o*를 올바르게 배치할 수 있도록 가능한 한 적은 수의 삼중항 진술로 가르치도록 합니다. 학생의 표현 공간이 교사의 표현 공간과 무작위로 선형 관계에 있을 확률을 p라 하겠습니다(즉, 학생은 p의 확률로 교사와 동일한 기하학적 구조를 공유합니다). p의 값에 따라 필요한 삼중항 수는 어떻게 변합니까?
답안 선택지
A. 단조 증가
B. 단조 감소
C. p=0.5를 중심으로 한 볼록 U자형(아래로 볼록)
D. p=0.5를 중심으로 한 오목 U자형(위로 볼록)
E. p와 무관하게 일정
답 7. D
문제 8. 시간에 따른 많은 관측값이 있는 실제 데이터셋이 있습니다. 가우시안 방출 밀도가 부정확할 수 있어, 대신 K개의 가우시안 혼합(mixture of K Gaussians)으로 방출 밀도를 구성하는 것을 고려하고 있습니다. 가장 적절한 선택지를 고르십시오.
답안 선택지
A. 가우시안 혼합은 더 복잡한 다봉(multi-modal) 분포를 모델링할 수 있으므로 실제로 좋은 아이디어입니다: 실세계 데이터는 종종 단일 가우시안 분포를 따르지 않습니다.
B. 이는 나쁜 생각입니다. 가우시안 혼합이 단일 가우시안보다 복잡한 분포를 맞출 수 있지만, 매개변수 수가 과도하게 증가해 과적합(overfitting)으로 이어질 수 있습니다.
C. 시간적 상관관계가 있으므로 이는 나쁜 생각입니다.
D. 이 방법은 훈련 시 HMM에 과도한 계산 복잡도를 유발하므로 실제로는 나쁜 생각입니다.
E. 혼합 모델 대신 커널 밀도 추정(KDE)을 사용하는 것이 항상 더 좋습니다.
답 8. D
문제 9. 확률론적 그래프 모델(probabilistic graphical models)의 맥락에서 다음 진술들을 고려하십시오.
A. 일반적으로 모든 그래프에 대해, 접합 트리(junction tree)보다 계산적으로 더 효율적인 접근법은 없다.
B. 접합 트리 알고리즘은 높은 트리너비(treewidth)를 갖는 그래프에 대한 강인성 덕분에 실제로 사용된다.
C. 접합 트리는 노드 내의 결합 분포(joint distributions)를 사용한다.
D. 접합 트리가 제한적인 이유는 긴 체인 구조로 인한 것이다.
E. 접합 트리에서 메시지는 방향성이 있다.
F. 가우시안 과정에서 접합 트리를 직접 적용하는 것은 비실용적이다.
G. 접합 트리는 비방향 그래프(undirected graphs)에만 사용할 수 있다.
H. 접합 트리 알고리즘에서 각 노드를 두 번 방문하면 충분하다.
I. 접합 트리 알고리즘은 방향성 비순환 그래프(DAG)를 도덕 그래프(moral graph)로 변환하고, 이를 삼각화(triangulate)하여 접합 트리를 형성하는 방식으로 사용할 수 있다. 다음 중 참인 진술의 집합은 무엇입니까?
답 9. {A, C, E, G, I}
문제 10. 피드포워드 신경망의 어떤 속성이 섭동 이론(perturbation theory) 해석에서 최적 파라미터를 결정합니까(2차까지)?
답안 선택지
A. 편향(bias) 사용 여부
B. 모멘텀(momentum)
C. 학습률(learning rate)
D. 가중치 초기화의 크기
E. 배치/레이어 정규화 사용 여부
F. 깊이 대 너비의 비율
G. 활성화 함수의 립시츠(Lipschitz) 상수
H. 어텐션 사용 여부
I. 잔차 연결(residual connections) 사용 여부
답 10. F
문제 11. 특정 입력 설명 대상 E와 기준 데이터셋에 대해 다음 모델에서 LIME을 사용하여 입력 특성 중요도를 생성합니다.
lookup_table = {1.0: 1.0, 0.0: 0.0}
def f(input1, input2):
return lookup_table.get(input1, input1*0+input2*0.5+0.5)
기준 데이터셋이 룩업 테이블과 동일할 때, i) 기준 데이터셋에 속하는 E와 ii) 기준 데이터셋에 속하지 않는 E에 대해 LIME이 더 중요하다고 판단하는 입력은 무엇입니까?
답안 선택지
A. i) input1, ii) input1
B. i) input1, ii) input2
C. i) input2, ii) input2
D. i) input2, ii) input1
E. i) input1 또는 input2(동점), ii) input1
F. i) input1 또는 input2(동점), ii) input2
답 11. E
문제 12.

조건 하에서의 최적해와

최적해가 어떤 t와 λ 값에 대해 항상 동치라는 것이 엄밀히 참입니까? j는 예측 변수의 인덱스(1부터 p까지), yi는 i번째 관측값의 목표 변수, α는 절편 항, βj는 j번째 예측 변수의 계수, xij는 i번째 관측값의 j번째 예측 변수 값, λ는 페널티 파라미터
답안 선택지
A. 항상 참
B. p = 1일 때만 참
C. 목표 변수가 연속형일 때만 참
D. LASSO의 솔루션 경로가 연속일 때만 참
E. 데이터가 표준화되었을 때만 참
F. 거짓
답 12. F
문제 13. 8개의 선택지가 있는 객관식 문제에서, 4개는 단일 출력 토큰으로 구성되고 4개는 여러 토큰으로 구성됩니다. 대규모 언어 모델이 가장 높은 조건부 로그 가능도(log likelihood)를 갖는 선택지를 선택할 때, 필요한 최소 순전파 횟수는 얼마입니까?
답 13. 4
문제 14. 베이지안 에이전트가 관측 스트림을 경험할 때, 기대 정보 획득량은

입니다. 사전 분포가 실제 모델에 양의 신뢰도를 부여하는 베이지안 에이전트에 대해, 다음 중 기대 정보 획득량이 0으로 수렴함을 보장하기 위해 반드시 필요한 가정은 무엇입니까?
답안 선택지
A. 관측 공간이 유한해야 한다.
B. 모델 공간이 유한해야 한다.
C. 참 모델은 각 시점에 독립적인 관측값을 생성해야 한다.
D. 관측 공간이 이산(discrete)이어야 한다.
E. 위의 어느 것도 필요하지 않다.
답 14. E
문제 15. 다음 중 서포트 벡터 머신(SVM)에 대해 참이 아닌 것은 무엇입니까?
답안 선택지
A. 수학적으로, 한 클래스의 서포트 벡터만으로는 유효한 SVM 솔루션을 가질 수 없다.
B. 불균형하거나 비대칭적인 데이터에서, 불균등한 마진이 SVM에 최적일 수 있다.
C. 일부 커널에 대해서는 무한 차원 공간으로의 효과적인 매핑이 계산적으로 가능하다.
D. SVM에서 서포트 벡터를 추가하거나 제거하면 다른 서포트 벡터가 변경될 수 있다.
E. 데이터가 선형 분리 가능할 때만 SVM이 수렴한다.
답 15. B
문제 16. 다음 질문에 답하여라.
주어진 조건
- 토큰 w1, ···, wt-1, 어휘 크기 K
- t번째 토큰 wt에 대한 확률 분포 Dt = (pt,1, ···, pt,K)
- 컨텍스트 길이 c를 사용하는 의사난수 함수 f(wt-c+1, ···, wt-1, i) → rt,i ∈ [0, 1]
목표 : Dt에서 추출된 것처럼 보이는 t번째 토큰 i를 선택하면서, rt,i를 몰래 높이기.
워터마킹 방식 : 위치 t에서, rt,i1/pt,i를 최대화하는 i = i(t)를 선택합니다.
워터마크 점수 : S = ∑t=1 to n ln(1 / (1 - rt,i(t)))
다음 중 E[S]를 가장 잘 근사한 것은 무엇입니까?
답안 선택지
A. n
B. n + (π2 / 6 - 1)nα
C. n ln n
D. n(n+1) / 2
E. n · HK (K번째 조화수)
답 16. n + (π2 / 6 - 1)nα
문제 17. 다음 중 뉴로모픽 컴퓨팅(neuromorphic computing) 솔루션에 최적인 인공 신경망 모델은 무엇입니까?
답안 선택지
A. 미분 업데이트 : (∂w(x, t) / ∂t) = 학습률 × (임무 기반 효용 항 + 가중치에 대한 손실 그래디언트) - 학습률 × (가중치에 대한 손실 그래디언트 + 가중치 감소 항)
B. 확률론적 업데이트 : Δwij = ϵ · r · eij (r : 보상 신호, eij : 시냅스 적합도 트레이스(eligibility trace))
C. 스파이크 타이밍 기반 업데이트 : Δwij = A+ · exp(-Δt / τ+) if Δt > 0 else -A- · exp(Δt / τ-)
D. 에너지 기반 업데이트 : Δwij = -η ∂E / ∂wij (E : 에너지 함수)
E. 이벤트 기반 업데이트 : Δw(x, t) = (g(x,t) · Θ(|x(t)| - θ(t)) (g(x, t) : 맥락 적응 학습 함수, θ(t) : 동적 임계값, Θ : 헤비사이드 계단 함수)
답 17. E
문제 18. 다음 신경망 훈련 코드를 고려하십시오.
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
# 합성 데이터 생성
def generate_noisy_data(n_samples=1000):
# 두 개의 맞물린 반원 생성
radius = 10
noise = 1.5
# 첫 번째 클래스
theta = np.linspace(0, np.pi, n_samples // 2)
X1 = np.column_stack([
radius * np.cos(theta) + np.random.normal(0, noise, n_samples // 2),
radius * np.sin(theta) + np.random.normal(0, noise, n_samples // 2)
])
y1 = np.zeros(n_samples // 2)
# 두 번째 클래스
theta = np.linspace(0, np.pi, n_samples // 2)
X2 = np.column_stack([
radius * np.cos(theta) + radius + np.random.normal(0, noise, n_samples // 2),
-radius * np.sin(theta) + np.random.normal(0, noise, n_samples // 2)
])
y2 = np.ones(n_samples // 2)
X = np.vstack([X1, X2])
y = np.concatenate([y1, y2])
return X, y
class SimpleNN(nn.Module):
def __init__(self, hidden_size=10):
super(SimpleNN, self).__init__()
self.network = nn.Sequential(
nn.Linear(2, hidden_size),
nn.ReLU(),
nn.Linear(hidden_size, 1),
nn.Sigmoid()
)
def forward(self, x):
return self.network(x)
# 훈련 데이터
X_train, y_train = generate_noisy_data(n_samples=1000)
# 편향된 테스트 데이터 생성
X_test_class2 = np.column_stack([...]) # 두 번째 클래스만 1000개
y_test = np.ones(1000)
model = SimpleNN(hidden_size=10)
optimizer = optim.SGD(model.parameters(), lr=0.01)
criterion = nn.BCELoss()
# 훈련 루프 (50 에포크)
테스트 정확도를 최대화하려면, hidden_size를 어떻게 변경해야 합니까?
답안 선택지
A. hidden_size를 2로 변경
B. hidden_size를 50으로 변경
C. hidden_size를 100으로 변경
D. hidden_size를 변경하지 않음
E. hidden_size를 500으로 변경
답 18. A
문제 19. RASPy(Restricted Action Sequence Processing Language의 파이썬 구현)로 작성된 다음 코드를 고려하십시오.
before = key(indices) < query(indices)
def a(seq=tokens):
return seq.map(lambda x: ord(x) - ord('0'))
def b(seq=tokens):
return seq.map(lambda x: int(x))
def c(seq=tokens):
return seq.map(lambda x: chr(x))
def d(seq=tokens):
x = (before | (key(indices) == query(indices))).value(tokens)
return x
def e(seq=tokens):
return seq.map(lambda x: x % 10)
def f(k, default, seq=tokens):
return (key(indices) == query(k)).value(seq, default)
def g(k, default, seq=tokens):
return (key(indices) == query(indices - k)).value(seq, default)
def h(cond, if_true, if_false):
return cond.map(lambda x: if_true if x else if_false)
def m(op, left_of_op, seq=tokens):
pos = (key(seq) == query(op)).value(indices)
return h(before if left_of_op else ~before, h(key(indices) == query(pos), default_val, seq), default_val)
입력 "5+6"에 대한 출력은 무엇입니까?
답 19. get pwned!!!!1;5571337
문제 20. 왼쪽에 앵무새 사진, 오른쪽에 이미지 처리 결과를 보여주는 이미지가 첨부되어 있습니다. 다음 선택지 중 적용된 이미지 처리 방법으로 가장 적합한 것을 고르십시오.

답안 선택지
A. 4×4 픽셀 커널의 평균 필터를 적용한 후, 계수 4로 다운샘플링하고, 최근접 이웃 보간법으로 원래 크기로 업스케일링.
B. 이미지를 주파수 도메인으로 변환하고 고주파 성분을 제거한 후, 역변환하여 원래 크기로 복원.
C. 4×4 픽셀 커널의 가우시안 필터를 적용한 후, 계수 4로 다운샘플링하고, 쌍선형(bilinear) 보간법으로 원래 크기로 업스케일링.
D. 비국소 평균(Non-Local Means) 필터를 적용한 후, 계수 4로 다운샘플링하고, 최근접 이웃 보간법으로 원래 크기로 업스케일링.
E. 중앙값(Median) 필터를 적용한 후, 계수 4로 다운샘플링하고, 쌍선형 보간법으로 원래 크기로 업스케일링.
답 20. D
문제 21. πk(a | s)를 반복 k에서의 정책이라 하고, 각 반복 k에서 내재적 동기 보상 rk(s) = -log pπk-1(s)를 사용합니다. pπk-1은 πk-1에 의해 유도된 상태 분포입니다. 다음 중 엔트로피 H(s)를 최대화하는 정책은 무엇입니까?
답안 선택지
A. limk→∞ πk
B. π0
C. 임의의 k에 대한 πk
D. ∑k=0 to ∞ πk
E. π1
답 21. D
문제 22. 에이전트가 두 복도 C1 또는 C2 중 하나에 동일한 확률로 생성되는 POMDP(S, A, T, R, γ, Ω, Φ)를 고려합니다. C1에 있으면 w11, w12, ···, w1n, C2에 있으면 w21, w22, ···, w2n의 이진 관측 수열 {0, 1} ⊂ Ω를 관측한 후, 행동 a1 또는 a2 중 하나를 선택해야 합니다. C1에서 a1을 선택하거나 C2에서 a2를 선택하면 보상 1을 받고, 그렇지 않으면 0을 받습니다. 관측 수열만으로 최적 행동을 결정하는 데 필요한 최소 관측 수 n은 얼마입니까?
답 22. 4
문제 23. 값 반복(value iteration) 알고리즘의 기하급수적 수렴을 보장할 수 있는 보상의 범위는 무엇입니까?
답안 선택지
A. [-1, 1]
B. (0, 1)
C. (-1, 1)
D. [0, 1]
E. ℝ
답 23. E
문제 24. 저는 여러 객체들을 가지고 놀고 있습니다.
수행할 수 있는 행동들
- action_0 : action_0_parameter0_type_0 포함
- action_1 : action_1_parameter0_type_0, action_1_parameter1_type_0 포함
- action_2 : action_2_parameter0_type_0, action_2_parameter1_type_0 포함
- action_3 : action_3_parameter0_type_0, action_3_parameter1_type_0 포함
행동 제한 조건
- action_0을 수행하려면, fluent_0(action_0_parameter0_type_0, action_0_parameter0_type_0)이 참이어야 합니다.
- action_1을 수행하려면, fluent_0(action_1_parameter0_type_0, action_1_parameter1_type_0)이 참이어야 합니다.
- action_1의 효과 : fluent_0(action_1_parameter1_type_0, action_1_parameter0_type_0)이 참이 됩니다.
- action_2를 수행하려면, fluent_0(action_2_parameter0_type_0, action_2_parameter1_type_0)이 참이어야 합니다.
- action_2의 효과 : fluent_0(action_2_parameter1_type_0, action_2_parameter1_type_0)이 참이 됩니다.
- action_3을 수행하려면, fluent_0(action_3_parameter0_type_0, action_3_parameter1_type_0)이 참이어야 합니다.
- action_3의 효과 : fluent_0(action_3_parameter0_type_0, action_3_parameter0_type_0)이 참이 됩니다.
다음 계획이 주어집니다.
- action_2(object_0_type_0, object_1_type_0)
- action_1(object_1_type_0, object_0_type_0)
- action_3(object_1_type_0, object_0_type_0)
이 계획이 최적(최소 행동 수)이 되도록 하는 가장 짧은 목표(goal)는 무엇입니까?
답 24. fluent_0(object_1_type_0, object_1_type_0)
문제 25. f(x) = x - 1 (if x ≥ 1), else min(0, x).
다음 혼합 정수 선형 프로그래밍(MILP) 제약 조건을 고려합니다:

추가 정수 변수 b를 사용하여 f(x)의 정확한 MILP 인코딩을 얻도록 시스템을 수정하십시오. 구체적으로, 추가 정수 제약 b ∈ {0, 1}과 관련된 두 개의 부등식을 더 추가하십시오.
답 25. y ≥ b · ℓ, y ≥ x + b - 1
입력: 2026.05.04 23:18
'▶ 자연과학 > ▷ 알고리즘·머신러닝' 카테고리의 다른 글
| 【알고리즘】 26-1강. 최단경로 알고리즘 (Dijkstra 및 Floyd 알고리즘) (0) | 2025.12.13 |
|---|---|
| 【알고리즘】 26강. 동적계획법(Dynamic Programming) (0) | 2025.11.21 |
| 【알고리즘】 강화학습 예제 [01-20] (0) | 2025.10.31 |
| 【머신러닝】 AE, GAE, VAE, VGAE 손실함수 (0) | 2025.05.22 |
| 【알고리즘】 알고리즘·머신러닝 목차 (2) | 2024.12.01 |
최근댓글