9-2강. Constrained MDP
추천글 : 【제어이론】 9강. 확률적 제어이론
1. 개요 [본문]
2. 종류 [본문]
1. 개요 [목차]
⑴ 가치함수를 이용한 표현

⑵ occupancy measure를 이용한 표현

① 각 정책은 고유한 occupancy measure를 가짐

② occupancy measure를 이용하는 경우 정규화 항이 없어 모델 학습이 용이함
⑶ 제약이 없는 MDP와의 차이
① 차이 1. 제약이 없는 MDP는 매 순간 최선의 행동을 고르는 Bellman 방식이 잘 통하지만, 제약이 있는 MDP는 전체 예산·위험·자원 조건을 함께 고려해야 해서 부분 문제의 최적성이 깨짐
② 차이 2. 일반 MDP에서는 보통 어떤 상태에서 deterministic policy가 최적일 수 있지만, constrained MDP에서는 제약을 맞추기 위해 행동을 확률적으로 섞어야 할 수 있음 (예 : A를 30% 확률로 하고, B를 70% 확률로 함)
③ 차이 3. 일반 unconstrained MDP에서는 경우에 따라 O(log T) 수준의 regret도 가능하지만, constrained MDP에서는 제약조건 때문에 그렇게 빠른 regret 감소가 불가능하고, 보통 O(√T) 정도가 최선
⑷ constrained MDP는 safe reinforcement learning으로 응용됨
2. 종류 [목차]
⑴ OptCMDP-Bonus (Yonathan, Mannor, Pirotta 2020)



⑵ OptPrimalDual-CMDP : linear programming



⑶ Triple-Q (Wei, Liu, Ying, 2022)




입력: 2026.04.26 21:27
'▶ 자연과학 > ▷ 제어이론' 카테고리의 다른 글
| 【제어이론】 제어이론 목차 (4) | 2025.12.27 |
|---|---|
| 【제어이론】 9-1강. Robust MDP (0) | 2025.10.28 |
| 【제어이론】 9강. 확률적 제어이론 (강화학습) (0) | 2025.08.27 |
| 【제어이론】 8강. 제어시스템의 설계 (4) | 2020.06.09 |
| 【제어이론】 7강. Frequency-domain Response (4) | 2020.06.09 |
최근댓글