【제어이론】 9-2강. Constrained MDP

9-2강. Constrained MDP

추천글 : 【제어이론】 9강. 확률적 제어이론

1. 개요 [본문]

2. 종류 [본문]

1. 개요 [목차]

⑴ 가치함수를 이용한 표현

⑵ occupancy measure를 이용한 표현

① 각 정책은 고유한 occupancy measure를 가짐

② occupancy measure를 이용하는 경우 정규화 항이 없어 모델 학습이 용이함

⑶ 제약이 없는 MDP와의 차이

① 차이 1. 제약이 없는 MDP는 매 순간 최선의 행동을 고르는 Bellman 방식이 잘 통하지만, 제약이 있는 MDP는 전체 예산·위험·자원 조건을 함께 고려해야 해서 부분 문제의 최적성이 깨짐

② 차이 2. 일반 MDP에서는 보통 어떤 상태에서 deterministic policy가 최적일 수 있지만, constrained MDP에서는 제약을 맞추기 위해 행동을 확률적으로 섞어야 할 수 있음 (예 : A를 30% 확률로 하고, B를 70% 확률로 함)

③ 차이 3. 일반 unconstrained MDP에서는 경우에 따라 O(log T) 수준의 regret도 가능하지만, constrained MDP에서는 제약조건 때문에 그렇게 빠른 regret 감소가 불가능하고, 보통 O(√T) 정도가 최선

⑷ constrained MDP는 safe reinforcement learning으로 응용됨

2. 종류 [목차]

⑴ OptCMDP-Bonus (Yonathan, Mannor, Pirotta 2020)

⑵ OptPrimalDual-CMDP : linear programming

⑶ Triple-Q (Wei, Liu, Ying, 2022)

입력: 2026.04.26 21:27

'▶ 자연과학 > ▷ 제어이론' 카테고리의 다른 글

【제어이론】 제어이론 목차 (4)	2025.12.27
【제어이론】 9-1강. Robust MDP (0)	2025.10.28
【제어이론】 9강. 확률적 제어이론 (강화학습) (0)	2025.08.27
【제어이론】 8강. 제어시스템의 설계 (4)	2020.06.09
【제어이론】 7강. Frequency-domain Response (4)	2020.06.09

정빈이의 공부방

최근댓글

【제어이론】 9-2강. Constrained MDP

'▶ 자연과학 > ▷ 제어이론' 카테고리의 다른 글

티스토리툴바

【제어이론】 9-2강. Constrained MDP

'▶ 자연과학 > ▷ 제어이론' 카테고리의 다른 글

'▶ 자연과학/▷ 제어이론' 관련 포스팅

티스토리툴바