본문 바로가기

Contact English

【제어이론】 9-2강. Constrained MDP

 

9-2강. Constrained MDP

 

추천글 : 【제어이론】 9강. 확률적 제어이론 


1. 개요 [본문]

2. 종류 [본문]


 

1. 개요 [목차]

⑴ 가치함수를 이용한 표현

 

 

⑵ occupancy measure를 이용한 표현

 

 

① 각 정책은 고유한 occupancy measure를 가짐 

 

 

occupancy measure를 이용하는 경우 정규화 항이 없어 모델 학습이 용이함 

⑶ 제약이 없는 MDP와의 차이

차이 1.  제약이 없는 MDP는 매 순간 최선의 행동을 고르는 Bellman 방식이 잘 통하지만, 제약이 있는 MDP는 전체 예산·위험·자원 조건을 함께 고려해야 해서 부분 문제의 최적성이 깨짐

차이 2. 일반 MDP에서는 보통 어떤 상태에서 deterministic policy가 최적일 수 있지만, constrained MDP에서는 제약을 맞추기 위해 행동을 확률적으로 섞어야 할 수 있음 (예 : A를 30% 확률로 하고, B를 70% 확률로 함)

차이 3. 일반 unconstrained MDP에서는 경우에 따라 O(log T) 수준의 regret도 가능하지만, constrained MDP에서는 제약조건 때문에 그렇게 빠른 regret 감소가 불가능하고, 보통 O(√T) 정도가 최선

⑷ constrained MDP는 safe reinforcement learning으로 응용됨 

 

 

2. 종류 [목차]

⑴ OptCMDP-Bonus (Yonathan, Mannor, Pirotta 2020)

 

 

⑵ OptPrimalDual-CMDP : linear programming 

 

 

⑶ Triple-Q (Wei, Liu, Ying, 2022)

 

 

입력: 2026.04.26 21:27