Posts
[시리즈] 강화학습 톺아보기
1달간의 잉여생활을 청산하기 위해, 서점에 들러 강화학습 도서를 집었다. 원래는 CS234를 도전해보려 했으나, 미약한 영어실력으로 인해 1강을 채 못 끝내었다는 불편한 진실..을 뒤로 하고, 일단 한번 살펴보자!
Jan 28, 2021
Reinforcement Learning
<파이썬과 케라스로 배우는 강화학습> - (7) 살사(SARSA)와 큐러닝(Q-Learning)
살사(SARSA)와 큐러닝(Q-Learning) 그리고 각각의 코드를 살펴보자. 마지막으로 온폴리시 정책과 오프폴리시 정책의 차이에 대해서 톺아보자.
Jan 27, 2021
Reinforcement Learning
SARSA
Q-Learning
<파이썬과 케라스로 배우는 강화학습> - (6) 강화학습과 정책평가
사람의 학습 방법과 강화학습의 학습 방법은 정확히 무엇이 다를까? 몬테카를로 근사(Monte-Carlo Prediction)과 시간차 예측(Temporal-Difference Prediction)을 톺아보자.
Jan 25, 2021
Reinforcement Learning
Policy Evaluation
<파이썬과 케라스로 배우는 강화학습> - (5) 정책 이터레이션, 가치 이터레이션
정책 이터레이션(Policy Itertaion)과 가치 이터레이션(Value Iteration)에 대해 살펴보자. 또한 다이나믹 프로그래밍의 한계와 모델없이 학습하는 강화학습 등에 대해 톺아보자.
Jan 24, 2021
Reinforcement Learning
Policy Iteration
Value Iteration
<파이썬과 케라스로 배우는 강화학습> - (4) 그리드월드와 다이내믹 프로그래밍
강화학습에서의 다이내믹 프로그래밍의 정의에 대해 알아보고, 이를 기반으로 그리드 월드 예제 문제를 톺아보자.
Jan 23, 2021
Reinforcement Learning
Grid World
Dynamic Programming
<파이썬과 케라스로 배우는 강화학습> - (3) 가치함수와 벨만방정식
앞 장에서 문제를 MDP로 정의하는 방식에 대해 살펴보았다. 이제 본격적으로 가치함수와 큐함수, 벨만 기대 방정식과 벨만 최적 방정식에 대해 톺아보자.
Jan 22, 2021
Reinforcement Learning
Value Function
bellman equation
<파이썬과 케라스로 배우는 강화학습> - (2) MDP(Markov Decision Process)
마르코프 결정 과정(MDP)의 정의부터 상태(State), 행동(Action), 보상함수(Reward Function), 할인율(Discount Factor), 정책(Policy) 등 핵심적인 개념을 톺아보자.
Jan 20, 2021
Reinforcement Learning
MDP
<파이썬과 케라스로 배우는 강화학습> - (1) 강화학습 개요
강화학습이란 무엇인지, 탄생한 배경부터 주로 사용하는 용어까지 살펴보자. 강화학습이 풀고자하는 문제는 무엇이며, 순차적 행동 결정 문제란 무엇인지 톺아보자.
Jan 19, 2021
Reinforcement Learning
Introduction