메뉴 건너띄기
상단메뉴 바로가기 본문 바로가기

강화학습 사용법

  • 2024-11-25 09:40
  • 홍보담당자

안녕하세요,

오늘 가지고 온 주제는 강화학습입니다!

먼저 강화학습이란

에이전트가 환경과 상호작용하며

최적의 행동을 학습하도록 하는 방법론입니다.

다양한 알고리즘 중 총 네 가지를 소개해드릴 건데요,

지금 보러 가실까요?




 
 
 


먼저 '모델 기반 알고리즘'은 환경의 동작을 예측하거나 모델링하는 데 중점을 둡니다.

에이전트가 환경과의 상호작용에서 데이터를 수집하고

이를 바탕으로 환경의 전이 확률과 보상을 학습하며

그 후 학습된 모델을 사용해 행동 정책을 최적화합니다 !

이에 대표적은 예로 Dyna-Q 알고리즘이 있으며

이는 모델 기반 접근과 모델이 없는 접근을 결합한 형태입니다.

 
 
 
 
 
 
 
 


모델 기반 알고리즘을 보았다면

이제는 '모델이 없는 알고리즘'도 알아보아야겠죠?

모델이 없는 알고리즘은 명시적으로 학습하지 않고

에이전트가 직접 환경과 상호작용하며

최적의 행동 정책을 학습합니다.

이에 대표적인 예로 Q러닝과 SARSA 가 있습니다.

 
 
 
 
 
 
 
 
 


그럼 바로 모델이 없는 알고리즘의 대표적인 예인

큐러닝에 대해 알아보겠습니다.

큐러닝은 각 상태와 행동의 조합(Q값)에 대해

장기적인 기대 보상을 학습하고

에이전트는 Q값을 업데이트하며

최적의 행동 정책을 학습합니다.

큐러닝의 업데이트 공식은 다음과 같으며

Q(s,a)←Q(s,a)+α(r+γamax Q(sʹ,aʹ)−Q(s,a))

s는 현재 상태, a는 행동, r은 보상, γ는 할인율, α는 학습률 입니다.


모델이 없는 알고리즘의 예로 총 두 가지를 알려드렸는데

그 중 SARSA는 큐러닝과 같이 시간차 예측 기반이지만

큐러닝은 off-policy 알고리즘인 반명

SARSA는 on-policy 알고리즘입니다.

 
 
 
 
 
 
 
 
 
 


마지막으로 딥큐러닝은 큐러닝의 단점을 극복하기 위해 딥러닝을 결합한 기법이며

이는 상태 공간이 큰 경우 Q테이블 대신

딥러닝 모델(주로 신경망)을 사용해 Q값을 근사합니다.


딥큐러닝의 핵심 기술은 총 두 가지로 경험 재생과 타겟 네트워크가 있습니다.

경험 재생은 에이전트가 상호작용에서 얻은 경험을 저장하고

무작위로 샘플링하여 학습에 사용하며 이를 통해 데이터의 상관성을 줄이고 학습 안정성을 높입니다.

타겟 네트워크는 Q값 계산을 위한 별도의 네트워크를 사용하여 학습을 더 안정적으로 만듭니다.


강화학습은 로보틱스, 추천 시스템, 자율주행차 등 다양한 분야에서 활용되고 있습니다.

최근 AI 시대로 성장해가고 있는 이 시점에서 중요한 부분이라 생각됩니다!

강화학습에 대해 더 알아보고 유익한 AI 기술을 개발해보면 어떨까요?

 
 
 

강화학습에 대해 더 알아보는 시간을 가졌기를 바라며

더 유익한 정보를 가지고 돌아오겠습니다!




 

 

 

 

첨부파일 (1)