Mô tả

Este es el curso más completo de Aprendizaje por Reforzamiento Avanzado en Udemy. En él, aprenderás a implementar algunos de los algoritmos de Deep Reinforcement Learning más potentes en Python utilizando PyTorch y PyTorch Lightning. Implementarás desde cero algoritmos adaptativos que resuelven tareas de control basadas en la experiencia. Aprenderás a combinar estas técnicas con Redes Neuronales y métodos de Aprendizaje Profundo para crear agentes de Inteligencia Artificial adaptativos capaces de resolver tareas de toma de decisiones.


Este curso te introducirá al estado del arte en técnicas de Reinforcement Learning. También te preparará para los próximos cursos de esta serie, donde exploraremos otros métodos avanzados que sobresalen en otros tipos de tareas.


El curso se centra en el desarrollo de habilidades prácticas. Por lo tanto, después de aprender los conceptos más importantes de cada familia de métodos, implementaremos uno o más de sus algoritmos en cuadernos Jupyter, desde cero.


Módulos de nivelación:


- Repaso: El proceso de decisión de Markov (MDP).

- Repaso: Q-Learning.

- Repaso: Breve introducción a las Redes Neuronales.

- Repaso: Deep Q-Learning.

- Repaso: Métodos de gradiente de políticas.



Deep Reinforcement Learning:


- PyTorch Lightning.

- Ajuste de hiperparámetros con Optuna.

- Deep Q-Learning para espacios de acción continuos (Función de ventaja normalizada - NAF).

- Deep Deterministic Policy Gradient (DDPG).

- Twin Delayed DDPG (TD3).

- Soft Actor-Critic (SAC).

- Repetición de Experiencia con Perspectiva (HER).


Bạn sẽ học được gì

Dominar algunos de los algoritmos más avanzados del Reinforcement Learning

Aprende a crear inteligencias artificiales que puedan actuar en un entorno complejo para alcanzar sus objetivos.

Crea desde cero agentes avanzados de Aprendizaje por Reforzamiento utilizando las herramientas más populares de Python (PyTorch Lightning, Gym, Brax, Optuna)

Aprende a realizar ajuste de hiperparámetros (selección de las mejores condiciones experimentales para que nuestra inteligencia artificial aprenda).

Comprende fundamentalmente el proceso de aprendizaje de cada algoritmo.

Depurar y extender los algoritmos presentados.

Comprende e implementa nuevos algoritmos a partir de artículos de investigación.

Yêu cầu

  • Conocer las bases de la programación en Python
  • Completar nuestro curso "Reinforcement Learning de principiante a maestro" o estar familiarizado con los conceptos básicos del Aprendizaje por Reforzamiento (o ver las secciones introductorias incluidas en este curso).
  • Conocer estadísticas básicas (media, varianza, distribución normal).

Nội dung khoá học

14 sections

Introducción

6 lectures
Introducción
06:02
Serie de Reinforcement Learning
00:14
Google Colab
01:30
Dónde empezar
01:24
Código completo
00:07
Conecta conmigo en redes sociales
00:04

Repaso: El proceso de decisión de Markov (MDP)

11 lectures
Visión general del módulo
00:47
Elementos comunes a todas las tareas de control
06:02
El proceso de decisión de Markov (PDM)
05:38
Tipos de proceso de decisión de Markov
02:08
Trayectoria y episodio
01:13
Recompensa vs retorno
01:25
Factor de descuento
03:52
Política
02:03
Valor de un estado v(s) y valor de un estado-acción q(s,a)
01:06
Ecuaciones de Bellman
03:13
Resolver un proceso de decisión de Markov
03:04

Repaso: Q-Learning

5 lectures
Visión general del módulo
00:40
Métodos de diferencias temporales (TD)
03:31
Resolver tareas de control con métodos de diferencias temporales
04:20
Q-Learning
01:50
Ventajas de los métodos de diferencias temporales
00:57

Repaso: Breve introducción a las redes neuronales

7 lectures
Visión general del módulo
00:38
Aproximadores de funciones
07:36
Redes neuronales artificiales
03:26
Neuronas artificiales
04:44
Cómo representar una red neuronal
06:44
Descenso gradiente estocástico (SGD)
05:42
Optimización de redes neuronales
04:10

Repaso: Deep Q-Learning

4 lectures
Visión general del módulo
00:28
Deep Q-Learning
02:45
Repetición de experiencia (experience replay)
02:10
Red target (target network)
04:28

PyTorch Lightning

15 lectures
PyTorch Lightning
08:10
Enlace a la libreta de código
00:06
Introducción a PyTorch Lightning
05:21
Crear la Deep Q-Network
04:52
Crear la política
04:51
Crear la memoria de repetición
05:34
Crear el entorno
07:05
Definir la clase para el algoritmo Deep Q-Learning
12:00
Definir la función 'play_episode'
05:04
Preparación del 'data loader' y el optimizador
04:51
Definir la función 'train_step'
09:11
Definir la función 'train_epoch_end'
04:25
[Importante] Corrección de la lección
00:13
Entrenar el algoritmo Deep Q-Learning
06:12
Explorar el agente resultante
03:18

Ajuste de hiperparámetros con Optuna

6 lectures
Ajuste de hiperparámetros con Optuna
08:23
Link a la libreta de código
00:06
Registro del retorno promedio
04:49
Definición de la función objetivo
05:35
Creación y lanzamiento del ajuste de hiperparámetros
02:55
Exploración del mejor ensayo
02:43

Deep Q-Learning para espacios de acción continuos (NAF)

19 lectures
Espacios de acciones contínuos
06:17
La función ventaja
03:53
Función de ventaja normalizada (NAF)
03:19
Pseudocódigo de NAF
03:08
Link a la libreta de código
00:02
Tangente hiperbólica
01:15
Creación de la red NAF - Parte 1
08:07
Creación de la red NAF - Parte 2
03:23
Creación de la red NAF - Parte 3
01:08
Creación de la red NAF - Parte 4
10:21
Creación de la política
05:32
Creación del entorno
04:46
Media de Polyak
01:03
Implementación de la media de Polyak
02:14
Creación del algoritmo Deep Q-Learning con NAF
08:47
Implementación de la función 'training_step'
02:56
Implementación de la lógica de final de época
02:38
Depurado y lanzamiento del algoritmo
03:19
Testeando el agente resultante
02:47

Repaso: métodos de política gradiente (o gradiente de políticas)

5 lectures
Métodos de política gradiente
04:51
Rendimiento de la política
02:39
Representación de políticas con redes neuronales
04:48
Teorema del gradiente de políticas
03:40
Regularización mediante entropía
06:29

Deep Deterministic Policy Gradient (DDPG)

13 lectures
El motor de física Brax
02:26
Introducción a Deep Deterministic Policy Gradient (DDPG)
07:57
Pseudocódigo de DDPG
02:26
Link a la libreta de código
00:02
Deep Deterministic Policy Gradient (DDPG)
05:11
Creación de la política
09:40
Creación de la Deep Q-Network
05:01
Creación de la clase DDPG
08:10
Definición del método 'play'
02:22
Preparación de los optimizadores y 'dataloaders'
03:38
Definición del método 'training_step'
11:14
Lanzamiento del proceso de entrenamiento
04:06
Testeando el agente resultante
02:13

Twin Delayed DDPG (TD3)

8 lectures
Introducción a Twin Delayed DDPG (TD3)
07:02
Pseudocódigo de TD3
02:58
Link a la libreta de código
00:02
Twin Delayed DDPG (TD3)
02:56
Clipped double Q-Learning
04:23
Actualización retrasada de la política
01:57
Suavizado de la política target
04:35
Testeando el agente resultante
02:27

Soft Actor-Critic (SAC)

9 lectures
Soft Actor-Critic (SAC)
05:52
Pseudocódigo de SAC
01:58
Link a la libreta de código
00:02
Creación de la tarea robótica
11:47
Creación de la Deep Q-Network
04:33
Creación de la política
13:15
Implementación de SAC - Parte 1
09:04
Implementación de SAC - Parte 2
12:08
Testeando el agente resultante
02:20

Hindsight Experience Replay

6 lectures
Hindsight Experience Replay (HER)
04:26
Link a la libreta de código
00:02
Implementando Hindsight Experience Replay (HER) - Parte 1
06:17
Implementando Hindsight Experience Replay (HER) - Parte 2
02:58
Implementando Hindsight Experience Replay (HER) - Parte 3
11:35
Testeando el agente resultante
01:10

Siguientes pasos

2 lectures
Siguientes pasos
00:02
Siguientes pasos
00:02

Đánh giá của học viên

Chưa có đánh giá
Course Rating
5
0%
4
0%
3
0%
2
0%
1
0%

Bình luận khách hàng

Viết Bình Luận

Bạn đánh giá khoá học này thế nào?

image

Đăng ký get khoá học Udemy - Unica - Gitiho giá chỉ 50k!

Get khoá học giá rẻ ngay trước khi bị fix.