Your AI powered learning assistant

Массачусетский технологический институт 6.S191: Обучение с подкреплением

Глубокое Обучение С Подкреплением Заменяет Статические Данные Взаимодействием Глубокое обучение с подкреплением объединяет глубокое обучение с обучением с подкреплением, чтобы выйти за рамки обучения на фиксированных наборах данных. Модель взаимодействует с динамичной средой, обучаясь на основе собственного опыта, а не человеческих ярлыков. Целью является минимальное наблюдение или его полное отсутствие, что обеспечивает масштабируемость. Приложения охватывают автономию, робототехнику и игровой процесс, в которых произошло много ранних прорывов.

Позиционирование обучения с подкреплением Среди Парадигм обучения Алгоритмы не зависят от таких архитектур, как полносвязные, рекуррентные или сверточные сети. Контролируемое обучение преобразует входные данные X в метки Y, в то время как неконтролируемое обучение находит структуру только по X. Обучение с подкреплением заменяет пары X–Y взаимодействиями "состояние–действие". Целью становится выбор действий, которые приведут к желаемым будущим состояниям, измеряемым вознаграждением.

Цикл взаимодействия агента с окружающей средой и скидки на вознаграждения Агент действует в определенной среде, выполняя действия и получая наблюдения и вознаграждения. Цель состоит в том, чтобы максимизировать совокупное вознаграждение за эпизод или всю жизнь. Будущие вознаграждения не учитываются, поэтому краткосрочные выгоды имеют большее значение, чем отдаленные. Дисконтирование поощряет своевременное поведение, отражая такие предпочтения, как оценка стоимости в 5 долларов сегодня по сравнению с той же суммой спустя годы.

Функция Q Определяет оптимальный выбор действия Отдача R(t) - это дисконтированная сумма будущих вознаграждений, начиная с момента времени t. Функция Q Q(s, a) дает ожидаемую будущую отдачу при выполнении действия a в состоянии s и последующих оптимальных действиях. При выборе оптимального действия Q оценивается по сравнению с доступными действиями и выбирается значение argmax. Поскольку цели Q возвращаются, это может способствовать, казалось бы, неоптимальному немедленному действию, которое приведет к большему выигрышу в будущем.

Два пути: принятие решений, основанных на ценностях и политике Два пути ведут к принятию правильных решений: методы, основанные на значениях, изучают функцию Q и выводят действия, максимизируя ее, в то время как методы, основанные на политике, напрямую сопоставляют состояния с действиями. Изучение Q предоставляет общий выбор действий с помощью argmax. Прямое изучение политики нацелено на само правило принятия решения, минуя оценку Q.

Прорыв Показывает, Почему Интуиция В Отношении Q Может Подводить Прорыв Atari показывает, как наивная интуиция может неверно оценить долгосрочную ценность. Консервативная стратегия бьет в лоб, последовательно разбивая центральные кирпичи. Более смелая стратегия позволяет наносить удары под углом, прокладывая туннель к вершине, чтобы собрать как можно больше блоков — эффективный “чит-код” игры. Опыт показывает, что при поиске углов повышается качество игры, что подчеркивает важность оценки, основанной на данных.

Q-Архитектура сети и построение целей Q-сеть может принимать состояние и выдавать значение Q для каждого отдельного действия за один проход вперед. Цель обучения объединяет немедленное вознаграждение с дисконтированным максимальным прогнозируемым доходом от следующего состояния. Прогноз модели направлен на достижение этой цели путем минимизации их разницы. Это итеративное обновление корректирует оценки, чтобы выбранные действия лучше соответствовали ожидаемой отдаче.

Производительность и ограничения DQN Deep Q-Networks добилась высоких результатов во многих играх Atari, превзойдя производительность человека более чем в половине из них благодаря простой настройке. Некоторые игры все еще сопротивляются этому методу, демонстрируя его ограниченность. К основным недостаткам относятся ограничение на отдельные области действия и детерминированные решения. Такая жесткость усложняет обучение в стохастических условиях и непрерывный контроль.

От значений Q до вероятностей действий Сети политик выводят вероятности действий при заданном состоянии. Действия могут быть выбраны путем выборки, что, естественно, позволяет проводить исследование наряду с эксплуатацией. Вероятности должны быть равны единице, что может быть реализовано с помощью таких функций, как softmax. Это переформулирует проблему как выбор между действиями в соответствии с изученным распределением, а не с явными оценками ценности.

Непрерывный контроль с помощью параметрических распределений Модели политики распространяются на непрерывные действия, предсказывая параметрическое распределение между действиями. Гауссова функция, характеризуемая средним значением и дисперсией, может представлять плотность вероятности, например, для углов поворота или скоростей. Выборка из этого распределения позволяет получить действие с сохранением неопределенности. Предсказывая всего несколько параметров, модель обрабатывает бесконечно много возможных действий.

Стратегические уклоны в задаче удержания полосы движения В задаче по удержанию полосы движения агент наблюдает за ее состоянием, выбирает действия рулевого управления из своей политики, действует и записывает тройные комбинации "состояние-действие–вознаграждение". За аварии взимаются штрафы, в то время как за более безопасное вождение автоматически начисляются баллы. Обучение повышает вероятность действий вдали от аварий и снижает вероятность их возникновения вблизи аварий. Повторные тренировки улучшают поведение без явных демонстраций со стороны человека или выработанных вручную правил.

Цель Градиента Политики Заключается в повышении Отдачи Цель градиента политики заключается в умножении логарифмической вероятности предпринятого действия на дисконтированную доходность с отрицательным знаком как потери. Действия с высокой доходностью и высокой вероятностью подкрепляются уменьшением потерь, в то время как уверенные действия, которые приносят низкую доходность, наказываются. Обратное распространение корректирует весовые коэффициенты сети, чтобы будущие вероятности совпадали с результатами. Этот прямой градиент в политике дает методу его название.

Почему моделирование обеспечивает безопасную работу в реальном мире Доведение до отказа допустимо в симуляторе, но небезопасно в реальном мире. Высокоточные фотореалистичные симуляторы позволяют проводить тщательные исследования и выявлять неисправности без реальных последствий. Правила, разработанные исключительно в симуляторе, могут быть применены к реальным транспортным средствам. Такие конвейеры от симуляции к реальности сохраняют те же алгоритмы обучения с подкреплением, обеспечивая при этом безопасность во время обучения.

Используйте это как стресс-тест для принятия масштабных решений Go бросает вызов обучающим системам, используя огромное количество законных позиций и последовательностей ходов на доске 19 × 19. Для успеха требуется сопоставить состояния доски с сильными действиями, которые обеспечивают большую территорию, чем противник. Средства обучения с подкреплением были протестированы на людях-гроссмейстерах, продемонстрировав потенциал этого подхода. Комбинаторная сложность игры делает ее строгим эталоном.

Сигналы ценности самостоятельной игры, контроля и в середине игры Эффективный конвейер инициализирует сеть, имитируя человеческие игры, а затем улучшает ее за счет самостоятельной игры с обучением с подкреплением. Добавление функции оценки, которая оценивает состояния доски, обеспечивает информативные сигналы перед окончанием игры. Такая оценка в середине игры позволяет избежать редких вознаграждений, которые в противном случае можно получить только при победе или поражении. Политика и изучение ценностей в совокупности способствуют постоянному самосовершенствованию.

С нуля, без участия людей и заключительных выводов Последующая работа показала, что сильная игра может возникнуть с нуля благодаря самостоятельной игре и оценке усвоенной ценности, устраняя необходимость в предварительном обучении человека движениям. Исследование охватывает основы RL, Q-learning, policy learning и их применение в автономии и играх. Агенты, которые учатся благодаря взаимодействию, а не навешиванию ярлыков, открывают возможности, выходящие за рамки статичных наборов данных. Траектория развития указывает на то, что лица, принимающие решения, становятся все более универсальными и самосовершенствующимися.