Your AI powered learning assistant

Intro

00:00:00

В этой статье предлагается новая альтернатива backprop, написанная Джеффри Хинтоном, которая закладывает возможную основу для будущего искусственного интеллекта, где у нас есть аппаратные чипы, которые обучаются, прокладывая путь к потенциальному будущему, более многообещающему, чем нынешняя парадигма. Обсуждается мотивация статьи, то, как работает недавно предложенный метод, и некоторые результаты.

ClearML

00:01:13

ClearML - это комплексная платформа для ML Ops, которая позволяет пользователям отслеживать эксперименты, автоматизировать конвейеры машинного обучения и развертывать модели. Он предлагает такие функции, как отслеживание версий кода и неограниченное количество изменений в Git, а также позволяет пользователям вводить конфигурации в эксперименты через панель мониторинга.

Motivation

00:02:17

Мотивация, лежащая в основе этой статьи, заключается в поиске алгоритма, который может обучаться "на лету" и постоянно обрабатывать информацию без необходимости останавливать или сохранять какие-либо нейронные активности. Алгоритм forward forward представлен как решение этих проблем, который может обучаться, не зная точно, как выглядит прямое вычисление, и может передавать последовательные данные по сети. Алгоритм рассматривается как полезная модель обучения в коре головного мозга и способ использования аналогового оборудования с очень низким энергопотреблением.

Forward-Forward Explained

00:05:40

Алгоритм переадресации Алгоритм прямой передачи - это тип неконтролируемого обучения, который использует два прямых прохода по разным типам данных с противоположными целями для получения полезного представления входных данных. Алгоритм направлен на то, чтобы сделать качество положительных данных как можно более высоким, а качество отрицательных данных - как можно более низким.

Многоуровневая сеть и нормализация Чтобы улучшить одноуровневую сеть, алгоритм прямой трансляции может быть расширен до многоуровневой сети, где каждый уровень имеет свою собственную цель. Однако это может привести к проблеме, из-за которой следующий уровень может легко идентифицировать положительные данные на основе величины выходных данных предыдущего уровня. Чтобы решить эту проблему, алгоритм использует нормализацию для удаления всех данных о величине скрытого вектора, прежде чем использовать их в качестве входных данных для следующего слоя.

MNIST Example

00:13:54

Пример MNIST Набор данных MNIST - это простой набор изображений с нарисованными от руки цифрами, используемый для проверки того, может ли алгоритм forward-forward эффективно изучать многоуровневое представление, отражающее структуру данных. Алгоритм обучается с использованием линейной классификации и локальных восприимчивых полей, достигая частоты ошибок тестирования 1,16%.

Контролируемое обучение с использованием прямого алгоритма Алгоритм прямой трансляции также может быть использован для контролируемого обучения с учетом классификации путем включения метки во входные данные. Комбинируя изображение и метку, сеть может научиться определять разницу между изображениями с правильной меткой и изображениями с неправильной меткой, достигая уровня ошибок тестирования 0,64%. Также обсуждаются различные способы повышения эффективности алгоритма.

Top-Down Interactions

00:18:54

Взаимодействие сверху вниз Алгоритм моделирует эффекты "сверху вниз", обрабатывая статическое изображение как видео, обработанное многослойной рекуррентной нейронной сетью. Вектор активности на каждом уровне определяется нормализованными векторами активности как на верхнем, так и на нижнем уровнях на предыдущем временном шаге.

Последствия получения информации "сверху вниз" и "снизу вверх" Ввод данных сверху вниз определяется большей областью изображения и может рассматриваться как контекстуальный прогноз, в то время как ввод данных снизу вверх в большей степени основан на локальных областях изображения. Интерференционные картины, основанные на различиях между данными сверху вниз и снизу вверх, могут быть использованы для определения того, являются ли данные положительными или отрицательными, и алгоритм может быть изменен на обратный, чтобы использовать прогнозирующее кодирование.

More Examples / Results

00:26:00

Алгоритм прямой трансляции был протестирован на наборе данных SIP R10, который содержит более разнообразные и сложные изображения, чем набор данных MNIST. Хотя он работал не так хорошо, как обратное распространение, он все же показал многообещающие результаты. Кроме того, для языкового моделирования использовался алгоритм прямой связи, генерирующий собственные отрицательные данные на основе неверных прогнозов.

Sleep & Phased Learning

00:27:41

Идея, предложенная Хинтоном, заключается в том, что в течение дня мы извлекаем уроки из положительных данных, а во время сна - из отрицательных. Положительные и отрицательные фазы обучения могут быть разделены, и если отрицательные данные слишком велики, они могут разрушиться. Лишение сна может привести к пыткам и безумию у людей и животных.

Related Ideas

00:29:36

В статье обсуждается, как алгоритм прямой связи соотносится с другими идеями в области искусственного интеллекта, такими как машина Больцмана, GANs и контрастивные методы. Алгоритм обратной связи основывается на этих идеях, включая новые элементы и удаляя менее приемлемые аспекты.

Learning Fast & Slow

00:30:38

Идея быстрого и медленного обучения заключается в том, чтобы иметь быстрый внешний цикл обучения и более медленный, но более точный внутренний цикл обучения. Внешний контур может быстро адаптироваться, в то время как внутренний контур может использовать обучение с подкреплением для улучшения системы более медленными темпами, что может помочь достичь более высокого предела производительности.

Mortal Computation

00:32:35

Идея реализации действий в виде напряжений и весов в виде проводимости в аналоговой аппаратной системе могла бы сделать умножение матриц более энергоэффективным. Однако необходимость в аналого-цифровых преобразователях в современном оборудовании делает его менее эффективным. Алгоритм forward forward может стать многообещающим кандидатом для перехода к гораздо более эффективным аппаратным чипам, позволяющим создавать системы, которые намного эффективнее всего, что мы можем производить сейчас.