Intro
00:00:00В этой статье предлагается новая альтернатива backprop, написанная Джеффри Хинтоном, которая закладывает возможную основу для будущего искусственного интеллекта, где у нас есть аппаратные чипы, которые обучаются, прокладывая путь к потенциальному будущему, более многообещающему, чем нынешняя парадигма. Обсуждается мотивация статьи, то, как работает недавно предложенный метод, и некоторые результаты.
ClearML
00:01:13ClearML - это комплексная платформа для ML Ops, которая позволяет пользователям отслеживать эксперименты, автоматизировать конвейеры машинного обучения и развертывать модели. Он предлагает такие функции, как отслеживание версий кода и неограниченное количество изменений в Git, а также позволяет пользователям вводить конфигурации в эксперименты через панель мониторинга.
Motivation
00:02:17Мотивация, лежащая в основе этой статьи, заключается в поиске алгоритма, который может обучаться "на лету" и постоянно обрабатывать информацию без необходимости останавливать или сохранять какие-либо нейронные активности. Алгоритм forward forward представлен как решение этих проблем, который может обучаться, не зная точно, как выглядит прямое вычисление, и может передавать последовательные данные по сети. Алгоритм рассматривается как полезная модель обучения в коре головного мозга и способ использования аналогового оборудования с очень низким энергопотреблением.
Forward-Forward Explained
00:05:40Алгоритм переадресации Алгоритм прямой передачи - это тип неконтролируемого обучения, который использует два прямых прохода по разным типам данных с противоположными целями для получения полезного представления входных данных. Алгоритм направлен на то, чтобы сделать качество положительных данных как можно более высоким, а качество отрицательных данных - как можно более низким.
Многоуровневая сеть и нормализация Чтобы улучшить одноуровневую сеть, алгоритм прямой трансляции может быть расширен до многоуровневой сети, где каждый уровень имеет свою собственную цель. Однако это может привести к проблеме, из-за которой следующий уровень может легко идентифицировать положительные данные на основе величины выходных данных предыдущего уровня. Чтобы решить эту проблему, алгоритм использует нормализацию для удаления всех данных о величине скрытого вектора, прежде чем использовать их в качестве входных данных для следующего слоя.
MNIST Example
00:13:54Пример MNIST Набор данных MNIST - это простой набор изображений с нарисованными от руки цифрами, используемый для проверки того, может ли алгоритм forward-forward эффективно изучать многоуровневое представление, отражающее структуру данных. Алгоритм обучается с использованием линейной классификации и локальных восприимчивых полей, достигая частоты ошибок тестирования 1,16%.
Контролируемое обучение с использованием прямого алгоритма Алгоритм прямой трансляции также может быть использован для контролируемого обучения с учетом классификации путем включения метки во входные данные. Комбинируя изображение и метку, сеть может научиться определять разницу между изображениями с правильной меткой и изображениями с неправильной меткой, достигая уровня ошибок тестирования 0,64%. Также обсуждаются различные способы повышения эффективности алгоритма.
Top-Down Interactions
00:18:54Взаимодействие сверху вниз Алгоритм моделирует эффекты "сверху вниз", обрабатывая статическое изображение как видео, обработанное многослойной рекуррентной нейронной сетью. Вектор активности на каждом уровне определяется нормализованными векторами активности как на верхнем, так и на нижнем уровнях на предыдущем временном шаге.
Последствия получения информации "сверху вниз" и "снизу вверх" Ввод данных сверху вниз определяется большей областью изображения и может рассматриваться как контекстуальный прогноз, в то время как ввод данных снизу вверх в большей степени основан на локальных областях изображения. Интерференционные картины, основанные на различиях между данными сверху вниз и снизу вверх, могут быть использованы для определения того, являются ли данные положительными или отрицательными, и алгоритм может быть изменен на обратный, чтобы использовать прогнозирующее кодирование.
More Examples / Results
00:26:00Алгоритм прямой трансляции был протестирован на наборе данных SIP R10, который содержит более разнообразные и сложные изображения, чем набор данных MNIST. Хотя он работал не так хорошо, как обратное распространение, он все же показал многообещающие результаты. Кроме того, для языкового моделирования использовался алгоритм прямой связи, генерирующий собственные отрицательные данные на основе неверных прогнозов.
Sleep & Phased Learning
00:27:41Идея, предложенная Хинтоном, заключается в том, что в течение дня мы извлекаем уроки из положительных данных, а во время сна - из отрицательных. Положительные и отрицательные фазы обучения могут быть разделены, и если отрицательные данные слишком велики, они могут разрушиться. Лишение сна может привести к пыткам и безумию у людей и животных.
Related Ideas
00:29:36В статье обсуждается, как алгоритм прямой связи соотносится с другими идеями в области искусственного интеллекта, такими как машина Больцмана, GANs и контрастивные методы. Алгоритм обратной связи основывается на этих идеях, включая новые элементы и удаляя менее приемлемые аспекты.
Learning Fast & Slow
00:30:38Идея быстрого и медленного обучения заключается в том, чтобы иметь быстрый внешний цикл обучения и более медленный, но более точный внутренний цикл обучения. Внешний контур может быстро адаптироваться, в то время как внутренний контур может использовать обучение с подкреплением для улучшения системы более медленными темпами, что может помочь достичь более высокого предела производительности.
Mortal Computation
00:32:35Идея реализации действий в виде напряжений и весов в виде проводимости в аналоговой аппаратной системе могла бы сделать умножение матриц более энергоэффективным. Однако необходимость в аналого-цифровых преобразователях в современном оборудовании делает его менее эффективным. Алгоритм forward forward может стать многообещающим кандидатом для перехода к гораздо более эффективным аппаратным чипам, позволяющим создавать системы, которые намного эффективнее всего, что мы можем производить сейчас.