Обучение большим языковым моделям Обучение большим языковым моделям, таким как GPT, включает в себя четыре основных этапа, а именно предварительную подготовку, контролируемую тонкую настройку, моделирование вознаграждения и обучение с подкреплением. Предварительное обучение - это наиболее трудоемкий с точки зрения вычислений этап, на котором собирается и маркируется большой объем данных из различных источников, прежде чем они будут переданы в нейронную сеть transformer для прогнозирования.
Тонкая настройка базовых моделей для последующих задач Тонкую настройку базовых моделей можно эффективно выполнить всего на нескольких примерах, используя быстрое проектирование, чтобы заставить их выполнять задачи. Это хорошо работает, потому что эти модели усвоили мощные общие представления на этапе предварительной подготовки благодаря многозадачности в языковом моделировании.
Создание помощников GPT с помощью контролируемой тонкой настройки и обучения с подкреплением Контролируемые модели точной настройки (SFT) создаются путем сбора высококачественных наборов данных быстрого реагирования QA, которые подвергаются аналогичному языковому моделированию, как и при предварительном обучении, но в меньших масштабах. Затем эти SFT могут быть использованы в качестве помощников, хотя они не всегда могут давать надежные ответы. Для создания более эффективных помощников требуются дальнейшие шаги, включающие обучение подкреплению на основе обратной связи с человеком, состоящее как из моделирования вознаграждения, так и из методов RLHF, которые включают ранжирование созданных моделью дополнений на основе предпочтений человека с последующей бинарной классификацией между парами для улучшения производительности с течением времени.
Обучающие модели RLHF Модель вознаграждения обучается путем наблюдения за трансформатором с помощью одного зеленого жетона и прогнозирования некоторого вознаграждения за то, насколько хорошим будет выполнение этого запроса. Далее следует этап обучения с подкреплением, на котором мы используем SFT для создания дополнений, выделенных желтым цветом, и оцениваем цель языкового моделирования по вознаграждениям, указанным в модели фиксированного вознаграждения.
Применение модели помощи GPT Подсказки могут компенсировать когнитивные различия между человеческим мозгом и мозгом LLM. Распределите рассуждения по большему количеству токенов, демонстрируйте работу при ответе на вопросы, проводите многократные пробы с использованием методов самосогласованности, чтобы найти хорошие образцы, или проводите голосование большинством голосов. Воссоздайте мыслительные процессы второй системы, например, проверьте, было ли выполнено задание, поскольку трансформеры - это просто имитаторы токенов без способности к отражению мыслительного процесса второй системы у людей.
Вторая система мышления для людей В документе "Древо мысли" предлагается поддерживать несколько завершений для любого заданного запроса и оценивать их по ходу выполнения, чтобы сохранить те, которые выполняются хорошо. Авторы предлагают использовать код Python glue вместе с отдельными подсказками, вызываемыми в цикле while, или более крупным алгоритмом, который похож на поиск по дереву Монте-Карло в Alphago.
Поиск дополненных моделей Поисковые дополненные модели работают путем загрузки в рабочую память соответствующей информации, к которой можно получить немедленный доступ при необходимости. Одним из примеров является Lama index, где соединители данных индексируют все типы данных и делают их доступными для Llms посредством встраивания векторов, представляющих эти данные.
Методы тонкой настройки и варианты использования Методы тонкой настройки, такие как perimeter efficient fine-tuning, позволяют обучать только небольшие разреженные фрагменты модели LLM, поэтому большинство деталей остаются закрепленными на базовом уровне. Однако это требует технических знаний, поскольку для создания наборов данных требуются люди-подрядчики или синтетические конвейеры; реализация RLHF пока может быть неудобна для начинающих из-за ее нестабильности во время обучения. Llm имеют такие ограничения, как предвзятость, ошибки галлюцинаций и другие, поэтому их следует использовать в приложениях с низкими ставками, всегда сочетая с контролем со стороны человека в качестве второго пилота, а не полностью автономных агентов, выполняющих задачи где-то в другом месте