Intro
00:00:00Большие языковые модели (LLM) превосходно генерируют связный текст, предсказывая последовательности слов на основе изученных вероятностей. Новая мультимодальная модель DeepMind, Gemini, расширяет эти возможности, включая понимание изображений и их генерацию наряду с обработкой звука. В то время как технические детали его архитектуры остаются в значительной степени нераскрытыми, insights предлагает новый подход, который рассматривает генерацию изображений аналогично созданию языка — преобразуя пиксели в символическое представление, похожее на древние иероглифы. Для этого требуются передовые методы машинного обучения, способные эффективно преобразовывать изображения в кодированные последовательности.
Autoencoders
00:03:49Векторный квантованный вариационный автоэнкодер (VQVAE) - это нейронная сеть, предназначенная для сжатия изображений и выделения признаков. Он обрабатывает RGB-изображение, уменьшая его размерность с 256x256 пикселей до скрытого пространства значительно меньшего размера, например, 32x32 с векторами размерности 16. Это приводит к примерно 8%-ной степени сжатия при сохранении основных характеристик за счет определения того, какие аспекты являются решающими, а какие можно отбросить как шумовые. Этот процесс включает в себя два основных компонента: кодер сжимает входные данные в виде представления с меньшим размером, в то время как декодер восстанавливает их обратно в исходный вид, не требуя какой-либо ручной маркировки или контроля.
Latent Spaces
00:06:16Скрытые вложения представляют изображения в виде точек в многомерном пространстве, например, в 100 измерениях. Похожие изображения располагаются близко друг к другу, в то время как другие расположены на некотором расстоянии друг от друга, что сродни размещению книг по жанрам на полках для удобства поиска. Такое пространственное расположение позволяет генерировать новые изображения; выбирая случайные точки в этом скрытом пространстве и декодируя их, можно создавать новые изображения, такие как деревья или автомобили. Такие методы, как вариационные автоэнкодеры, улучшают этот процесс, позволяя генерировать изображения из случайно созданных скрытых вложений. Кроме того, эти модели облегчают такие задачи, как поиск похожих изображений и манипулирование существующими с помощью интерполяции между векторами.
VQ-VAE
00:09:50Векторный квантованный вариационный автоэнкодер (VQ-VAE) представляет собой значительную эволюцию в автоэнкодировании за счет использования дискретного набора встраиваемых векторов, известного как кодовая книга. Эта кодовая книга состоит из доступных для изучения вставок, или кодовых слов, которые представляют язык, основанный на изображениях. Во время кодирования каждый выходной вектор заменяется индексом ближайшего соответствующего вложения из кодовой книги. Затем декодер реконструирует изображения, преобразуя эти индексы обратно в их соответствующие скрытые представления и генерируя новые изображения на основе этой информации.
Codebook Embeddings
00:11:30Векторное квантование (VQ) оптимизирует выходные данные кодировщика, ограничивая их векторами кодовой книги, эффективно разбивая непрерывное скрытое пространство на определенные ячейки. По мере обучения эти вложения перемещаются в пределах этого пространства, чтобы улавливать различные семантические значения из входных данных. Этот процесс позволяет генерировать новые изображения на основе пространственных и семантических кодов с помощью архитектуры кодера-декодера, которая преобразует изображения в их кодифицированные формы. Платформа VQ вдохновила на такие вариации, как векторно-квантованные сети GAN, которые используют генерирующие состязательные сети вместо традиционных архитектур, достигая при этом аналогичных результатов.
Multimodal LLMs generating images
00:14:40Мультимодальные LLM могут генерировать изображения, обучаясь на последовательностях, которые сочетают текстовые и графические маркеры. Процесс начинается с кодирования текста с помощью встраивания слов, в то время как изображения обрабатываются с помощью кодера векторного квантования (VQV) для создания кодированных последовательностей. Эти закодированные графические маркеры затем комбинируются с позиционными кодировками для унифицированного обучения в задачах прогнозирования следующего маркера. Во время логического вывода ввод таких фраз, как "розы красные", позволяет модели последовательно генерировать соответствующие графические коды, которые могут быть декодированы в визуальные представления.