Instantly get summary of any video!

Intro

00:00:00

В этом руководстве демонстрируется, как преобразовать описания книг в числовые представления для точного сопоставления содержимого, используя передовые методы НЛП, такие как векторный поиск и классификация с нулевым результатом. В нем описан практический процесс, основанный на программировании, который включает в себя очистку текстовых данных, анализ тем и эмоций с помощью больших языковых моделей и интеграцию этих элементов в интерактивную панель мониторинга. Этот подход подтверждает, что работа с LLMS доступна и может быть адаптирована к различным текстовым рекомендательным системам, что служит универсальной основой для будущих проектов.

Introduction to getting and preparing text data

00:03:05

Проект начинается с поиска данных в Kaggle, где активное сообщество делится разнообразными наборами данных, в том числе несколькими для обработки на естественном языке. Тщательно подобранный набор данных 7K books, содержащий исчерпывающую информацию, такую как ISBN, названия, подзаголовки, авторы, миниатюры обложек, описания, даты публикации и рейтинги, которые формируют прочную основу для системы рекомендаций. PyCharm, универсальная среда IDE для Python, используется для эффективной обработки и анализа данных, создавая надежный рабочий процесс для дальнейшего изучения.

Starting a new PyCharm project

00:05:51

Запуск проекта PyCharm в виртуальной среде Процесс начинается с установки и открытия PyCharm, где на экране приветствия предлагаются варианты создания нового проекта. Выбирается проект на чистом Python с виртуальной средой по умолчанию вместо специализированной настройки. Проекту присваивается имя, и среда автоматически настраивает окно инструментов интерпретатора и упаковки для плавного запуска.

Установка необходимых библиотек для работы с данными и LLM Зависимости устанавливаются через инструментальное окно Python packages для поддержки задач обработки данных и моделирования. Установка включает в себя Kaggle Hub для бесперебойной загрузки данных и pandas для обработки табличных данных. Также настроены инструменты визуализации, такие как matplotlib и Seaborn, пакеты управления учетными данными, а также крупные платформы языковых моделей, такие как Lang chain и Transformers, gradio, Jupyter и ipywidgets.

Загрузка набора данных Books Новый Jupyter Notebook создан для интеграции кода шаблона, предоставленного Kaggle Hub для загрузки данных. Набор данных автоматически помещается в указанную папку и содержит один CSV-файл с именем "books.csv". Затем CSV-файл считывается в pandas, и в нем отображаются те же структурированные данные, что и на странице Kaggle.

Анализ свойств набора данных и потребностей в очистке Интерактивный инструмент в PyCharm отображает подробную статистику по столбцам, чтобы проверить качество набора данных. Отмечены уникальные идентификаторы и обширное поле описания, в то время как в столбце субтитров наблюдается высокий процент пропущенных значений. Наблюдение за несоответствующими обозначениями категорий подчеркивает необходимость очистки и стандартизации данных, чтобы повысить их полезность для построения рекомендательной системы.

Patterns of missing data

00:16:59

Сопоставление недостающих данных для выявления предвзятости Выявление закономерностей в пропущенных значениях имеет решающее значение для предотвращения искажений в наборе данных. Тепловая карта, созданная с использованием Caborn и Matplotlib, преобразует данные и помечает их для более четкой визуализации. Закономерности проявляются в том, что некоторые переменные, такие как средний рейтинг, количество страниц и количество оценок, показывают одновременное отсутствие записей, что указывает на другой источник или подгруппу данных.

Проверка недостающих описаний на предмет целостности рекомендаций Описания книг, необходимые для обработки на естественном языке в рекомендательных системах, тщательно проверяются на предмет искажений из-за отсутствия данных. Двоичный индикатор отмечает недостающие описания при преобразовании года публикации в возраст книги, и они анализируются наряду с количеством страниц и средними оценками. Корреляционная матрица Спирмена и последующая тепловая карта выявляют слабые взаимосвязи, подразумевая, что отсутствие описаний не приводит к систематическому искажению других характеристик книги.

Устранение минимальных недостающих данных для сохранения качества набора данных Целенаправленный анализ позволяет определить количество пропущенных данных по ключевым полям, таким как описание, количество страниц, рейтинг и год публикации. В наборе данных всего 303 строки с пробелами, что составляет менее 5% от общего числа записей. Удаление этих нескольких записей обеспечивает надежный набор данных, сводя к минимуму потенциальную погрешность и оптимизируя последующий анализ.

Checking the number of categories

00:25:21

Обзор набора данных показывает, что более 500 различных и чрезмерно специфичных категорий книг остаются даже после очистки, что делает поле практически непригодным для использования. Анализ показывает, что преобладают такие распространенные категории, как "художественная литература" и "детская литература", в то время как многие категории используются редко, что подчеркивает ярко выраженную тенденцию "длинного хвоста". Визуализация этого распределения с помощью гистограмм подтверждает важность нормализации, и для устранения этого дисбаланса предлагается метод, использующий большие языковые модели.

Remove short descriptions

00:28:27

Оценка достаточности описания книги Набор данных показывает, что многие описания книг слишком краткие, чтобы служить надежными рекомендациями, а некоторые записи сводятся к одному неинформативному слову. Количество слов подсчитывается путем разбиения каждого описания на пробелы, что позволяет получить доступ к этим минимальным записям. Гистограмма количества слов показывает отсутствие естественного разрыва между слишком короткими и адекватными описаниями, что указывает на необходимость ручной отсечки. Этот анализ подтверждает, что описания, недостаточно подробные, не могут эффективно служить основой для рекомендаций.

Внедрение фильтра из 25 слов для получения надежных рекомендаций Разбивка описаний на разделы для подсчета количества слов показывает, что записи, содержащие менее 25 слов, редко дают достаточно информации о книге. Описания постепенно становятся более подробными по мере увеличения количества слов, и 25 слов становятся пороговым значением, при котором предоставляется достаточно информации. Фильтрация набора данных для включения в него только записей, содержащих 25 или более слов, позволяет увеличить количество записей примерно до 5200. Такой подход эффективно гарантирует, что для составления рекомендаций по книгам используются только достаточно информативные описания.

Final cleaning steps

00:34:36

Интеграция названий книг и субтитров для обеспечения согласованности В процессе очистки пропущенные значения субтитров устраняются путем объединения заголовка и подзаголовка с помощью стандартного разделителя двоеточий, что соответствует общепринятым правилам именования книг. При отсутствии подзаголовка заголовок используется как есть, что обеспечивает согласованность записей. Явное преобразование строк гарантирует, что объединенное поле правильно отформатировано во всем наборе данных.

Добавление тегов ISBN и доработка набора данных К описанию каждой книги добавляются уникальные идентификаторы с указанием ISBN 13 в качестве префикса, что гарантирует уникальность каждой записи. Этот метод заключается в преобразовании ISBN и описания в строки и объединении их в одно поле с тегами. После создания этих ключевых столбцов ненужные данные удаляются, а очищенный набор данных сохраняется для будущей работы с NLP.

Introduction to LLMs and vector search

00:38:11

Преобразование текста в математические векторы Исходный текст преобразуется в числовые векторы, которые отображают значение слов, позволяя проводить математические сравнения между текстами. Это преобразование начинается с простого встраивания слов, которые группируют похожие слова в многомерном пространстве. Ранние модели встраивания, такие как те, которые используют метод skip-gram, изучают контекст, предсказывая окружающие слова, формируя основу для последующих разработок.

Улавливание нюансов с помощью контекстуального внимания к себе Усовершенствования в текстовом представлении включают позиционное кодирование и внимание к себе, которые добавляют контекст к вставляемым словам. Присваивая значения на основе окружающих слов, модель дифференцирует значения, например, позволяет отличить финансовое учреждение от речного берега для слова "банк". Этот механизм самоконтроля улучшает понимание, выборочно фокусируясь на важных словах в предложении.

Платформа Transformer Framework: Кодеры и декодеры Модель Transformer революционизирует языковую обработку благодаря своим двум компонентам: кодерам для понимания исходного текста и декодерам для генерации последовательностей на целевом языке. Кодеры фиксируют сложные взаимосвязи между словами, в то время как декодеры используют эту информацию для получения согласованных выходных данных. Эта архитектура поддерживает как задачи генерации, так и задачи понимания и формирует основу для современных больших языковых моделей.

Использование предварительно подготовленных моделей для встраивания документов Предварительно обученные модели, примером которых могут служить системы на основе кодировщиков, такие как Roberta, совершенствуются с помощью задач, которые предсказывают замаскированные слова для создания глубоких контекстуальных связей. Они преобразуют целые предложения или документы в сжатые векторы, которые точно отражают их значение. Эти вложения в документы позволяют математически сравнивать и оценивать сходство между различными текстами.

Эффективный векторный поиск в практических системах Вложенные документы хранятся в векторных базах данных с уникальными идентификаторами, которые ссылаются на полный текст и метаданные. Запрос преобразуется в вектор и сравнивается с базой данных с использованием таких показателей, как косинусоидальное сходство, что позволяет получить наиболее релевантные результаты. Усовершенствованные алгоритмы индексации еще больше повышают эффективность такого поиска за счет группировки похожих векторов, чтобы сбалансировать скорость и точность.