Your AI powered learning assistant

Учебное пособие по обработке естественного языка (NLP) | Учебное пособие по науке о данных | Simplilearn

Intro

00:00:00

В этом видео мы познакомимся с увлекательным миром морской жизни и его важностью для нашей планеты. Мы узнаем о разнообразных экосистемах, существующих под поверхностью океана, и о том, как они способствуют поддержанию здоровой окружающей среды для всех живых существ.

Natural Language Processing (NLP)

00:00:18

Обработка естественного языка (NLP) - это автоматизированный способ понимания и анализа человеческих языков, извлечения информации из текстовых документов, изображений, аудио или видео с использованием алгоритмов машинного обучения. Это позволяет машинам воспринимать лингвистическую информацию.

Why Natural Language Processing

00:00:51

Обработка естественного языка (NLP) необходима для извлечения смысла из вводимых человеком данных, особенно в эпоху глобальных подключений и огромных объемов цифровых данных. NLP решает такие задачи, как анализ текста, изображений, аудио и видео на нескольких языках, одновременно устраняя двусмысленности. Современные библиотеки программного обеспечения обеспечивают полную автоматизацию и лучшее понимание настроений благодаря разнообразному знанию языка.

NLP Terminology

00:02:10

Понимание терминологии НЛП: Узнайте о границах слов, токенизации, стемминге, значениях IDF, семантической аналитике, устранении неоднозначности и тематических моделях.

The NLP Approach for Text Data

00:03:34

Подходы к анализу текста в НЛП Подходы НЛП к анализу текстовых данных включают базовую обработку текста, категоризацию и пометку слов, классификацию текста, извлечение информации, анализ структуры предложений, построение структур на основе признаков для фиксации формальных правил грамматики и анализ значения данного набора данных.

Установка среды NLP Чтобы установить среду NLP в командной строке Anaconda: 1. Введите "conda install scikit-learn", чтобы установить пакет scikit-learn. 2. Введите "conda install nltk", чтобы установить пакет NLTK в среду Python. 3. Введите "импортировать nltk", перейдите по другим моделям/пакетам, убедившись, что установлен корпус стоп-слов; затем закройте окно и вернитесь в среду Jupyter notebook.

Выполнение анализа предложений "Стоп-слова" с небольшим лексическим значением удаляются из тестовой последовательности с помощью функции пунктуации строк с последующим разделением предложения на слова и удалением стоп-слов с помощью аргумента английского языка в Python.'

Major NLP Libraries

00:10:19

NLTK: Широко используемая библиотека Python для NLP NLTK - это широко используемая библиотека Python для NLP, позволяющая создавать программы для работы с человеческими языками.

Scikit-learn: Мощный пакет с открытым исходным кодом для NLP Scikit-learn - это пакет и модуль Python с открытым исходным кодом, предназначенные для работы с другими библиотеками, такими как NumPy и SciPy, с различными алгоритмами для NLP.

TextBlob: Простые API-интерфейсы для обработки текстовых данных TextBlob предоставляет простые API-интерфейсы для обработки текстовых данных при обработке на естественном языке.

"Интервал": Полезные представления о текстовом значении "Интервал" предлагает множество полезных представлений о значении текста и лингвистической структуре, что делает его еще одной ценной библиотекой в области обработки естественного языка.

The Scikit-Learn Approach

00:11:09

Подход scikit-learn представляет собой мощную библиотеку со встроенными модулями для обработки и анализа данных на естественном языке, включая текст и изображения. Он включает в себя обучение моделям с использованием контролируемых или неконтролируемых моделей для прогнозирования результатов на основе определенных категорий. Кроме того, он включает в себя методы построения конвейера, такие как векторизация, преобразование, обучение модели/применение, оптимизация производительности и поиск по сетке.

Modules to Load Content and Category

00:14:15

Узнайте о встроенных модулях scikit-learn для загрузки содержимого наборов данных и категорий. Метод 'scikitlearn.datasets.load_files' используется для загрузки текстовых файлов с категориями в качестве имен вложенных папок, которые затем используются в качестве имен меток контролируемых сигналов. Чтобы использовать текстовые файлы в алгоритме классификации или кластеризации scikit-learn, необходим модуль "sklearn.feature_extraction.text" для создания преобразователя извлечения признаков, соответствующего вашей задаче.

Feature Extraction

00:16:56

Извлечение объектов - это метод в scikit-learn для преобразования контента в числовые векторы для машинного обучения. Он используется в основном с текстовыми данными или данными изображений, и существует два типа: извлечение текстовых объектов и извлечение графических объектов.

Bag of Words

00:17:42

Набор слов - это распространенный метод извлечения текстовых признаков, используемый для преобразования текстовых данных в векторы числовых признаков фиксированного размера. Он включает присвоение целочисленного идентификатора каждому слову, подсчет вхождений каждого слова и сохранение его в качестве значения признака в матричном формате.

CountVectorizer Class Signature

00:18:27

Класс CountVectorizer в scikit-learn преобразует текстовые документы в матрицу количества токенов, используя различные параметры, такие как кодировка, разделительные акценты, токенизатор, список стоп-слов, максимальный порог и минимальный порог. Это помогает маркировать документ и присваивает числовые значения каждому слову.

Model Training

00:22:49

Обучение модели имеет решающее значение для определения правильной модели на основе набора данных. Scikit-learn предлагает множество моделей для контролируемого и неконтролируемого обучения, каждая из которых обучается с использованием извлеченных функций из набора данных. Контролируемое обучение включает в себя прогнозирование результатов, понимание влияния предикторов и обобщение данных для поиска ответов. Неконтролируемое обучение фокусируется на понимании структуры данных, выявлении закономерностей и предикторов, имеющих сходство или знакомые черты.

Naive Bayes Classifier

00:24:33

Наивный байесовский классификатор - это базовый метод классификации текста, предполагающий, что вероятность принадлежности каждого атрибута значению класса не зависит от всех других атрибутов. У него есть такие преимущества, как ограниченное использование процессора и памяти, что делает его эффективным и быстрым во время обучения модели. Наивный байесовский алгоритм широко используется при обнаружении спама по электронной почте, категоризации документов, определении языка и распределении по нескольким номиналам.

Grid Search and Multiple Parameters

00:25:46

Поиск по сетке и нескольким параметрам Поиск по сетке в scikit-learn помогает найти наилучшие параметры для обучения модели, разделяя набор данных на сетки и выполняя исчерпывающий поиск. Он настраивает предыдущий класс в соответствии с данными, извлекает объекты из классификатора документов и использует множество параметров для оптимизации производительности. Конвейер сочетает в себе векторизацию, преобразование вхождений слов и обучение модели с использованием библиотек scikit-learn.

Применение поиска по конвейеру и сетке В этой демонстрации мы узнали, как создать конвейер для обработки текста, используя counter vectorizer для маркировки документов и tf-idf transformer для взвешивания терминов. Мы также использовали классификатор SGD из линейной модели вместе с классом поиска по сетке для выполнения исчерпывающего поиска параметров по всему набору данных.