Intro
00:00:00Кайли Ин, физик и инженер с опытом работы в таких престижных институтах, как Массачусетский технологический институт (MIT) и ЦЕРН, знакомит новичков с машинным обучением в доступной для начинающих форме. Основное внимание уделяется объяснению моделей обучения под наблюдением и без присмотра, а также лежащей в их основе логике и математике. Кроме того, для лучшего понимания будут продемонстрированы практические примеры программирования с использованием Google CoLab.
Data/Colab Intro
00:00:58Изучение набора данных Magic Gamma Telescope Репозиторий машинного обучения UCI предлагает множество наборов данных, включая интригующий набор данных magic gamma telescope. Этот набор данных фиксирует паттерны частиц высокой энергии, попадающих в камеру гамма-телескопа, и предназначен для классификации этих частиц как гамма- или адронных на основе их зарегистрированных атрибутов, таких как длина, ширина и асимметрия. Цель состоит в том, чтобы использовать эти свойства для эффективного различения типов частиц.
Настройка данных в Google Colab Чтобы начать работать с этими данными в Google Colab, необходимо импортировать необходимые библиотеки, такие как NumPy и pandas, перед загрузкой загруженного CSV-файла в DataFrame. После импорта данных без начальных меток имена столбцов присваиваются с использованием значений атрибутов из предыдущих наблюдений. Важным шагом является преобразование обозначений классов "G" (гамма) и "H" (адрон) в числовые представления для упрощения обработки алгоритмами.
Понимание классификации по признакам Каждая запись в нашем наборе данных представляет собой индивидуальную выборку, характеризующуюся множеством признаков, которые будут использоваться для задач классификации, в частности, для прогнозирования принадлежности будущих выборок к классу G или H с помощью методов контролируемого обучения. Характеристики служат входными переменными, в то время как соответствующие классы выступают в качестве выходных целевых показателей в процессе обучения модели, направленного на повышение точности прогнозирования с течением времени.
Intro to Machine Learning
00:08:45Машинное обучение - это раздел компьютерных наук, который позволяет компьютерам учиться на основе данных без явного программирования. Оно относится к более широкой категории искусственного интеллекта (ИИ), целью которого является имитация задач и поведения человека, в то время как машинное обучение фокусируется на составлении прогнозов на основе данных. Наука о данных пересекается с этими областями, анализируя закономерности в данных и часто используя методы машинного обучения. Существует три основных типа машинного обучения: контролируемое обучение использует маркированные входные данные для моделей обучения; неконтролируемое обучение выявляет закономерности в немаркированных данных; и обучение с подкреплением предполагает взаимодействие агента со своей средой посредством вознаграждений или штрафов.
Features
00:12:26Понимание типов функций при обучении под наблюдением Контролируемое обучение включает в себя модель машинного обучения, которая использует различные входные данные, известные как векторы признаков, для получения прогнозов. Признаки могут быть качественными или количественными; качественные признаки включают номинальные данные, такие как пол и национальность, без определенного порядка, в то время как порядковые данные, такие как возрастные группы или рейтинги, имеют определенный порядок. Номинальные данные обрабатываются с использованием единой горячей кодировки для преобразования категорий в двоичный формат для понимания модели.
Роль количественных данных в машинном обучении Количественные характеристики - это числовые значения, разделенные на дискретные (целые числа) и непрерывные (вещественные числа). Примеры количественных характеристик включают такие измерения, как длина и температура, или количество предметов, собранных во время мероприятия. Эффективность моделей зависит от их способности обрабатывать эти математические представления, а не от их человеческой интерпретации.
Classification/Regression
00:17:23При контролируемом обучении предсказания могут быть разделены на задачи классификации и регрессии. Классификация предполагает предсказание отдельных классов, например, определение изображений хот-догов, пиццы или мороженого в многоклассовых сценариях или определение того, является ли продукт хот-догом или нет, в бинарной классификации. В качестве примеров можно привести анализ настроений (положительные/отрицательные) и фильтрацию электронной почты (спам/не спам). Регрессия направлена на прогнозирование непрерывных значений, таких как цены на активы или температура, а не отдельных категорий.
Training Model
00:19:57Понимание контролируемого обучения с использованием данных о диабете Контролируемое обучение предполагает подготовку модели с использованием помеченных данных для прогнозирования результатов. В качестве примера можно привести набор данных о диабете в Индии от Pima, содержащий такие характеристики, как беременность и уровень глюкозы, а также целевую метку, указывающую на наличие диабета. Каждая выборка представлена вектором признаков, в то время как все выборки формируют матрицу признаков (X) и вектор меток (Y). Обучение происходит путем итеративной корректировки на основе прогнозов по сравнению с фактическими значениями.
Оценка производительности Модели С Помощью Разбиения Набора Данных Для эффективной оценки производительности модели наборы данных делятся на обучающие, валидационные и тестовые наборы. Обучающий набор помогает уточнить прогнозы модели, минимизируя потери — разницу между прогнозируемыми результатами и истинными метками, — в то время как проверки на достоверность обеспечивают возможность обобщения невидимых данных без влияния циклов обратной связи. Потери количественно определяют точность прогнозирования в различных моделях; меньшие потери указывают на более высокую производительность на этапах оценки.
Роль функций потерь в оценке модели Функции потерь играют решающую роль в измерении того, насколько хорошо модели работают в соответствии с ожидаемыми результатами. К распространенным типам относятся потери L1 для абсолютных различий и потери L2 для квадратичных расхождений, которые в большей степени учитывают большие ошибки; бинарная перекрестная энтропия используется специально для задач бинарной классификации. Кроме того, такие показатели, как точность, дают представление об общей корректности классификаций, сделанных обученными моделями после обработки числовых данных, полученных из наборов данных.
Preparing Data
00:30:57Понимание распределения объектов с помощью гистограмм Визуализация взаимосвязи между объектами и метками классов имеет решающее значение. Построив гистограммы для каждого объекта, можно получить представление о том, как они соотносятся с различными классами, такими как гаммы и адроны. Нормализация этих распределений позволяет упростить сравнение при различных размерах выборки, выявляя закономерности, такие как меньшие длины, которые, скорее всего, связаны с гамма-частицами.
Эффективные стратегии разделения данных Подготовка данных включает в себя разделение наборов данных на обучающие, валидационные и тестовые наборы для обеспечения эффективной оценки модели. Набор данных перемешивается перед разделением в заданном процентном соотношении: 60% - для обучения, 20% - для проверки (от 60 до 80%), а оставшиеся 20% зарезервированы в качестве тестового набора (от 80 до 100%). Масштабирование данных относительно средних значений помогает устранить расхождения в числовых диапазонах между объектами.
Балансировка распределения классов с помощью избыточной выборки Чтобы повысить производительность модели при работе с несбалансированными классами — например, с гораздо большим количеством гамм, чем адронов, — используются методы избыточной выборки. Использование случайной передискретизации увеличивает количество недопредставленных классов в обучающем наборе данных, сохраняя при этом первоначальные пропорции на этапах проверки или тестирования, что позволяет точно оценить надежность модели на основе невидимых данных.
K-Nearest Neighbors
00:44:43Понимание K-ближайших соседей для классификации K-ближайших соседей (KNN) - это модель бинарной классификации, которая определяет метки на основе близости точек данных. На построенном графике доход и количество детей используются для классификации семей на владельцев автомобилей и лиц, не имеющих автомобилей, с использованием знаков плюс и минус. Алгоритм определяет ближайших соседей путем вычисления евклидова расстояния, которое измеряет расстояния по прямой между точками в двумерном пространстве.
Применение KNN с метриками расстояния Значение K определяет, сколько соседних точек влияет на прогноз; обычно оно устанавливается равным 3 или 5 в зависимости от размера набора данных. Анализируя выборки с близлежащими метками, можно делать прогнозы относительно новых точек данных — если большинство соседних точек имеют одну метку, это становится прогнозируемым результатом для неклассифицированной точки. Этот метод выходит за рамки двух измерений и позволяет использовать множество функций, сохраняя при этом свой основной принцип: классификация на основе голосования большинством голосов по наиболее близким примерам.
KNN Implementation
00:52:42Эффективная классификация с помощью KNN с использованием SK Learn K ближайших соседей (KNN) упрощает задачи классификации за счет использования пакета SK learn, который позволяет избежать сложностей с кодированием вручную. Классификатор KNeighborsClassifier импортирован для создания модели, в которой пользователи могут указать, сколько соседей следует учитывать для прогнозирования. После подгонки модели к обучающим данным и создания прогнозов на основе тестовых данных достигается точность в 82%.
Понимание показателей производительности модели: точность и отзывчивость Отчет о классификации от SK learn содержит информацию о показателях точности и отзыва, которые оценивают производительность модели. Точность измеряет истинные положительные результаты среди всех прогнозируемых положительных результатов, в то время как отзыв оценивает правильность идентификации среди фактических положительных результатов. Для этого набора данных нулевой класс показывает более низкие показатели по сравнению с первым классом как по точности, так и по запоминанию, но сохраняет приличные показатели F1 на уровне 0,72 и 0,87 соответственно.
Применение условной вероятности с помощью наивного Байеса Наивный метод Байеса основан на принципах условной вероятности, которые иллюстрируются гипотетическими сценариями тестирования на COVID, включающими ложноположительные / отрицательные результаты, а также статистику распространенности заболеваний. Применяя правило Байеса — вычисляя вероятности на основе известных условий — можно точно определить вероятность заболевания при положительном результате теста, используя предоставленные статистические значения.
"Наивная база" расширяет байесовские концепции и позволяет классифицировать множество категорий или классов в наборах данных, вычисляя апостериорные вероятности для каждой категории на основе наблюдаемых признаков или атрибутов в анализируемых образцах.
Naive Bayes
01:08:43Понимание наивного байесовского расчета вероятности Наивный байесовский метод вычисляет вероятность принадлежности выборки к определенной категории на основе наблюдаемых данных. Он включает в себя определение вероятности признаков для данного класса, наряду с предыдущими вероятностями для этого класса во всем наборе данных. Этот процесс также включает в себя данные, которые преобразуют эти предварительные данные в последующие вероятности.
Применение байесовского правила на примере футбола В примере, связанном с игрой в футбол, различные факторы, такие как погодные условия, рассматриваются в качестве входных данных (признаков). Применяя правило Байеса, можно выразить эту взаимосвязь в терминах общих вероятностей и упростить вычисления, сосредоточив внимание только на соответствующих классах, предполагая независимость признаков.
Максимизация вероятностей классификации с использованием КАРТЫ Чтобы эффективно классифицировать точки данных, используя наивный байесовский подход, мы стремимся максимизировать апостериорную вероятность по всем возможным категориям. Это достигается с помощью MAP (Maximum A Posteriori), где каждая потенциальная классификация оценивается по ее расчетной вероятности до определения наиболее вероятного результата на основе доступных обучающих данных.
Naive Bayes Implementation
01:17:30Реализация наивного Байеса предполагает использование гауссовской наивной байесовской модели от SK learn. Процесс повторяет процесс k-ближайших соседей, где модель дополняется обучающими данными (x_train и y_train). После составления прогнозов в отчете о классификации отображаются такие показатели производительности, как точность, отзывчивость, оценка F1 и общая точность. Хотя общая точность остается на уровне 72%, другие показатели указывают на несколько худшие результаты по сравнению с предыдущими моделями.
Logistic Regression
01:19:22Понимание цели логистической регрессии Логистическая регрессия используется как метод классификации, в отличие от линейной регрессии. График иллюстрирует взаимосвязь между признаками и метками, подчеркивая, что использование простой линии для определения классов не позволяет эффективно их разделить. Возникает необходимость в оценке вероятностей, а не прямых значений; таким образом, вместо необработанных прогнозов используются коэффициенты.
Преобразование шансов в вероятности Чтобы гарантировать, что вероятность остается в пределах 0 и 1, но при этом допускаются бесконечные исходы с коэффициентами, берется логарифм коэффициентов. Это преобразование приводит к уравнению, решение которого для вероятности предполагает возведение в степень обеих сторон и перестановку слагаемых в более удобную форму.
Моделирование данных с помощью сигмовидной функции Итоговое выражение показывает, что логистическая регрессия использует сигмовидную функцию — кривую в диапазоне от нуля до единицы — для точного моделирования точек данных на основе их характеристик. Простая логистическая регрессия рассматривает один признак, в то время как множественная логистическая регрессия учитывает несколько признаков при анализе.
Log Regression Implementation
01:27:56Использование логистической регрессии по умолчанию со штрафом L2 позволяет эффективно обрабатывать выбросы из-за ее квадратичной природы. Хотя можно настроить различные параметры для получения потенциально лучших результатов, основное внимание здесь уделяется простой реализации без тщательной настройки. Модель была адаптирована с использованием обучающих данных и показала неплохие показатели производительности: точность 65%, отзывчивость 71%, показатель F1 68% и общая точность 77%. Это демонстрирует, что даже базовые конфигурации могут обеспечить удовлетворительные результаты в прогнозирующем моделировании.
Support Vector Machine
01:29:13Максимальное разделение с помощью гиперплоскостей Методы опорных векторов (SVM) предназначены для поиска гиперплоскости, которая наилучшим образом разделяет различные классы данных. Цель состоит не только в разделении классов, но и в максимизации разницы между ними, что повышает точность классификации. Опорные векторы - это критические точки на границе, которые определяют ее положение и ориентацию.
Проблемы, связанные с выбросами и размерностью На эффективность SVM могут влиять выбросы, поскольку они существенно влияют на расположение опорных векторов. В одномерных наборах данных проекции могут помочь создать разделяемые границы для улучшения результатов классификации с использованием методов SVM.
Математические основы и хитрости ядра Понимание того, как математически определить оптимальную гиперплоскость, необходимо для эффективного использования SVM-моделей. Это включает в себя применение преобразований, известных как приемы ядра, которые позволяют создавать сложные взаимосвязи в измерениях данных, сохраняя при этом возможности разделения с помощью классификаторов, таких как классификатор опорных векторов (SVC).
SVM Implementation
01:37:54Создание модели SVC предполагает ее подгонку к данным обучения, что может быть сделано эффективно. При построении прогнозов с помощью этой модели точность достигает 87%, что превосходит предыдущие модели в первом классе с оценками выше 0,9 и сохраняет высокие показатели и в нулевом классе. Сравнение четырех классификационных моделей — SVM, логистической регрессии, наивного Байеса и Кэннона — показывает, что, хотя все они имеют настраиваемые гиперпараметры для целей оптимизации, они, как правило, обеспечивают точность около 70-80%; однако SVM выделяется как наиболее эффективная.
Neural Networks
01:39:44Понимание структуры нейронной сети Нейронные сети состоят из входного слоя, скрытых слоев с нейронами и выходного слоя. Каждый нейрон обрабатывает входные данные, применяя веса к таким признакам, как беременность или возраст, и суммирует их вместе с параметром смещения, прежде чем передать результат через функцию активации. Такая структура допускает сложные взаимосвязи в данных, а не просто линейные комбинации.
Роль активационных функций Функции активации вносят нелинейность в нейронные сети, не позволяя моделям сводиться к простым линейным уравнениям. Такие функции, как sigmoid, tanh и ReLU, преобразуют выходные данные таким образом, что вклад каждого нейрона изменяется в зависимости от его входных значений. Такая сложность позволяет лучше моделировать сложные закономерности в наборах данных во время обучения.
Оптимизация производительности Модели С Помощью Обучения Обучение предполагает минимизацию потерь с использованием таких методов, как градиентный спуск, для итеративной корректировки весов модели в направлении оптимальных прогнозов. Процесс вычисляет градиенты относительно вклада каждого веса в общую ошибку, используя скорость обучения (альфа), которая контролирует корректировку размера шага во время обновлений. Правильная настройка обеспечивает конвергенцию без чрезмерного использования решений или отклонения от них.
Tensorflow
01:47:57Библиотеки машинного обучения, такие как SK learn, полезны, но создание нейронных сетей с нуля может быть утомительным и чреватым ошибками процессом. TensorFlow упрощает этот процесс, предоставляя предварительно оптимизированный код для эффективного определения моделей. Это позволяет пользователям создавать последовательные нейронные сети, в которых каждый слой взаимосвязан, например, легко создавать несколько плотных слоев с функциями активации. Например, можно без особых усилий определить модель с 16 плотными узлами в двух скрытых слоях, за которыми следует один выходной узел.
Classification NN using Tensorflow
01:49:50Построение модели нейронной сети в TensorFlow TensorFlow - это библиотека с открытым исходным кодом для разработки и обучения моделей машинного обучения, в частности нейронных сетей. Реализация начинается с импорта TensorFlow и определения модели с использованием слоев, в частности плотных слоев с функциями активации ReLU. Для выходного уровня используется сигмовидная функция, которая классифицирует прогнозы по бинарным результатам (0 или 1), аналогично логистической регрессии.
Компиляция параметров модели Компиляция модели включает в себя выбор оптимизатора — в данном случае Adam — со скоростью обучения по умолчанию равной 0,001 и указание двоичной перекрестной энтропии в качестве функции потерь, а также показателей точности для оценки во время циклов обучения (эпох). Разделение результатов проверки на 20% по сравнению с данными обучения позволяет отслеживать производительность на основе невидимых данных во время подгонки.
Модельный учебный процесс Обучение происходит путем подгонки модели к предоставленным наборам данных за определенные периоды и размеры пакетов, при этом отслеживается история для последующего анализа с помощью графиков, показывающих снижение потерь и повышение точности в разные периоды. Наблюдения показывают, что показатели валидации обычно отстают от показателей, полученных на основе обученных данных, из-за различий в воздействии между ними.
Эффективная оптимизация гиперпараметров Настройка гиперпараметров играет решающую роль в оптимизации производительности нейронной сети; можно вносить коррективы в отношении количества узлов на уровне, частоты отсева для предотвращения переобучения, скорости обучения, количества эпох и т.д., что приводит к методологиям поиска по сетке, которые систематически исследуют различные конфигурации в определенных диапазонах.
.Инкапсуляция функциональности и реализация отсева. Функциональность "Train_model" инкапсулирует все параметры, необходимые для экспериментов, включая изменения количества узлов и вероятности выпадения, которые влияют на то, сколько нейронов временно игнорируется на этапе обновления каждой итерации — стратегия, направленная на расширение возможностей обобщения новых входных данных без слишком тщательного запоминания специфики
Linear Regression
02:10:12Понимание регрессии при обучении под наблюдением Регрессия - это тип контролируемого обучения, направленного на прогнозирование непрерывных числовых значений. Цель состоит в том, чтобы найти линию наилучшего соответствия, которая моделирует разрозненные точки данных, позволяя прогнозировать новые значения x на основе соответствующих им значений y. Линейная регрессия использует уравнение y = b0 + b1x, где b0 представляет собой точку пересечения y, а b1 - наклон.
Роль остатков при подгонке модели Чтобы определить, насколько хорошо наша линейная модель соответствует данным, мы вводим невязки или ошибки — измеряем расхождения между фактическими и прогнозируемыми значениями (y - ∞). Минимизация этих невязок помогает уточнить нашу линейку наилучшего соответствия, уменьшая общую ошибку прогнозирования по всем точкам данных. Этот процесс часто включает в себя минимизацию суммы абсолютных или квадратичных остатков.
Основные допущения, лежащие в основе линейной регрессии Линейная регрессия основывается на нескольких допущениях: линейность указывает на устойчивую взаимосвязь между переменными; независимость гарантирует отсутствие влияния между наблюдениями; нормальность требует нормального распределения остаточных ошибок; гомоскедастичность требует постоянной дисперсии между этими ошибками. Нарушение любого допущения может привести к тому, что линейная регрессия не будет соответствовать определенным наборам данных.
Показатели для оценки производительности модели Оценка модели линейной регрессии может быть выполнена с использованием таких показателей, как средняя абсолютная ошибка (MAE), которая усредняет расстояния от прогнозов до фактических результатов, непосредственно отражая используемые единицы измерения (например, доллары). В качестве альтернативы, среднеквадратичная ошибка (MSE) возводит эти различия в квадрат перед их усреднением — метод, который подчеркивает большие отклонения, но усложняет интерпретацию единиц измерения из-за эффекта возведения в квадрат.
.R-Квадрат: Мера Объясняемой Изменчивости. "Среднеквадратичная ошибка" преобразует MSE обратно в исходные единицы измерения, извлекая из него квадратный корень, сохраняя при этом акцент на значительных неточностях прогнозирования. Кроме того, R-квадрат количественно определяет объясненную изменчивость по отношению к общей изменчивости наблюдаемых результатов — более высокий R-квадрат предполагает лучшую прогностическую способность по сравнению с простым использованием средних результатов в качестве предикторов без эффективного моделирования взаимосвязей
Lin Regression Implementation
02:34:54Использование данных о совместном использовании велосипедов из Сеула Для прогнозирования количества арендованных велосипедов используется набор данных о велопрокате в Сеуле. Данные включают почасовую аренду и различные параметры, такие как температура, влажность, скорость ветра, видимость, температура точки росы, уровень радиации, условия дождя и снега. После импорта необходимых библиотек, таких как TensorFlow и Seaborn, для целей визуализации, а также библиотеки линейных моделей sklearn для регрессионного анализа, выполняется первоначальная подготовка путем очистки набора данных.
Очистка данных: Упрощение функций Импортированный CSV-файл проходит предварительную обработку, в ходе которой удаляются ненужные столбцы, относящиеся к дате или статусу праздника. Для упрощения процессов машинного обучения выполняется двоичное преобразование функциональных меток в целые числа. Ориентируясь исключительно на определенный час (полдень), другие несущественные характеристики, такие как скорость ветра и видимость, которые не оказывают существенного влияния на прогноз количества велосипедов, исключаются из рассмотрения.
Визуальный анализ взаимосвязей объектов Точечные диаграммы иллюстрируют взаимосвязи между остальными переменными — температура показывает сильную корреляцию с арендой велосипедов, в то время как другие демонстрируют более слабые связи или вообще не имеют значения. Это визуальное исследование позволяет уточнить набор функций, используемых при моделировании, сохранив только те факторы, которые считаются влияющими на основе их зависимости от количества арендованных велосипедов.
Построение исходной модели линейной регрессии Обучающие наборы данных, разделенные на обучающие / проверочные / тестовые наборы, позволяют эффективно оценивать модель с помощью простой линейной регрессии, изначально ориентированной только на температуру как независимую переменную, предсказывающую результаты подсчета количества велосипедов. Результаты дают оценку R-квадрат, указывающую на наличие некоторого уровня взаимосвязи, но предполагающую возможности для улучшения с помощью более сложных моделей, включающих несколько предикторов одновременно, а не полагающихся исключительно на одно измерение.
Переход к множественной линейной регрессии повышает точность прогнозирования, о чем свидетельствуют улучшенные показатели R-квадрата при тестировании на основе валидационных наборов данных, содержащих дополнительные релевантные характеристики, помимо одних только температур. Этот сдвиг означает прогресс в направлении эффективного учета более широких влияний, влияющих на тенденции велосипедного движения в различных погодных условиях, в рамках нашей аналитической системы, не упуская из виду простоту на ранних этапах
Lin Regression using a Neuron
02:57:44Чтобы реализовать линейную регрессию с использованием нейронной сети, обучающие данные преобразуются и снабжаются заданными параметрами, такими как значения эпох, равные 1000. Во время обучения отслеживается среднеквадратичная ошибка (MSE), которая показывает сходимость значений. После завершения процесса обучения результаты выводятся на график для сравнения результатов традиционной линейной регрессии и регрессора нейронной сети. Хотя оба метода нацелены на линейный поиск оптимального соответствия, различия обусловлены их соответствующими процессами обучения — нейронные сети используют обратное распространение, в то время как традиционные методы вычисляют соответствие напрямую.
Regression NN using Tensorflow
03:00:15Построение нейросетевой модели для регрессии Использование нейронной сети для регрессии предполагает создание модели с несколькими слоями и единицами измерения. Архитектура включает в себя входной уровень, скрытые слои, использующие функции активации ReLU, и выходной уровень, который также использует ReLU для обеспечения неотрицательных прогнозов. После составления модели с скорректированными темпами обучения выполняется обучение на основе температурных данных при одновременном мониторинге кривых потерь для оценки производительности.
Оценка производительности: нейронные сети против линейной регрессии Переход от линейной регрессии к нейронным сетям выявляет различия в точности прогнозирования, измеряемой среднеквадратичной ошибкой (MSE). Хотя эксперименты с различными конфигурациями нейронной сети показывают многообещающие результаты в выявлении сложных взаимосвязей в наборах данных, они не всегда могут превзойти более простые модели, такие как линейные регрессоры, в зависимости от конкретных сценариев или используемых наборов данных.
Понимание различий между обучением под наблюдением и без присмотра Контролируемое обучение использует помеченные наборы данных, в которых функции соответствуют известным результатам; это позволяет проводить прогностическое моделирование на основе существующих меток. В отличие от этого, неконтролируемое обучение имеет дело исключительно с немаркированными данными, направленными на выявление закономерностей или структур без предопределенных категорий, что, помимо других методов, открывает возможности для кластеризации и ассоциативных задач.
K-Means Clustering
03:13:13Идентификация кластеров в данных с использованием K-средних Кластеризация с использованием K-средних значений направлена на выявление отдельных кластеров в наборе данных путем вычисления "k" групп на основе характеристик разбросанных точек. Пользователь определяет количество кластеров, k, которое влияет на способ группировки данных; например, при k=2 или k=3 различные кластерные образования возникают из одного и того же набора точек.
Расчет расстояний и назначение точек Алгоритм начинается с выбора случайных центроидов, соответствующих каждому кластеру, и вычисления расстояний между всеми точками данных и этими центроидами. Затем каждой точке присваивается ближайший центроид на основе вычислений расстояния, формируя первоначальные группировки, которые могут изменяться по мере продолжения итераций.
Конвергенция посредством итерации После присвоения точкам их ближайших центроидов новые положения центроидов пересчитываются с использованием средних значений по назначенным группам. Этот процесс повторяется до тех пор, пока в назначениях не прекратятся дальнейшие изменения, что указывает на сходимость, и в результате будут получены стабильные кластеры, представляющие базовые закономерности в данных.
Principal Component Analysis
03:23:46Уменьшение размерности за счет анализа основных компонентов Анализ основных компонентов (PCA) - это метод, используемый для уменьшения размерности, позволяющий упростить сложные наборы данных с множеством функций до меньшего количества измерений при сохранении важной информации. Анализируя распределение точек данных относительно друг друга, PCA определяет направление максимальной дисперсии в наборе данных. Это позволяет визуализировать и моделировать, даже если может быть представлено только одно измерение.
Максимизация Дисперсии при Минимизации Остатков На практике PCA проецирует многомерные данные на единую ось, которая фиксирует наиболее значительный разброс между точками. Цель состоит в том, чтобы минимизировать остаточные значения проекции — расстояния между исходными точками и их проекциями — при максимальном отклонении по этому новому измерению. Такой подход гарантирует, что ключевые характеристики набора данных останутся неизменными, несмотря на снижение его сложности.
Преобразование структуры данных с использованием основных компонентов Преобразованные наборы данных, сокращенные с помощью PCA, позволяют проводить более простой анализ или строить графики с учетом других переменных, не теряя при этом важной информации из более высоких измерений. Например, если начать с сотен объектов, но использовать всего пять основных компонентов, интерпретация значительно упрощается при сохранении соответствующих закономерностей в структуре данных. В конечном счете, PCA служит эффективным методом извлечения значимых представлений из многомерных пространств, фокусируясь на максимизации дисперсии или минимизации остаточных значений.
K-Means and PCA Implementations
03:33:54Кластеризация сортов Пшеницы с использованием неконтролируемого обучения Внедрение обучения без учителя начинается с набора данных seeds из репозитория машинного обучения UCI, содержащего геометрические параметры зерен пшеницы, принадлежащих к трем типам: comma, Rosa и Canadian. Среди прочих характеристик - площадь, периметр, компактность. Цель состоит в том, чтобы сгруппировать эти разновидности без предварительного знания их классов.
Визуализация данных для анализа кластеризации Визуализация данных начинается с сопоставления различных комбинаций объектов друг с другом без учета меток классов. Это помогает визуально наблюдать потенциальные кластеры; однако на некоторых графиках видны перекрывающиеся группы, что указывает на сложность различения определенных классов на основе выбранных измерений.
Применение кластеризации по K-среднему значению для идентификации группы Кластеризация по методу K-средних применяется с использованием определенных пар признаков, таких как периметр и асимметрия, для идентификации кластеров в точках данных. Путем подбора K-средних значений для известного числа кластеров (трех) делаются прогнозы, которые можно сравнить с фактическими метками классов, выявляя разумную точность, несмотря на несоответствия меток из-за произвольной маркировки с помощью алгоритма K-средних значений.
Повышение Точности Кластера За Счет Увеличения Размеров Многомерный анализ предполагает использование всех доступных функций, кроме последней (class), для получения более полных результатов кластеризации с помощью k-средств, которые снова показывают улучшенное разделение между идентифицированными группами при визуализации вместе с исходными классификациями, даже если иногда существуют совпадения.
. PCA сокращает размерность с семи до двух основных компонентов, обеспечивая более четкое представление и дальнейшее применение кластеризации k-значений в этом преобразованном наборе данных, что приводит к лучшей разделимости, чем предыдущие попытки, демонстрирующие эффективность, без необходимости предварительного ввода маркировки на этапе обучения.