Your AI powered learning assistant

Лекция 07 - Измерение венчурного капитала

Intro

00:00:00

Введение в основной результат теории обучения, сосредоточенный на характеристике набора гипотез H и введении понятия точки останова. Функция роста m_H от N ограничена формулой, зависящей от точки останова.

Review of Lecture 6

00:00:52

Функция роста и ее значение Функция роста обеспечивает полиномиальную верхнюю границу избыточности в обучении, порядок которой зависит от точки разрыва. Она характеризует перекрывающиеся плохие области различных гипотез и позволяет перейти от неравенства Хеффдинга к неравенству VC, что имеет решающее значение для обобщения в машинном обучении.

Введение в измерение VC Измерение VC - это фундаментальная концепция, связанная с точками останова, которая количественно оценивает возможности наборов гипотез. Понимание этого становится важным для практических сценариев обучения, поскольку оно служит мерой сложности и информирует о принятии решений относительно используемых наборов гипотез.

Outline

00:04:25

В видео обсуждается редкий случай получения точного значения измерения VC, которое обычно ограничено. Понимание и интерпретация этого точного значения поможет в практических приложениях. Интерпретация предполагает понимание его значимости и практического применения.

Definition of VC dimension

00:05:15

Измерение VC - это величина, определенная для набора гипотез, обозначаемая как d_VC. Оно представляет максимальное количество точек, которые могут быть разбиты набором гипотез. Если N самое большее равно размерности VC, H может разбить N точек; если N превышает размерность VC, это становится точкой разрыва, при которой никакие наборы из такого количества точек не могут быть разбиты.

The growth function

00:08:10

Функция роста ограничена формулой, включающей измерение VC, с k в качестве индекса суммирования. Наименьшая точка разрыва равна 1 над измерением VC, что упрощает подстановку для получения формулы, относящейся к измерению VC. Максимальная степень в этом многочлене соответствует N, возведенному в степень размерности VC.

Examples

00:09:20

Измерение VC в положительных лучах Положительные лучи могут разрушить только одну точку, в результате чего размерность VC равна 1. При достижении двух точек это становится точкой разрыва.

Двумерные персептроны и выпуклые множества Двумерные персептроны обладают способностью разрушать три точки до достижения точки разрыва, что придает им размерность VC, равную 3. С другой стороны, выпуклые множества в двух измерениях имеют бесконечную размерность VC из-за их способности разбивать любое количество точек при расположении по периметру окружности.

Ограничения и оптимизации с учетом измерения VC Использование измерения VC обеспечивает верхнюю границу для анализа, но не всегда может точно отражать сценарии реального мира. Выбирая внутренние точки равномерно по пространству вместо определенных узоров, таких как круги или лучи, можно достичь лучших результатов, чем указано в теоретической функции максимального роста.

VC dimension and learning

00:11:41

Понимание измерения VC Измерение VC определяет, будет ли обобщаться конечная гипотеза, и для этой гарантии оно должно быть конечным. Утверждение об обобщении не зависит от алгоритма обучения и распределения входных данных. Также не имеет значения, какова целевая функция, пока она генерирует примеры для обучения.

Актуальность гипотезы, установленной в теории венчурного капитала Набор гипотез с измерением VC имеет решающее значение для определения обобщения. Другие элементы, такие как обучающие примеры, актуальны из-за их вероятностной природы, но они непосредственно не участвуют в обеспечении обобщения в соответствии с теорией.

VC dimension of perceptrons

00:16:06

Вычисление размерности VC для персептронов Цель состоит в том, чтобы вычислить точную формулу для измерения VC персептронов, проверив понимание определения и получив представление о том, что оно означает. В двумерном пространстве мы получили размерность VC, равную 3; однако в более высоких измерениях, таких как d-мерное пространство, ожидается, что размерность VC будет равна d плюс 1 из-за более легкого разделения точек.

Доказывая Точную формулу Процесс включает в себя доказательство того, что размерность VC не более d плюс 1, а затем демонстрацию того, что она также не менее d плюс 1. Это приводит к подтверждению того, что размерность VC персептронов в точности равна (d + 1).

Here is one direction

00:18:25

Докладчик обсуждает построение определенного набора из N точек, где N равно d плюс 1. Эти точки построены с использованием матрицы и выбраны так, чтобы их можно было разбить. Матрица, используемая для этой цели, содержит все единицы в первом столбце и диагональную структуру с добавленными нулями.

Can we shatter this data set?

00:21:23

Разрушение набора данных Цель состоит в том, чтобы разбить набор данных, найдя персептрон, который реализует любую дихотомию меток +1 или -1 для заданных точек. Этого можно достичь, найдя w таким образом, что Xw равно y, даже до принятия знака, и используя алгебру для решения для w.

Установление измерения VC Показав, что по крайней мере d + 1 точек может быть разрушено, мы устанавливаем размерность VC как большую или равную d + 1. Чтобы показать, что она меньше или равна d + 1, нам нужно продемонстрировать неспособность разрушить любой набор из d + 2 точек.

Неспособность разрушить D+2 очка Для любого выбранного набора из d+2 точек в пространстве, имеющем только d измерений плюс добавленную координату, между ними всегда будет линейная зависимость. Это приводит нас к построению дихотомии, которая не может быть реализована с помощью персептрона.

Why?

00:31:09

Персептрон - это линейная сумма входных данных, умноженная на веса. Сигнал для каждого входа представляет собой сумму сигналов с разными коэффициентами, что приводит к согласованию знака между ними. Это приводит к положительному значению и заставляет персептрон быть равным +1.

Putting it together

00:33:40

Интерпретация измерения VC Размерность VC d-мерного персептрона равна d плюс 1, что соответствует количеству параметров в модели персептрона. Параметры, представленные вектором w и его компонентами от w_0 до w_d, определяют, как точки могут быть разбиты. Большее количество параметров приводит к более высокому размеру VC, что обеспечивает большую гибкость при достижении разрушения.

Практическое применение измерения VC Понимание математического определения и значимости измерения VC соотносит его с количеством параметров на практике. Это дает представление о том, сколько точек можно эффективно классифицировать и использовать в качестве инструмента для практического обучения.

1. Degrees of freedom

00:36:06

Понимание измерения VC предполагает рассмотрение степеней свободы, которые определяются параметрами в модели. Эти параметры действуют как регуляторы, позволяющие создавать различные гипотезы. Измерение VC преобразует аналоговые степени свободы в двоичные, представляя максимальное число дихотомий, которое может быть достигнуто.

The usual suspects

00:39:19

Понимание положительных лучей Рассматриваются положительные лучи и измерение VC с акцентом на взаимосвязь между степенями свободы и измерением VC. Концепция положительных лучей проиллюстрирована с помощью диаграмм, объясняющих, как гипотезы определяются в рамках этой модели на основе выбора "a", представляющего одну степень свободы.

Изучение положительных интервалов Обсуждаются положительные интервалы и их размерность VC, подчеркивая, что они могут разрушаться не более чем в двух точках. Диаграммы демонстрируют, как получаются различные гипотезы на основе выбора начала и конца, что соответствует двум параметрам или степеням свободы.

Not just parameters

00:40:50

Степени свободы в зависимости от параметров Различие между степенями свободы и параметрами имеет решающее значение. В некоторых случаях параметр может не влиять на степени свободы. Измерение VC обеспечивает более надежную меру фактических степеней свободы в моделях, игнорируя избыточные параметры.

Эффективное количество параметров Эффективное число параметров, измеряемое с помощью измерения VC, важнее, чем исходное число. Оно фиксирует результат и измеряет истинные степени свободы в модели, а не просто подсчитывает буквальные параметры.

2. Number of data points needed

00:44:43

Измерение VC и точки данных Измерение VC является ключевой теоретической концепцией, определяющей количество примеров, необходимых для обучающих систем. Оно влияет на производительность, влияя на значения эпсилон и дельта, которые, в свою очередь, влияют на утверждение о вероятности. Соотношение между размером VC и количеством примеров соответствует правилу пропорциональности, при этом 10-кратное увеличение размера VC является практическим руководством для достижения разумного обобщения.

Поведение вероятностных кривых Построение N в разных степенях показывает, как это влияет на вероятность в логарифмическом масштабе. С увеличением N вероятности значительно меняются, но следуют регулярной прогрессии, основанной на измерениях VC. Поведение показывает, что для получения значимых вероятностных утверждений требуется больше примеров для больших измерений VC.

Rearranging things

00:58:13

Упрощение неравенства VC Видео начинается с упрощения неравенства VC путем введения эпсилона и дельты в качестве параметров допуска. Объясняется взаимосвязь между эпсилоном и дельтой, а также процесс решения для эпсилона при заданном значении дельты.

Формула Омега и граница обобщения Вводится формула под названием capital Omega, которая зависит от функции роста, размерности VC, количества примеров и вероятности (дельта). Показано, что большая функция роста приводит к худшему обобщению, в то время как большее количество примеров приводит к лучшему обобщению. Обсуждается концепция позитивного утверждения о хороших событиях.

Ошибка обобщения Связана с Абсолютное значение в выражении для привязки к ошибке обобщения упрощено до E_out минус E_in. Эта новая форма дает представление об отслеживании E_out с использованием E_in плюс Omega. Выделен компромисс между размером набора гипотез и его влиянием как на ошибку обучения (E_in), так и на ошибку обобщения (E_out).

"Упорядочивающий" процесс обучения "Регуляризация" процесса обучения предполагает использование прокси, отличного от простой ошибки обучения (E_in), с учетом факторов, выходящих за рамки только E_in, для достижения желаемой производительности вне выборки. Этот метод будет основан на понимании последствий, полученных из предыдущего анализа.'