Векторизованный математический анализ для быстрых градиентов в ML Многие модели машинного обучения, обучаемые с помощью градиентного спуска, требуют эффективного дифференцирования функций потерь по параметрам. Производные по координатам являются медленными, в то время как векторное и матричное исчисление обеспечивает прямые и быстрые формулы градиента. Векторизованные реализации на Python (например, NumPy) распараллеливают матричные операции и ускоряют обучение, что делает эти инструменты незаменимыми.
Градиенты как структурированные векторы и матрицы Для скалярного значения f(x) вектора x градиент суммирует частные производные по компонентам в вектор (часто в столбец), при этом для сопоставления форм используются транспонирования. Для аргументов матрицы градиенты собирают частичные значения по элементам в матрицу одинакового размера. Рассматривайте скаляры как равные их перемещению, чтобы сохранить согласованную ориентацию, и отслеживайте такие размеры, как x ∈ R^{n×1} и A ∈ R^{n×m}.
Производная линейной формы Для скаляра f(x) = a^ T x изменение одной координаты показывает ∂f/∂x_i = a_i, в то время как другие члены равны нулю. Сложение этих значений дает ∇_x (a^T x) = a. Поскольку результат является скалярным, перестановка его не изменяет.
Производная квадратичной формы Для f(x) = x^ T A x с константой A разложите по компонентам и разделите случаи i = j и i ∈ j. I-й компонент градиента становится Σ_k (A_{ik} + A_{ki}) x_k. Собирая все компоненты, получаем ∇_x (x^T A x) = (A + A^T) x.
Градиент определителя Используя разложение по Лапласу, частная производная ∂ det(A)/∂A_{ij} равна сомножителю C_{ij}. При C_{ij} = det(A) (A^{-1})_{ji} производная связана с обратной. Следовательно, градиент матрицы удовлетворяет ∂ det(A)/∂A = det(A) A^{-T}.
Упрощенные производные трассировки Поскольку tr(AB) = Σ_i Σ_k A_{ik} B_{ki}, при дифференцировании по A_ {ij} остается B_{ji}. Все остальные члены равны нулю, поскольку они не зависят от A_{ij}. Сборка элементов дает ∂ tr(AB)/∂A = B^T.
Циклическое свойство следа и его пределы Трассировка инвариантна при циклических перестановках: tr(ABC) = tr(BCA) = tr(CAB). Нециклические перестановки, такие как tr(ACB), обычно нарушают равенство. Это свойство обеспечивает безопасные перестановки при дифференцировании без изменения значений.
Градиент билинейного скаляра x ^ T A y Перепишите x^T в y как tr(A y x^T). Применение правила трассировки дает ∂/∂ tr(A·(y x^T)) = (y x^T)^T. Следовательно , θ _A (x^T A y) = xy^T.
Цепное правило с помощью якобиана Для композиции g (f (x)) с векторнозначным f и скалярным g градиент определяется якобианом f. В частности, ∇_x g(f(x)) = J_f(x)^T ∇_f g вычисляется при f(x). Когда f скалярно, якобиан сводится к обычной производной, восстанавливая стандартное правило цепочки.
Градиент логистических потерь в линейной модели С метками y ∈ {-1, +1} потери L(w) = log(1 + exp(−y w^T x)) являются плавными в w. Дифференцирование дает ∇_w L = −y σ(−y w^T x) x, где σ(z) = 1/(1 + e^{−z}). Эквивалентно, коэффициент равен exp(−y w ^ T x)/(1 + exp(−y w^ T x)).
Задача наименьших квадратов в матричной форме Линейная регрессия минимизирует ||y − X w||^2, записанное как (y − X w)^T (y − X w). Расширение дает y ^ T y − 2 y ^ T X w + w ^ T X ^ T X w. Стационарные точки возникают там, где градиент относительно w равен нулю.
Нормальные уравнения и решение в замкнутой форме Установка градиента равным нулю приводит к получению нормальных уравнений X ^ T X w = X ^ T y. Когда X ^ T X обратимо, решением является w = (X ^ T X) ^{-1} X ^ T y. Это аналитическое решение соответствует стандартным методам линейной регрессии.
Почему решение является минимальным Гессиан цели наименьших квадратов равен 2 X ^ T X. Для любого z z ^ T X ^ T X z = || X z || ^ 2 ≥ 0 и строго положителен, если X имеет полный ранг столбца. Положительная определенность в стационарной точке подтверждает наличие (локального) минимума.
Критерий Сильвестра и обратимость В положительно определенной матрице все ведущие главные миноры строго положительны по критерию Сильвестра. Следовательно, det(X ^ T X) > 0, что подразумевает обратимость. Это оправдывает существование (X ^ T X) ^{-1} в условиях полного ранга.
Условия ранжирования и неединственность Если количество выборок меньше или равно количеству признаков или у X отсутствует полный ранг столбца, то X ^ T X не является обратимым. Решение методом наименьших квадратов становится неуникальным, а инверсия в замкнутой форме некорректна. Методы оптимизации все еще могут давать решения, но они не могут быть однозначно определены без дополнительных ограничений или регуляризации.
Векторизация как практическая необходимость Матричные и векторные формулировки позволяют избежать производных по координатам и позволяют выполнять компактные и быстрые вычисления градиента. Реализации на Python с использованием NumPy используют параллелизм при умножении матриц. Это ускоряет рабочие нагрузки и важно для эффективного обучения машинному обучению.