Понимание растущей сложности и активное вовлечение Каждая сессия становится все более сложной, поэтому важно заблаговременно улавливать ключевые идеи. Чтобы обучение было эффективным, нужно быть начеку, задавать вопросы и использовать чат для уточнения моментов. Подготовка важна, но существуют ограничения; главное - максимально использовать демонстрацию в реальном времени и объяснения.
Как глубоко копаться в статистике для A/B-тестирования Глубокое погружение в статистику необходимо, когда в компании отсутствует платформа A/B или культура тестирования, особенно без старшего эксперта, который руководил бы экспериментами. Там, где процессы отлажены, а предметные области просты, тяжелая теория может оказаться ненужной. Роль важна: аналитик данных извлекает выгоду из более глубокой статистики, а специалисту по обработке данных по-прежнему необходимы глубокие знания, особенно о распределении данных.
План: Распределения и оценочные свойства Основное внимание уделяется распределению случайных величин и основным свойствам оценщика. Инструментарий основан на объективности, последовательности, эффективности и интервальных оценках. Логистика: сегодня никаких домашних заданий; о субботнем задании будет объявлено отдельно.
Соотношение плотности и кумулятивного распределения: интервальная логика Плотность описывает, как вероятность распределяется по значениям, в то время как кумулятивное распределение F(x) дает вероятность того, что X не превышает x. Для непрерывных переменных вероятность в точке равна нулю, поэтому вероятности понимаются по интервалам. Плотность действует как производная от кумулятивной функции, отражая, как небольшие изменения в x накапливают вероятность.
Объясненные дискретные и непрерывные распределения Дискретные распределения принимают конечный или поддающийся подсчету набор исходов, например, при подбрасывании монеты или броске кубика, и вероятности суммируются непосредственно в единицу. Непрерывные распределения принимают значения через интервалы, такие как рост человека, а вероятности вычисляются как площади под плотностью с помощью интегрирования. Чем дальше человек перемещается вправо, тем больше становится значение F(x), стремящееся к единице над опорой.
Вероятность нулевой точки и погрешность измерения При непрерывных настройках вероятность получения любого точного значения равна нулю, поэтому вероятность определяется интервалами, а не точками. Реальные измерения содержат погрешность: рост человека меняется в течение дня, и приборы допускают погрешность. Плотности гарантируют, что, несмотря на бесчисленное количество точек, общая площадь (вероятность) остается равной единице.
Основы Бернулли: исходы и моменты со счетом 0:1 Одно испытание с двумя исходами имеет вероятности P и 1−P. Математическое ожидание равно P, а дисперсия равна P(1−P). Его кумулятивная функция представляет собой двухступенчатую лестницу: сначала масса равна 0, затем переход к единице равен 1.
Пример дискретной униформы: Чистый штамп Выпадающий кубик дает шесть результатов с равной вероятностью 1/6. Распределение по граням одинаковое, а кумулятивная функция строится в виде лестницы к единице. Это иллюстрирует суммирование дискретных вероятностей.
Биномиальные испытания, комбинации и моменты При фиксированных n испытаниях и вероятности успеха p число успешных попыток K подчиняется биномиальному закону. Масса вероятности равна C(n,k)·p^ k·(1−p)^(n−k), математическое ожидание равно n·p, а дисперсия равна n·p·(1−p). Комбинаторный термин подсчитывает, сколькими способами k попыток могут быть успешными при n попытках.
Исправление сопоставления успеха и неудачи в примере Пример с четырьмя бросками, выполненными высокоточным стрелком, выявил разницу между p и q. Интерпретация p как вероятности успеха делает крайне маловероятными множественные промахи и наиболее вероятными нулевые промахи. Последовательность в том, учитывает ли X успехи или промахи, предотвращает такую путаницу.
Геометрическое время ожидания первого успеха Геометрическая модель описывает момент, когда происходит первый успех. Его масса равна p·q^(k−1), с математическим ожиданием 1/p и дисперсией (1−p)/p2. При высоком p вероятность успеха первой попытки очень высока, а последующие первые попадания становятся все менее вероятными.
Геометрический CDF: По крайней мере, Один успешный результат в рамках X испытаний Кумулятивная функция дает вероятность достижения хотя бы одного успеха в течение первых X попыток. Поскольку при высоком значении p длинные полосы неудач маловероятны, кривая сначала резко повышается, а затем выравнивается. Визуализация отражает значительный начальный скачок, за которым следует постепенный рост.
Пуассоновский подсчет событий с интервалами Пуассон моделирует количество событий в фиксированном временном или пространственном интервале, когда известна только средняя скорость. В качестве примеров можно привести количество автобусов в час, звонков в час или дефектов на 100 метров. Масса равна λ^k·e^(−λ)/k!, а математическое ожидание и дисперсия равны λ.
Пуассоновское поведение и нормальная форма при больших скоростях По мере роста λ гистограмма Пуассона все больше напоминает нормальную кривую. При увеличении λ кумулятивный рост смещается вправо, в то время как при малых значениях λ наблюдается резкий рост. Графики показывают, как центр распределения и его разброс меняются в зависимости от скорости.
Выбор единиц измерения времени и работа с нестационарностью λ - это среднее количество событий за выбранную единицу времени, которое может составлять минуты, часы, дни или больше и может быть изменено на другие единицы измерения. Выбор единиц измерения, количество которых невелико (например, около десяти или меньше), помогает моделированию. Когда ставки меняются в зависимости от времени суток, сегментируйте интервалы, чтобы среднее значение было стабильным; в противном случае простое усреднение может ввести в заблуждение.
Экспоненциальное Время Ожидания между Событиями Экспоненциальный закон моделирует время до следующего события и промежутки между событиями, используя один и тот же параметр скорости λ. Он непрерывен, с наибольшей вероятностью, близкой к нулевому времени, и затухающим хвостом. Концептуально он соответствует геометрическому времени ожидания, но в течение непрерывного времени, а не дискретных испытаний.
Соблюдение переменных областей Область применения имеет значение: время отсчитывается от нуля, в то время как другие измерения могут быть как положительными, так и отрицательными. Например, изменения в финансовых транзакциях могут быть ниже или выше нуля, а исключение отрицательных значений приводит к искажению распределения. Перед построением графика определите полный диапазон возможных значений и отразите его в модели.
Вероятность раннего интервала в экспоненциальной модели Для интервалов одинаковой длины более ранние окна имеют более высокую вероятность, чем более поздние, поскольку кривая со временем затухает. Этот шаблон может показаться неинтуитивным, и его внешний вид зависит от выбранной временной шкалы. Понимание этого зависит от просмотра вероятности через интервалы, а не по точкам.
Экспоненциальная плотность, CDF и эффекты масштаба времени Плотность равна f(x)=λ·e^(−λx), а суммарная величина равна F(x)=1−e^(−λx) для x≥0. Выбор минут вместо часов изменяет форму графика, но отражает тот же процесс под измененной осью. Значения параметров следует интерпретировать применительно к выбранной единице измерения.
Экспоненциальное среднее значение и временная шкала Экспоненциальное распределение имеет среднее значение 1/λ. Выражение скорости в час и перевод в минуты позволяет уточнить шкалу времени ожидания. В запущенных примерах три клиента в час, как правило, ожидали порядка 10-12 минут, в зависимости от того, как был задан параметр λ. Среднее значение служит основным ориентиром для ожидаемого времени ожидания.
Скорость регулирует ширину кривой Площадь под экспоненциальной плотностью равна 1, а λ задает начальную высоту и общую форму. Чем больше λ, тем выше и уже кривая; чем меньше λ, тем шире она становится по оси времени. На графиках в разных временных интервалах этот контраст очевиден (например, короткая минутная шкала по сравнению с 60-минутной шкалой). В нулевой момент времени плотность равна λ.
Думайте интервалами, а не точками Вероятности вычисляются по временным интервалам, а не в конкретные моменты времени. На рассмотренных иллюстрациях вероятность того, что ожидание будет ниже среднего, была примерно равна половине. Для окон одинаковой длины более ранние окна содержат больше вероятностных значений, чем более поздние. Интервал, подобный 0-12 минутам, более вероятен, чем, скажем, 12-24 минуты.
Рост CDF и бесконечный хвост Кумулятивное распределение F(t) дает вероятность того, что следующее прибытие произойдет между нулем и t. С увеличением t эта вероятность возрастает, но никогда не достигнет 1 за конечное время, поскольку распределение имеет бесконечный хвост. В принципе, можно ждать сколь угодно долго, при этом плотность вероятности будет отличаться от нуля. Экспоненциальная синхронизация используется для моделирования ожидания между событиями, когда известна скорость в единицу времени.
Ставки, подсчеты и временные горизонты λ описывает частоту, а не буквальное количество людей. Вопросы о том, “сколько” за короткий промежуток времени могут подразумевать частичное количество людей, что неудобно. Выбор временного интервала, например, 40 минут, для обсуждения ровно двух прибытий позволяет избежать частичных результатов. Трактовка λ как показателя обеспечивает согласованность интерпретации.
Ожидание без воспоминаний Экспоненциальное ожидание не требует запоминания: зная, что событие еще не произошло, вероятность прибытия в течение следующей минуты остается такой же, как и в начале. Изначально ранние минуты (например, первые десять) имеют наибольшую безусловную массу по сравнению с более поздними равными промежутками времени. Однако при условии выживания процесс “перезапускается”, делая вероятность наступления следующей минуты равной нулю. Различие между безусловными интервалами и условными шансами на следующий шаг устраняет очевидный парадокс.
Равномерное ожидание с фиксированным периодом Если автобус ходит ровно каждые 10 минут и прибывает на остановку в произвольное время, время ожидания будет одинаковым на [0,10]. Вероятность прибытия в течение k минут равна k/10 (например, 1/10, 5/10, 9/10). Прибытие в течение 10 минут является несомненным, хотя точный момент неизвестен. Среднее значение равно (a + b)/2, плотность равна 1/(b − a), а дисперсия равна (b − a)^2/12.
Средний Интервал в сравнении Со Строгим Расписанием Экспоненциальное ожидание моделирует средний интервал, например, “в среднем каждые 10 минут”, при случайном распределении времени между прибытиями. Равномерное ожидание применяется, когда события происходят строго каждые 10 минут, но фаза наблюдателя в цикле неизвестна. При идеально строгом и известном расписании ожидание становится детерминированным. Для моделирования промежуточных прибытий, когда известна только скорость, естественным выбором является экспоненциальная.
Интуиция нормального распределения Агрегированные измерения, такие как рост человека, как правило, приближены к норме из-за эффекта центрального предела. Точную нормальность гарантировать невозможно, но приближение часто бывает полезным. Нормаль непрерывна, центрирована в среднем значении и симметрична с двумя концами. Разница определяет, насколько широким или узким выглядит раструб.
Параметры, плотность и три сигмы Плотность равна (1/(σ√(2π)))·exp(−(x−μ)^2/(2σ^2)). Изменение σ^ 2 приводит к изменению высоты и ширины, что видно при σ ^ 2 = 0,2 (узкие, высокие) и σ ^ 2 = 5 (широкие, с более тяжелыми хвостами), как при μ = 0. CDF равен интегралу плотности от −θ до x. Около 68,2% значений находятся в пределах ±1σ, примерно по 13,6% - между 1σ и 2σ с каждой стороны.
Выбор дистрибутива по продолжительности Выбор способа моделирования времени до конца лекции зависит от предположений. Если лекция длится 90 минут и вы входите в нее в произвольный момент, вероятность того, что она закончится в течение следующей минуты, равна 1/90, а время ожидания одинаковое. Если окончание может произойти в любой неизвестный учащимся момент, другие распределения могут быть более подходящими. Перед вычислением вероятностей важно четко определить временную ось и параметры.
Точечные оценки и беспристрастность Точечные оценки суммируют выборки, чтобы получить информацию о совокупности: среднее значение выборки, дисперсия выборки, относительная частота успеха, медиана выборки и связанные показатели. Оценка является несмещенной, если ее ожидаемое значение равно истинному параметру; смещение - это их разница. Использование n−1 в знаменателе позволяет скорректировать дисперсию выборки с учетом погрешности при малых выборках. При малых выборках погрешности могут быть существенными.
Согласованность и размер выборки Оценка является согласованной, если она с вероятностью приближается к истинному значению по мере увеличения объема выборки. Большее количество наблюдений обычно приближает оценки к реальности, как в случае с оценками продуктов, основанными на 10 отзывах по сравнению с 1000. Отклонения влияют на небольшие выборки гораздо сильнее, чем на большие. Объективность сама по себе не гарантирует хорошей производительности при работе с ограниченными данными.
MSE, дисперсия и смещение Среднеквадратичная ошибка (MSE) представляет собой среднее квадратическое отклонение оценки от истинного значения. Для несмещенных оценок MSE равно дисперсии; в общем случае она делится на дисперсию плюс квадрат смещения. Меньшая MSE означает более точные и надежные оценки. На практике MSE может быть проверен путем вычисления оценки по многим случайным подвыборкам; MSE с прогностической моделью, которая включает шум, ‑ это другое понятие. Очистка выборки улучшает поведение оценщика.
Эффективность и высокая степень доверия Эффективный оценщик имеет наименьшую дисперсию в своем классе, что дает самый узкий доверительный интервал. Если две оценки имеют одинаковую погрешность, предпочтительнее использовать ту, которая имеет меньший разброс. Даже при наличии погрешности более точная оценка для совокупности может быть более точной. Эффективность в сочетании с беспристрастностью особенно ценна.
Зачем нужны интервальные оценки Точечные оценки получены на основе случайных выборок и наследуют неопределенность, связанную с выборкой и измерениями. Доверительные интервалы предоставляют диапазоны для параметров с заданными уровнями достоверности и должны быть как можно короче. Интервалы отражают различия и ограничения инструмента, что делает выводы более надежными. Это мотивирует отказаться от сводок с одним числом.
Измерение лягушек в условиях неопределенности В ходе исследования в пруду 50 лягушек были измерены от головы до хвоста с помощью линейки с точностью 0,1 см и погрешностью, вызванной движением. Общая длина всех лягушек составила 260 см, что дает среднее значение для выборки в 5,2 см. С учетом погрешности измерения и обращения с прибором получен приблизительный интервал в 5,2 ± 0,3 см. Редкие выбросы могут выходить за пределы нормы, а распределение по размерам при достаточно больших выборках имеет тенденцию к нормальному.
Уровни достоверности и охват Доверительные интервалы указываются на уровнях 95% или 99%, что указывает на вероятность того, что процедура выявит истинное значение. Они редко охватывают все значения, поскольку в распределениях есть хвосты. Простое среднее значение без интервала не дает представления о надежности. Упражнение по быстрому подсчету завершилось тем, что на слайдах оказалось восемь лягушек, что подчеркнуло неопределенность оценки.
Дальнейшее чтение и подведение итогов Рекомендуемые ресурсы включали в себя “Статистику и котят” в стиле комиксов, мангу по статистике и книгу Сергея Николенко "Основы машинного обучения". Английская терминология отражает русскую (например, эффективность как результативность). Для практического понимания были предоставлены полезные ссылки с простыми практическими заданиями. Сессия завершилась обсуждением планов проведения семинара по распределениям и расчетам и пожеланиями спокойной ночи.