Введение в аналитику данных Анализ данных начинается с анализа окружения и деятельности команды компании. Это включает в себя сбор информации от людей, прежде чем приступить к анализу данных. Доступ к данным имеет решающее значение, но это не всегда возможно или необходимо для каждой задачи. Как только доступ будет предоставлен, можно начать поисковый анализ с изучения наборов данных и извлечения ценной информации.
Типы данных В аналитике обычно используются "плоские" табличные данные, состоящие из таблиц, в которых хранится компактная информация, такая как цифры или текстовые записи. Однако существуют другие типы данных, такие как пространственные данные, которые включают координаты для географического анализа и временные ряды, позволяющие идентифицировать тенденции и обнаруживать аномалии на основе предыдущих значений.
Типы данных Данные могут быть классифицированы по числовым и категориальным типам. Числовые данные могут быть дискретными или непрерывными, в то время как категориальные данные состоят из предопределенных значений. Важно работать с соответствующим типом данных для анализа.
Анализ табличных данных "Плоские" табличные данные - это распространенный формат хранения информации. При анализе таких данных важно понимать, как изменяются переменные и их основные тенденции (среднее значение, медиана). Кроме того, такие меры, как режим, помогают выявлять аномалии в распределении.
Оценка качества данных При оценке качества нашего набора данных мы учитываем такие параметры, как изменчивость (диапазон), дисперсия (стандартное отклонение) и выбросы. Эти факторы дают представление о том, насколько хорошо наши данные отражают реальность.
Дублирующиеся данные Дубликаты могут встречаться как в строках, так и в столбцах. Важно понимать, почему существуют дубликаты и следует ли их удалять или сохранять для точного анализа данных. В дополнение к дублированию, аномалии, такие как выбросы, также могут повлиять на качество данных.
Обработка аномалий "Виброзоны", или аномалии, - это отклонения от нормальных закономерностей в данных. Они могут быть предсказуемыми, приемлемыми или просто ошибками, вызванными неправильной обработкой данных. Обнаружение и устранение этих аномалий имеет решающее значение для повышения точности моделей.
Анализ больших наборов данных В видео обсуждаются проблемы работы с большими наборами данных, такими как миллионы строк. Это подчеркивает необходимость написания функций-оболочек и наличия навыков в языках программирования. Как только данные нормализованы и структурированы, их можно использовать для предварительного анализа для оценки качества и выявления недостающих значений.
Методы исследовательского анализа "Исследовательский анализ" относится к короткому, но важному шагу перед построением аналитических моделей. Спикер делится своим опытом работы с большими наборами данных, где поиск конкретной информации может быть сложным из-за ее размера. Они упоминают использование распределенных алгоритмов на графиках, понимание связанных компонентов и применение эвристик, таких как удаление выбросов или стратегическое заполнение пробелов.
Выбор показателей и обработка пропущенных значений При оценке результатов из больших наборов данных важно учитывать не только средние значения, но и медианы, которые являются более надежными мерами защиты от искаженных распределений. Кроме того, стратегии обработки пропущенных значений включают либо замену их значимыми оценками, либо оставление их пустыми, если они не могут существенно повлиять на результаты модели.