Объединение источников данных В этой главе мы обсудим слои Join и Koba. Для этих слоев требуются отдельные папки в каталоге вашей модели. Основное отличие заключается в том, что уровень Incr предоставляет копию данных для сравнения с данными интерфейса. Это позволяет нам проверить правильность наших расчетов.
Преобразование данных - Первой задачей этого уровня является объединение нескольких таблиц в одну. - Переименуйте имена полей в соответствии со стандартным форматом. - Преобразуйте поля из неудобных форматов (например, JSON) в отдельные столбцы. - Выполните дополнительные преобразования, такие как умножение расходов на коэффициент.
Комбинирование моделей - Объединять аналогичные типы источников данных с помощью объединяющих таблиц - Группируйте различные виды расходов вместе - Создание унифицированных соглашений об именовании показателей
Оптимизация порядка полей Чтобы гарантировать, что поля находятся в одинаковом порядке при переходе между платформами, мы используем функцию для перестановки и замены определенных значений. Мы также преобразуем одинарные кавычки в двойные для совместимости с ClickHouse.
Поле "Тип отчета" Поле "Тип отчета" используется для дифференциации данных на основе ключевых слов или объявлений. Пользователи могут выбрать, хотят ли они просматривать данные по ключевому слову или объявлению, и это поле действует как фильтр.
Обработка пустых полей Пустые поля заменяются либо пустыми строками, либо нулями в зависимости от их типа. Это помогает оптимизировать пространство для хранения и повышает производительность.
Извлечение и очистка данных В этой главе мы обсудим процесс извлечения данных из различных источников, таких как Яндекс и ВКонтакте. Мы также говорим об очистке данных путем удаления ненужной информации и организации ее в отдельные поля.
Макрофункции для манипулирования данными Функция "Объединить" используется для объединения информации из различных полей в Яндексе в зависимости от их типов. Мы также используем регулярные выражения для извлечения определенных параметров. Кроме того, мы объясняем, как макросы можно использовать в качестве аргументов в функциях для эффективного повторного использования кода.
Анализ и оптимизация данных Эта глава посвящена анализу извлеченных данных с использованием таких показателей, как Metrika. Мы изучаем такие методы, как подсчет подстрок, чтобы определять действия пользователя на основе предопределенных целей. Кроме того, мы обсуждаем переименование источников и выполнение расчетов с учетом плановых затрат.