Инжиниринг Данных
С чего начать
Заголовок раздела «С чего начать»Цель сайта
Заголовок раздела «Цель сайта»Дата Инженеръ — это русскоязычный портал об аналитике и инжиниринге данных. Здесь мы постараемся собрать самые ценные ресурсы, связанные с развитием карьеры в области инжиниринга данных. Материалы доступны на русском и английском языках.
Для кого этот сайт?
Заголовок раздела «Для кого этот сайт?»Если вы работаете с данными как аналитик, BI-разработчик, инженер данных или вам просто интересно, кто такой инженер данных и как им стать, то здесь вы найдёте все необходимые ресурсы.
Что такое Аналитика?
Заголовок раздела «Что такое Аналитика?»Прежде чем начать изучать инжиниринг данных, давайте определимся, что такое аналитика и какие у неё цели.
Согласно книге Hyper: Changing the way you think about, plan, and execute business intelligence for real results, real fast!, организации существуют, чтобы создавать ценность (value) для клиентов, сотрудников или владельцев. Чем больше ценности создано, тем эффективнее работают организации.

Чтобы создавать больше ценности, необходимо принимать правильные и своевременные решения. Для этого нужны данные и аналитика.
Цели аналитики можно сформулировать так:
- Увеличение прибыли — заработать больше денег.
- Сокращение расходов — сэкономить больше денег.
- Избежание рисков, что, в свою очередь, помогает выполнить пункты 1 и 2.
- Исследование новых рынков и продуктов через проверку и валидацию гипотез.
Архитектура Аналитического Решения
Заголовок раздела «Архитектура Аналитического Решения»Очень часто на собеседовании на роль дата-инженера вас могут попросить решить задачу по системному дизайну (System Design). Это очень важная часть работы инженера. Как и с постройкой домов, прежде чем начать строить дом, нам нужен план, чертежи, правильные инструменты и команда. Так же и в аналитике: прежде чем писать код, нужно определиться с архитектурой решения.

Слои аналитического решения:
- Источники данных (Source) — бизнес-приложения (CRM, ERP), различные API, бэкенд-базы данных (OLTP), логи, файлы, телеметрия и множество других источников.
- Системы обработки и интеграции данных (Processing) — набор инструментов для интеграции, обработки и загрузки данных в хранилище. Два основных подхода:
Batch(пакетный) иStreaming(потоковый). - Платформы хранения данных (Storage) — Хранилище Данных (Data Warehouse) и Озеро Данных (Data Lake).
- Системы для углубленной аналитики (AI, ML, Data Science) — как правило,
Pythonи готовые библиотеки или вендорские решения. - Системы Business Intelligence — предоставляют пользователям доступ к данным для принятия решений.
Ключевые Роли в Аналитике
Заголовок раздела «Ключевые Роли в Аналитике»- Дата-инженер — отвечает за системы
ProcessingиStorage, строит инфраструктуру аналитического решения. - BI-разработчик — отвечает за системы
Business Intelligence, разрабатывает дашборды, помогает интерпретировать данные. - Аналитик данных — продуктовые, финансовые, маркетинговые аналитики; более глубокий подход к анализу и выработке бизнес-рекомендаций.
- Analytics-инженер — микс дата-инженера и BI-разработчика.
Роли для работы с AI и ML здесь не рассматриваются, так как портал нацелен на решения для хранилищ и озёр данных.
Инжиниринг Данных
Заголовок раздела «Инжиниринг Данных»Инжиниринг Данных делает данные полезными и доступными для конечных потребителей, создавая безопасную и масштабируемую инфраструктуру.
Как добавлять ресурсы?
Заголовок раздела «Как добавлять ресурсы?»Контент хостится в репозитории на GitHub, и его можно добавлять через Pull Request. Формируется список участников и модераторов, которые могут добавлять и редактировать контент.
Лицензия
Заголовок раздела «Лицензия»Содержание предоставляется бесплатно. Если вы делитесь его частью, пожалуйста, указывайте источник.
Авторские права © 2024 Дмитрий Аношин.