Перейти к содержимому

Инжиниринг Данных

Самые необходимые ресурсы для инжиниринга данных и аналитики — на русском и английском.

Дата Инженеръ — это русскоязычный портал об аналитике и инжиниринге данных. Здесь мы постараемся собрать самые ценные ресурсы, связанные с развитием карьеры в области инжиниринга данных. Материалы доступны на русском и английском языках.

Если вы работаете с данными как аналитик, BI-разработчик, инженер данных или вам просто интересно, кто такой инженер данных и как им стать, то здесь вы найдёте все необходимые ресурсы.

Прежде чем начать изучать инжиниринг данных, давайте определимся, что такое аналитика и какие у неё цели.

Согласно книге Hyper: Changing the way you think about, plan, and execute business intelligence for real results, real fast!, организации существуют, чтобы создавать ценность (value) для клиентов, сотрудников или владельцев. Чем больше ценности создано, тем эффективнее работают организации.

Analytics Value Chain

Чтобы создавать больше ценности, необходимо принимать правильные и своевременные решения. Для этого нужны данные и аналитика.

Цели аналитики можно сформулировать так:

  1. Увеличение прибыли — заработать больше денег.
  2. Сокращение расходов — сэкономить больше денег.
  3. Избежание рисков, что, в свою очередь, помогает выполнить пункты 1 и 2.
  4. Исследование новых рынков и продуктов через проверку и валидацию гипотез.

Очень часто на собеседовании на роль дата-инженера вас могут попросить решить задачу по системному дизайну (System Design). Это очень важная часть работы инженера. Как и с постройкой домов, прежде чем начать строить дом, нам нужен план, чертежи, правильные инструменты и команда. Так же и в аналитике: прежде чем писать код, нужно определиться с архитектурой решения.

Слои Аналитического решения

Слои аналитического решения:

  • Источники данных (Source) — бизнес-приложения (CRM, ERP), различные API, бэкенд-базы данных (OLTP), логи, файлы, телеметрия и множество других источников.
  • Системы обработки и интеграции данных (Processing) — набор инструментов для интеграции, обработки и загрузки данных в хранилище. Два основных подхода: Batch (пакетный) и Streaming (потоковый).
  • Платформы хранения данных (Storage) — Хранилище Данных (Data Warehouse) и Озеро Данных (Data Lake).
  • Системы для углубленной аналитики (AI, ML, Data Science) — как правило, Python и готовые библиотеки или вендорские решения.
  • Системы Business Intelligence — предоставляют пользователям доступ к данным для принятия решений.
  • Дата-инженер — отвечает за системы Processing и Storage, строит инфраструктуру аналитического решения.
  • BI-разработчик — отвечает за системы Business Intelligence, разрабатывает дашборды, помогает интерпретировать данные.
  • Аналитик данных — продуктовые, финансовые, маркетинговые аналитики; более глубокий подход к анализу и выработке бизнес-рекомендаций.
  • Analytics-инженер — микс дата-инженера и BI-разработчика.

Роли для работы с AI и ML здесь не рассматриваются, так как портал нацелен на решения для хранилищ и озёр данных.

Инжиниринг Данных делает данные полезными и доступными для конечных потребителей, создавая безопасную и масштабируемую инфраструктуру.

Контент хостится в репозитории на GitHub, и его можно добавлять через Pull Request. Формируется список участников и модераторов, которые могут добавлять и редактировать контент.

Содержание предоставляется бесплатно. Если вы делитесь его частью, пожалуйста, указывайте источник.

Авторские права © 2024 Дмитрий Аношин.