Визуализация данных
Визуализация данных — это процесс представления данных в графической или визуальной форме. Она помогает сделать сложную информацию понятной и наглядной, превращая числа и текст в визуальные образы, которые проще интерпретировать и анализировать. Несмотря на то, что визуализация данных – не является главным навыком для дата инженеров, она является ключевым для всех, кто работе с данными и может помочь в решении множества задач.
Зачем данные визуализировать?
🇷🇺 / 🇬🇧 - язык материалов
Начните с понимания, почему визуализация данных так важна. Подборка статей на эту тему:
Следующим этапом будет полезно посмотреть, как подбирать графики под ваши данные. В большинстве случаев можно обойтись несколькими универсальными типами графиков, которые эффективно решают основные задачи визуализации данных:
- Сравнение: Для вопросов вроде “В какой категории самые большие продажи?” лучше всего подойдут столбчатые диаграммы ака барчарты. Они эффективнее всего работают для задач сравнения, позволяя определить, в какой категории самое большое значение.
- Тренды и динамика: Если нужно показать изменения со временем, используйте линейный график. Например, он отвечает на вопрос: “Растут ли наши продажи с течением времени?”. Линейные графики хорошо показывают непрерывные данные и тренды.
- Часть от целого: Пайчарты и тримапы помогут ответить на вопросы вроде “Какой процент от общих продаж приходится на эту категорию?” Такие графики показывают, как отдельные части складываются в общий результат.
- Связи: Для изучения взаимосвязей между переменными подойдут диаграммы рассеяния. Например, “Как связаны продажи и прибыль?” Эти графики помогают выявлять корреляции и выбросы в данных.
- Распределение: Чтобы понять, как распределяются данные, используйте гистограммы или джиттер плот (jitter plot). Например, можно ответить на вопрос: “Как распределяется пожизненная ценность клиента (LTV)?”. Гистограммы покажут частоту значений, а джиттер плот поможет детилизроваться до каждого наблюдения.
- Быстрый обзор: Для оперативного анализа подойдут KPI-карточки (также известны как фактоиды, BANы) с небольшими графиками – спарклайнами. Они дают краткий обзор ключевых метрик и отвечат на такие вопросы, как “Какие у нас текущие продажи?”.
- Точные значения: Для отображения конкретных данных таблицы остаются лучшим выбором. Добавьте к ним визуальные элементы вроде тепловых карт или спарклайнов. Они помогут дать ответы на вопросы по типу: “Какие точные показатели продаж по регионам и категориям?”.
Подборка ресурсов для выбора графиков:
- Чартчузер Александра Богачева🇷🇺
- Dataviz Catalogue🇬🇧🇷🇺
- from data to viz🇬🇧 + есть примеры кода на R, Python, d3js
- Financial Times Visual Vocabulary🇬🇧
- Dataviz project🇬🇧
90% задач можно эффективно решить, используя всего два типа графиков — барчарты и линейные графики:
Барчарты подходят для сравнения категорий и отображения рейтингов. Например, можно сравнить продажи в разных регионах или показать распределение по категориям. Линейные графики идеальны для визуализации изменений во времени. Они помогают увидеть, как показатели, например, доход или трафик сайта, меняются на протяжении периода. Научитесь работать с этими двумя типами графиков, избегая самых частых ошибок.
Где создавать графики?
- Кодом
- Python: matplotlib, seaborn, plotnine, plotly. Варианты и код можно посмотреть на python graph gallery
- R: ggplot2, plotly. Варианты и код можно посмотреть на r graph gallery
- D3.js. Варианты и код можно посмотреть на d3 graph gallery
- BI инструменты (для графиков и дашбордов по ним)
- Yandex DataLens, облачный и бесплатный
- Tableau, есть бесплатная версия Tableau Public
- Power BI
- Looker & Looker Studio
- Онлайн
Что почитать?
- “Графики, которые убеждают всех”, Александр Богачев🇷🇺
- “Графики лгут. Как стать информационно грамотным человеком в мире данных?”, Альберто Кайро”🇷🇺
- “Storytelling with Data”, Cole Nussbaumer Knaflic🇬🇧
- “Fundamentals of Data Visualization”, Claus O Wilke 🇬🇧бесплатная открытая книга
- “The Big Book of Dashboards: Visualizing Your Data Using Real-World Business Scenarios”, Steve Wexler, Jeffrey Shaffer, Andy Cotgreave🇬🇧
В телеграме – папка каналов про датавиз🇷🇺