Datafold: больше 80% аналитиков и продакт-менеджеров регулярно сталкиваются с проблемами качества данных. Читайте на Cossa.ru

16 августа, 16:10

Datafold: больше 80% аналитиков и продакт-менеджеров регулярно сталкиваются с проблемами качества данных

При этом проверяют их в основном вручную. Но SQL по-прежнему остаётся интерфейсом № 1 для обработки данных, и вряд ли это изменится в ближайшем будущем. Что нового в мире аналитики данных — последние тренды и популярные инструменты.

Datafold провёл опрос производителей данных (инженеров по данным и аналитике) и потребителей (менеджеров по продуктам, специалистов по обработке данных, аналитиков и других сотрудников), и выяснилось, что более 80% респондентов регулярно сталкиваются с проблемами качества данных. При этом большинство проблем возникают за пределами компетенции команды.

По мнению различных опрошенных команд, 75% проблем с качеством данных относятся к сфере ответственности других групп и сторонних поставщиков. Причём 20% опрошенных вообще не понимают, в чём причина проблемы.

Это говорит о том, что качество данных не может зависеть от какой-то отдельной команды и должно решаться на уровне компании (так же, как и безопасность), а также требует тесного сотрудничества между командами.

51% респондентов указали, что у них нет адекватных процессов и инструментов для решения проблем с качеством данных. При этом пользователи данных в основном полагаются на ручную проверку качества данных.

Судя по тому, как команды проводят валидацию своих данных, можно сделать три важных вывода:

  • Почти никто (<10%) не принимает качество данных как должное;

  • Большинство команд по-прежнему полагаются на ручную проверку данных или опрашивают других, прежде чем использовать данные в своей работе;

  • В качестве источника подтверждения достоверности данных автоматические тесты и каталоги данных в настоящее время используют, соответственно, ~30% и 20% команд.

Большинство команд вообще ещё не внедрили инструменты проверки качества данных.


Слишком много ручной работы — вот причина № 1 низкой производительности групп обработки данных. За этим следует неэффективное сотрудничество («слишком много встреч» и «организационные вопросы») и низкое качество данных.

Обзор стека популярных инструментов для аналитики данных

SQL по-прежнему остаётся интерфейсом № 1 для обработки данных и вряд ли это изменится в ближайшем будущем. На сегодняшний день наиболее популярны SQL и Python, за ними следуют R и Scala.

Star и Snowflake — самые популярные схемы построения хранилищ данных.

Самые популярные инструменты бизнес-аналитики в 2021 году — Tableau, таблицы Google и внутренние разработки.

Segment и Snowplow доминируют среди аналитических инструментов, но их догоняют новые игроки, такие как Rudderstack (клон Segment с открытым исходным кодом) и Freshpaint (также предлагает захват событий без кода).

Источник

Источник фото на тизере: Nong Vang on Unsplash

Реклама



Комментарии:

Введите капчу



Чем живёт диджитал?
Главное — в рассылке:




Вход на cossa.ru

Уже есть аккаунт?
Выбирай любой вариант входа:
Facebook Vkontakte

Используйте свой аккаунт в социальной сети Facebook или Вконтакте, чтобы пользоваться сайтом

Не забудьте написать email на странице своего профиля для управления рассылкой