article-spots
article-carousel-spots
programs
Истории
Data Quality Engineers: специалисты, в чьих руках – надежность данных
10 мар.

По данным Harvard Business Review, любая задача, выполненная с использованием ошибочных данных, в итоге обходится бизнесу в 100 раз дороже, чем если бы данные были правильными. Результаты исследования основываются на правиле 1-10-100, разработанном Джорджем Лабовицем и Ю Санг Чангом, которое иллюстрирует важность поддержания высокого качества данных на постоянной основе.

Неудивительно, что в современном мире, где данные – основа успеха любого бизнеса, профессия Data Quality инженера стремительно набирает популярность. Чем занимаются эти специалисты и что нужно знать новичкам рассказывает Виктория Вахрина, Senior Data Quality Engineer в ЕРАМ.

Компьютерные науки, работа с данными и... авиация

Моя карьера в ЕРАМ началась около трех лет назад, с образовательной программы по направлению Data Quality от ЕРАM. До этого моя жизнь была связана с авиацией: я работала старшим бортпроводником в авиакомпании и параллельно получала второе высшее образование в Киевском национальном политехническом университете по специальности «Программная инженерия».

Интерес к информационным технологиям возник у меня давно, поэтому, когда из-за пандемии количество авиарейсов (а с ним и объем моей работы) значительно сократилось, я посвятила свое свободное время погружению в ІТ-тренды и изучению Python. Этот язык программирования часто используется в направлениях, связанный с данными. Спустя какое-то время мне попался курс по Data Quality от ЕРАМ, и я поняла что эта специализация идеально совмещает работу с данными и технологии, к тому же имеет более низкий порог входа, чем, к примеру, профессия разработчика или DevOps-инженера. После завершения обучения и нескольких собеседований я начала сотрудничество с EPAM и менее чем за два с половиной года прошла путь от Junior-специалиста до Senior Data Quality Engineer.

Data Quality глазами практика

Data Quality, как следует из названия, нацелена на проверку качества данных. DQ-инженеры могут работать с данными на всех этапах, от получения «сырых» данных в различных форматах до их трансформации, хранения, обработки с помощью разнообразных инструментов и визуализации программами вроде Power BI или Tableau. Мы умеем обрабатывать данные и знаем, какие проверки нужно выполнить, чтобы убедиться в их качестве.

Как это происходит на практике? Инженеры не звонят людям, что переспросить верно ли указан их email в базе. Вместо этого мы проверяем соответствуют ли данные бизнес-требованиям, подходят ли они для получения результата, нужного заказчику.

Например, компания хранит информацию о продажах и хочет еженедельно видеть ее в динамике в виде BI report. Задача Data Quality инженера убедиться, что данные, которые приходят от сети магазинов, соответствуют указанным параметрам (корректные наименования товаров, даты продажи, стоимость покупки, и пр.). Затем проверить, правильно ли данные загружаются в базу, нет ли дублей, обеспечивается ли консистентность, являются ли математически правильными все дальнейшие агрегации, которые заказчик хочет видеть в отчетах, правильно ли отображаются данные в отчетах, обновляются ли отчеты с поступлением новых данных. DQ-инженеры тесно сотрудничают с бизнес-аналитиками, от которых мы получаем список требований заказчика, а также с дата-аналитиками и дата-инженерами или разработчиками, в зависимости от специфики проекта.

Кстати, из соображений безопасности на проектах мы в основном работает со специально сгенерированными тестовыми данными, а не с реальной конфиденциальной бизнес-информацией.

Рабочий инструментарий DQ-инженера

Инструментарий DQ-инженеров  невероятно разнообразен, его подбор зависит от особенностей проекта. Хотя, в 90% случаев применяются SQL или SQL-подобные инструменты, которые есть у большинства облачных платформ.

Незаменимы для DQ-инженера Python и его библиотеки для работы с данными, которые используются, в частности, для автоматизированного тестирования.

Когда есть необходимость обрабатывать огромные массивы данных, пригодятся решения для big data наподобие Spark или Hadoop.

Без коммуникационных навыков не обойтись, ведь DQ-инженерам приходиться очень много общаться как с бизнес-аналитиками, так и с разработчиками. Недопонимание в команде может вызвать немало проблем, поэтому нужно выяснять все нюансы и задавать вопросы, пока не будет 100% уверенности в том, что все стороны правильно понимают друг друга.

И конечно, нужно уметь работать с проектной документацией.

Pet-проекты DQ-инженеров

В отличие от, скажем, разработчиков, перечень идей для пет-проекта в Data Quality довольно ограничен. Впрочем, сейчас в интернете есть много наборов открытых данных, на которых можно потренироваться, например на широко известном среди DQ-сообщества ресурсе Kaggle.com. Используя их, можно попробовать строить дешборди, выполнять классические и простые проверки данных, подумать, что именно можно проверить на каждом этапе. Тренировочные наборы можно найти и на платформах AWS и Google Cloud. Такой практический опыт может пригодиться во время собеседований.

Личные качества, которые помогут быть успешным в этой профессии:

  • Дотошность и внимательность;
  • Любознательность и коммуникабельность: иногда приходится выяснять не задокументированные нюансы проекта;
  • Толерантность к периодическому выполнению монотонной работы;
  • Способность мыслить нестандартно, чтобы находить слабые места и выявлять несовпадения, незаметные на первый взгляд.

О важности английского

Знание английского языка для людей, которые хотят развиваться в отрасли информационных технологий не прихоть, а необходимость. Профессия Data Quality инженера не исключение. Большинство свежих материалов доступны только на английском, кроме того, общение с заказчиками, а иногда и с командой, тоже происходит на английском. У меня высокий уровень английского, и я постоянно прилагаю усилия, чтобы его поддерживать.

Минимальный «стартовый набор» для начинающих

На курсе Data Quality Engineering от ЕРАМ обучают всем необходимым навыкам для входа в профессию. Поэтому, даже неподготовленные новички могут попробовать свои силы, при условии готовности инвестировать много усилий и времени в обучение. Проще будет кандидатам, имеющим базовые знания SQL, знакомым с реляционными базами данных и Git, понимающим CI/CD процессы и основные понятия тестирования, например, тест-кейсы, баг-репорты и пр. Знание этих тем ускорит процесс собственного становления как Data Quality инженера.

А как насчет ИИ?

Если искусственный интеллект и заменит когда-нибудь DQ инженера, я думаю, это случится не скоро.

Задача тестировщика подвергать сомнениям многие аспекты. И хотя ИИ «умеет» проводить базовые проверки систем, которые работают стабильно, вряд ли он сможет смоделировать параметры для проверки системы в случае получения некорректных и даже неожиданных данных. На сегодня искусственный интеллект не способен думать критически, не сможет случайно заметить несоответствие, проверяя какие-то другие параметры. Поэтому за профессиональное будущее DQ-инженеров можно быть спокойным. По крайней мере пока что.

Интересно попробовать? Тогда скорее переходите к открытым наборам по направлению Data Quality Engineering и пробуйте свои силы в обеспечении качества данных! Все возможности начать карьеру в Data по ссылке.