«Как специалист по данным, я считаю, что наличие хороших данных означает, что мы можем автоматизировать вещи».Интервью с Алексеем Григоревым, главным специалистом по данным в OLX Group.

Всем привет,

В этом 20-м выпуске нашей серии у нас есть Алексей Григорьев, главный специалист по данным в OLX Group, а также основатель DataTalks.Club. (https://datatalks.club)

Алексей начал свой карьерный путь в качестве Java-разработчика, и всего лишь курс по машинному обучению вдохновляюще сместил его интерес и карьерный путь в сторону науки о данных. Сейчас у Алексея более 35 000 подписчиков в LinkedIn, и он делится отличным контентом, посвященным интересным темам, связанным с данными.

В этом интервью он делится своим удивительным карьерным опытом, знаниями и, безусловно, отличными идеями по различным темам, начиная от инструментов данных и заканчивая практиками работы с данными. Он также является автором «книжного лагеря по машинному обучению» — изучайте машинное обучение, выполняя проекты.

Сценарий интервью:

Привет, Алексей! Большое спасибо, что нашли время и присоединились ко мне в этом эпизоде. Для начала было бы здорово узнать, как вы продвигаетесь по карьерной лестнице и каковы ваши основные обязанности в OLX.

Я начал свою карьеру в качестве Java-разработчика, а до этого изучал информационные технологии и базы данных на бакалавриате. После окончания университета я несколько лет работал Java-разработчиком. Когда я работал в банке, курс Coursera появился исключительно для машинного обучения. Я прошла курс и мне очень понравилось. После окончания курса я решил сменить профессию.

Я начал заниматься машинным обучением и использовал свои навыки работы с Java. Были люди, которым нужен был опыт работы с Java и машинным обучением одновременно. Во время фриланса я также получал степень магистра в области бизнес-аналитики и окончил Берлинский технический университет.

После получения степени магистра я начал работать штатным специалистом по данным в Берлине. Через несколько компаний я присоединился к OLX в качестве старшего специалиста по данным примерно четыре года и три месяца назад. Поэтому сначала я работал старшим специалистом по данным в команде модераторов.

Я много работал над разными моделями изображений, а также занимался инфраструктурой. Я работал над тем, чтобы можно было обслуживать модели глубокого обучения, чтобы затем мы могли использовать эти модели для модерации. Затем меня повысили до ведущего специалиста по данным, а затем до главного специалиста по данным, где я проработал в этой роли более года.

Как главный Data Scientist, я делаю довольно много разных вещей. Поэтому я выполняю лишь небольшую практическую работу, вместо этого это в основном координирующая работа, когда я руковожу усилиями по технической обработке данных в MLOps и темах, связанных с инженерией. Так, например, если мы хотим начать мониторить наши модели, мы видим, как это лучше сделать, каким должен быть инструмент, каким должен быть процесс, а главное, координируем работу между разными командами, которые сталкиваются с этим. проблема и посмотреть, как улучшить то же самое.

Помимо этого, я приложил много усилий к преподаванию и самоотверженности. Итак, у нас есть много инструментов, и очень важно понять, как максимально использовать эти инструменты. Я часто создаю учебники для различных внутренних и внешних инструментов, а затем убеждаюсь, что мы задокументировали этот способ, чтобы люди знали, где найти эту информацию.

Итак, как я уже сказал, часть моей работы заключается в принятии и оценке новых инструментов и процессов, а также в рассмотрении того, как мы можем внедрить их в рабочие процессы, а также стандартизировать существующие. Разные команды используют разные инструменты для решения проблем. Иногда имеет смысл иметь один инструмент, который решает эту проблему для всех команд.

Я тоже много занимаюсь общественной работой. У нас есть архитектурное сообщество, где мы обсуждаем более широкие архитектурные темы, такие как то, как выглядят наши системы, потоки данных между системами, какова роль организации данных, а также у нас есть небольшое сообщество инженеров машинного обучения, которым я занимаюсь с большим количеством люди.

Кроме того, мы также проводим различные мероприятия внутри нашей компании или в портфельных компаниях нашей компании, такие как различные конференции и семинары, которые связаны с обучением и самоотверженностью.

Подводя итог своей повседневной работе, я соединяю разные команды, где кто-то решает одну конкретную проблему или работает над конкретным проектом, а затем я встречаюсь с другой командой, которая сейчас думает о работе над чем-то похожим. Тогда у них аналогичная проблема. Я слежу за тем, чтобы эти две команды общались друг с другом, чтобы справиться с этим и решить его хорошо!

Большое спасибо, что поделились с нами подробностями, Алексей, поэтому, сказав это, как Data Scientist, с какими основными проблемами данных вам обычно приходится бороться?

Нам часто удается решить проблемы, которые у нас есть, с помощью общих инструментов, которые значительно упрощают жизнь ученых и аналитиков данных. Но, по моему мнению, проблемы, с которыми я обычно сталкиваюсь перед началом нового проекта, — это проблемы с обнаружением.

Например, скажем, у нас есть эти данные, и мы получаем много вопросов: где эти данные? Он у нас есть на самом деле? Есть ли у нас необходимые инструменты? Но обычно я считаю, что наиболее эффективный способ ответить на этот вопрос — это пообщаться с разными аналитиками и специалистами по данным. Инструменты помогают, но часто общение играет жизненно важную роль.

Тогда еще одна проблема — юзабилити. Хорошо. Я поговорил с аналитиком и нашел нужные мне данные. Эти данные находятся в корзине S3, но как их использовать? Есть ли примеры использования этих данных? и то, что я пытаюсь сделать, это попытаться придумать некоторые запросы, например, как именно можно получить доступ к этим данным, связанным с существующими или другими источниками данных.

Но общего подхода нет. Нет простого способа найти источник данных, а затем просмотреть все примеры запросов. На самом деле, мне бы хотелось иметь такой инструмент, в котором я нажимаю на инструмент в источнике данных, а затем он просто дает мне все запросы, которые я могу использовать, чтобы играть с данными и лучше их понимать.

Итак, еще одна проблема — полнота. Итак, я знаю, где находятся данные, и знаю, как их использовать, но полны ли они? Или чего-то не хватает, например, у нас отсутствуют данные по одному из рынков, или за один из дней, или, может быть, работа была приостановлена ​​на какое-то время. Как я могу получить доступ к этой информации?

Для некоторых проектов у нас есть несколько больших информационных панелей, но тогда вы должны знать, где эти информационные панели находятся. Это не всегда просто. Ага. Но тогда я думаю, что мы на самом деле находимся в довольно хорошей цепочке, когда имеем дело с этими проблемами. Поэтому для решения этих проблем требуется немного дисциплины.

Считаете ли вы, что наблюдаемость данных сыграет решающую роль в переходе компании на подход, основанный на данных? Если да, то как?

Да, я думаю, что все эти проблемы, о которых я упомянул, в значительной степени связаны с наблюдаемостью данных, особенно последняя. И затем, имея все эти информационные панели с качеством данных, не только это, но и знание происхождения данных, как именно данные создаются или как найти данные, очень важны.

Но если мы не будем тратить время на решение упомянутых мною проблем, а вместо этого воспользуемся некоторыми процессами или инструментами из области наблюдаемости данных, это будет действительно полезно.

Если немного изменить тему, скажите, как, по вашему мнению, культура данных играет решающую роль в организации, основанной на данных?

Да, поэтому иметь доступ к данным важно, если мы хотим полагаться на доказательства при принятии решений, а не на интуицию. Так, например, чтобы ответить на такие вопросы, как, если мы хотим убить функцию? мы должны начать функцию? или у нас действительно проблемы?

Но как узнать, стоит ли решать эту большую проблему? Во всех этих случаях нам нужны данные, подтверждающие наше решение. И если мы видим, что есть несколько пользователей, которые на что-то жалуются, а на самом деле это как бы 0001% всего населения, то мы можем переосмыслить, может быть, не стоит вкладывать время и решать эту проблему. Да, это проблема, но есть проблемы поважнее.

У нас могут быть данные, чтобы понять, сколько пользователей затронуто проблемой, а затем у нас есть список приоритетов, с помощью которого мы можем решать наиболее важные проблемы таким же образом, как мы можем видеть, сколько людей используют функцию.

Или, может быть, мы можем провести эксперимент, а затем удалить эту функцию у некоторых пользователей, а затем посмотреть, как она повлияет на поток. Во всех этих случаях мы пытаемся получить некоторые данные, основанные на фактических данных, и использовать их в качестве ориентира. Вот как важную роль играют данные. Конечно, как Data Scientist лично для меня, имея хорошие данные, мы можем автоматизировать вещи.

Например, я работал в команде модераторов. В команде модераторов наличие хороших данных означало, что мы можем обучить модель, чтобы помочь модераторам, и они стали более эффективными и действенными. Затем они могли сосредоточиться на более важных и сложных случаях.

Учитывая, что у нас есть модель для обнаружения небезопасного рабочего контента, эта модель заставит модераторов сосредоточить свое внимание на случаях, когда может быть что-то небезопасное.

Таким образом, вместо обеспечения безопасности через все изображения, которые поддерживают пользователи, они могут потенциально сосредоточиться на небезопасных рабочих местах.

Что ж, это действительно отличный ответ. Итак, какой совет вы можете дать организациям, которые хотят создать культуру, основанную на данных?

Да, так что полагайтесь на эксперименты. Вместо того, чтобы гадать, просто поэкспериментируйте, запустите AB-тест и посмотрите, что получится.

Затем, конечно, чтобы иметь возможность запустить тест AB, вам необходимо собрать данные о поведении пользователей. Поэтому вам нужно иметь отслеживание, и это отслеживание должно быть надежным. И как только вы проведете этот эксперимент, как и каждый раз, когда у вас возникнет вопрос, просто запустите эксперимент и посмотрите, действительно ли он решает проблему, которую, по вашему мнению, он должен решить.

Учитывая более чем 10-летний опыт работы в технической сфере, как вы видите взаимодействие между группами обработки данных и другими бизнес-подразделениями? Считаете ли вы, что отделу операций, доходов, продаж и другим бизнес-отделам также нужен легкий доступ к данным, как и отделу обработки данных?

Конечно, всем нужен доступ к данным, и часто специалисты по данным, аналитики данных, а также инженеры данных решают проблемы для этих бизнес-подразделений, поэтому они являются нашими заинтересованными сторонами. Поэтому важно выслушать их проблемы и заслужить их доверие.

А в клубе Data talks у нас тоже есть подкаст. Помню, в одном из выпусков у нас с Лиором была эффективная коммуникация с бизнесом для Data профессионалов, и я не могу сказать лучше, чем Лиор. Поэтому я бы посоветовал вам пройти подкаст Лиора, и он тоже очень интересный человек.

Что ж, если вы также хотите узнать, как хумус связан с эффективным общением с бизнесом, посмотрите наш подкаст об этом!

Как вы думаете, каким основным аспектам/тенденциям, когда дело доходит до данных, компании должны расставить приоритеты или которым должны следовать, чтобы иметь конкурентное преимущество на своем рынке?

Да, кажется, я уже упоминал об этом. Поэтому я думаю, что важно иметь хорошую инфраструктуру отслеживания, чтобы вы могли отслеживать все данные о поведении пользователей, а затем надежно проводить эксперименты, а затем использовать эти эксперименты для принятия лучших решений.

Так что это, пожалуй, самое важное, что приходит ко мне. В недавнем прошлом в пространстве науки о данных появилось много разных ролей.

И последнее, но не менее важное: вы являетесь влиятельным лицом LinkedIn с более чем 35 000 подписчиков в Linkedin. Я следил за вашим удивительным контентом, поэтому хотел бы знать, как все это произошло!?

Так что последние семь лет я был достаточно активен в LinkedIn. Ну вот как так вышло так и секретов нет. Я регулярно что-то публикую, и я бы не назвал себя влиятельным лицом, но в любом случае я помню, что мне дали выступление на конференции, ну, это было на конференции по данным, и я поделился своими слайдами в LinkedIn, и я получил около 100 лайков. Затем я начал делиться большим количеством вещей, и в какой-то момент это действительно вызывает привыкание. Так вот как это все произошло, и, может быть, это также стоит упомянуть, у меня тоже есть аккаунт в Twitter, там меньше подписчиков, но подписывайтесь на меня там. Это мой аккаунт, @AI_Grigor.

И да. Еще кое-что. Существует также Data Talks Club, отличное сообщество. Я уже упоминал, что если вам нравятся темы, связанные с данными, или вы интересуетесь наукой о данных, инженерией данных, машинным обучением или другими темами данных, гм, это место для вас, чтобы присоединиться и поговорить с другими людьми, занимающимися данными.

Большое спасибо, Алексей. Я бы назвал это отличным эпизодом. Большое спасибо за то, что поделились прекрасными идеями.

Мы надеемся, что вам понравилось это интервью так же, как и нам, поскольку вы нашли ценную информацию и эксклюзивные факты.

Особая благодарность Алексею за то, что он нашел время для этого интервью. Было очень приятно видеть вас вместе с нами в нашей серии «Думай о данных с помощью Datamin».

Если вы хотите узнать больше о том, как обращаться с вашими Данными, подпишитесь на нас здесь, на канале, или в Twitter и LinkedIn. 🖤

Если вы заинтересованы в продукте Datamin, свяжитесь напрямую с нашей командой, мы здесь для вас! ➡ ДАННЫЕ

А пока подписываемся!👋