Итак, вы постоянно слышите такие термины, как большие данные, наука о данных, озеро данных, которые в последнее время используются в Интернете. Ваши друзья и коллеги, которые раньше жаловались на то, что их работа заключается в очистке, опросе и перемещении данных из одного места в другое в течение всего дня, теперь с гордостью называют себя инженерами данных или даже специалистами по данным по какой-то причине. Конечно, ваши настоящие друзья-«ученые» (физики, математики, биологи и статистики) также изменили свои резюме, чтобы называться специалистами по данным. Вы задаетесь вопросом, что такое этот специалист по данным, который был назван «самой сексуальной работой 21 века»? Более того, как вы им стали?

Как человек, который начал свою карьеру почти десять лет назад в качестве нового выпускника, который хотел стать программистом на C ++ и почувствовал себя обезумевшим, когда его вместо этого заставили работать аналитиком данных , Я часто получаю вопросы от людей по этой теме от тех, кто имеет этот титул в своей Linkedin и , которые основали свою собственную компанию с данными в названии. Это моя попытка ответить на этот вопрос, как я истолковал его для своей компании, и надеюсь, что это поможет и другим.

Для непосвященных это может показаться не очевидным, но «данные» уже давно являются частью человеческой цивилизации. Еще в 18000 году до нашей эры доисторические люди использовали метки на камнях или костях, чтобы вести учет своих запасов, чтобы знать, когда у них закончится еда. Само слово является формой множественного числа латинского слова «datum», что означает «(что-то) данное». Здесь я буду использовать его в современном понимании - качественная или количественная информация, которая собирается в цифровой или оцифрованной форме и может быть проанализирована и представлена ​​в отчете, чтобы извлечь из нее знания или мудрость для принятия более эффективных решений.

Определяя это таким образом, легко увидеть, что данные окружают нас повсюду. Его производят все, от исследователей до предприятий, и даже обычные люди, такие как мы с вами. На каждый телефонный звонок, на каждый сайт, который вы посещаете, на каждую сделку по продаже, на каждую статистику, которую собирает правительство, каждый день генерируется феноменальный объем данных. Фактически, согласно оценкам, сейчас ежедневно производится 2,5 квинтиллиона байт * данных, что обусловлено увеличением количества миллиардов мобильных устройств. Как сказал бы Йода: «Оно окружает и связывает нас».

Теперь, когда мы знаем, что существует много данных, следующий очевидный шаг - использовать этот ценный ресурс в наших интересах. В исходной необработанной форме данные представляют относительно небольшую ценность. До последнего десятилетия хранение и обработка больших объемов данных были действительно дорогими, и только самые крупные компании и университеты имели оборудование (суперкомпьютеры), способное обработка данных в большом масштабе. Но благодаря закону Мура ситуация кардинально изменилась за последнее десятилетие. Я помню, что у моего первого настольного компьютера в начале 2000-х было 128 МБ ОЗУ и 20 ГБ жесткого диска. Сейчас (в 2017 году) я пишу этот блог на ноутбуке с 8 ГБ ОЗУ и пол-терабайтом жесткого диска, а также выполняю большую задачу по обработке данных с интенсивным использованием ЦП на сервере с 32 ядрами ЦП и 128 ГБ ОЗУ. Короче говоря, теперь у нас есть много данных и вычислительные мощности для их обработки. Это означает, что нам нужно много людей, которые хорошо разбираются, анализируют и представляют это. Так родился специалист по данным.

К сожалению, это поле было захвачено шумихой. Мир технологий утонул в таких терминах, как интеллектуальный анализ данных, большие данные, наука о данных, а теперь и машинное обучение и искусственный интеллект. , что затрудняет отделение сигнала от шума. Несмотря на это, хорошо иметь название для любой профессии, и мы должны выбрать одну. Лично я предпочитаю науку о данных. Термин «специалист по данным», должно быть, также произошел от него, что делает его более разумным для использования. Но, как и его современный кузен информатика, нам нужно понимать, что означает «наука» в названии. На самом фундаментальном уровне информатика - это абстракции и способы комбинирования более простых концепций для создания более сложных систем. Точно так же, как я понял, фундаментальной задачей науки о данных является подготовка данных и применение математических моделей к этим данным для получения полезного результата. Конечный результат может быть представлен либо в визуальной форме панелей мониторинга и диаграмм, либо в качестве входных данных для вышестоящих программных уровней.

Наука о данных = подготовить (данные) = ›модель (подготовленные_данные) =› использовать (модель_данные) = ›знания

Подобно тому, как любой, кто когда-либо создавал сайт Wordpress, не совсем специалист по информатике, любой, кто когда-либо использовал только функцию excel sum () или написал несколько SQL-запросов, на самом деле не специалист по данным. Это скорее междисциплинарная область, требующая от человека математических навыков ученого или статистика, инженерных ноу-хау опытного разработчика, эстетических знаний дизайнера, коммуникативных навыков лидера и соответствующей области экспертиза. Легко увидеть, что люди с такими навыками будут очень редко, то, что называется «идеальным специалистом по данным» на диаграмме ниже.

Итак, хотя в наши дни у нас может быть много людей с титульным специалистом по данным, существуют разные определения этого термина. Навыки, необходимые для настройки облачных серверов для выполнения заданий Spark емкостью 100 ТБ или для визуализации миллиарда точек данных, чтобы даже нетехнические люди могли понять, что это в корне отличается от навыков, необходимых для получения точности 92% на градиенте. алгоритм повышения с 75% с использованием взвешенного ансамбля. Фактически, я бы сказал, что в большинстве случаев это работа для команды людей, которые сочетают эти разные навыки.

Это была одна из причин появления CraftData Labs. Цель состоит в том, чтобы собрать команду статистиков, ученых, инженеров и дизайнеров, которые действительно знают свое дело, чтобы позволить предприятиям, организациям, правительствам и частным лицам достичь своих бизнес-целей. Мы будем сосредоточены не только на технических навыках статистики, информатики и математики, но также на хороших дизайнерских и коммуникативных навыках. В конце концов, лучшие в мире модели бесполезны, если мы не можем сделать их потребляемыми и полезными для пользователя.

Если мне нужно определить, что такое специалист по данным в CraftData, это будет кто-то, кто разбирается в статистических расчетах и ​​математических моделях, разбирается в строгих научных методах и обычно имеет исследовательский фон. Другие должности, такие как инженеры данных, веб-разработчики, дизайнеры UI / UX, разработчики интерфейсов, разработчики информационных панелей, архитекторы баз данных, журналисты данных и т. Д., Играют важную, но иную роль. Я надеюсь, что четкое определение роли каждого позволит нам создать устойчивую компанию, способную выполнить любой сложный проект.

Наконец, поедая здесь собачий корм, я бы сказал, что сам едва ли подхожу к этому определению специалиста по данным. Я точно так не начинал. Но за годы работы в этой дисциплине я очень надеюсь, что заслужил этот титул.

Спасибо за чтение, и я надеюсь, что это позволило вам лучше понять феномен науки о данных. Я приветствую любые предложения и комментарии здесь.

* [Http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/]