К манифесту защитной науки о данных

Специалисты по данным со всего мира: вам нечего выиграть, кроме увеличения числа клиентов

Я был очень плохим игроком в сквош, но на короткий период я ​​стал немного более полезным игроком в сквош, когда противник показал мне, как играть в обороне - вместо того, чтобы пытаться отбивать победителей или наносить удары каждый раз, когда я бью по мячу, я возвращаю мяч стабильно и глубоко так что мой противник оказывался ближе к своему дальнему углу и постоянно делал ошибку. Оказалось, что следуя этой стратегии, я мог выиграть больше очков, чем когда я боролся за каждый удар всем, что у меня было. Более того, я не утомлялся беготней после того, как были отыграны первые два очка - мне потребовалось до середины четвертого очка.

Наука о данных немного похожа на то, что часто кажется, что люди пытаются выиграть каждое очко с помощью самого причудливого возможного удара, вместо того, чтобы применять правильный инструмент, не говоря уже о применении правильного инструмента, который позволяет им затрачивать минимум усилий.

Правильный инструмент будет проще внедрить, легче понять и легче общаться. Для вычисления результата потребуется меньше вычислительной мощности. Суть защиты данных заключается в экономии алгоритма.

Причины, по которым нужно избегать последних вещей ради них самих, легко обнаруживаются. Наиболее очевидным является то, что существует интуитивная корреляция между передовым методом и сложностью его реализации. В некоторых случаях это будет связано с внутренней сложностью метода. В других случаях это будет из-за того, что методу не хватает готовых готовых решений (в противном случае он не был бы «передовым»), и поэтому требуется дополнительная работа, чтобы сформировать то, что доступно для конкретных нужд вашего приложения.

На карту поставлено больше, чем просто ненужные усилия - хотя Шигео Синго сказал бы вам, что этого более чем достаточно. Самая простая модель с наименее изощренным алгоритмом - это та, которая с наибольшей готовностью принимается покупателями и клиентами, а заслуживающая доверия модель - это та, которая завоюет сердца и умы. Чем дольше существует алгоритм, тем больше вероятность, что ваш клиент видел его раньше. Чем это проще, тем больше вероятность, что они поймут это и, следовательно, будут ему доверять. Таким образом, представление о том, что ваши открытия могут быть переданы другим, является одной из основных целей защитного подхода к науке о данных.

Решение неправильной проблемы даже более ненужное, чем чрезмерно сложный алгоритм. Как сказал Джон Тьюки: Намного лучше приблизительный ответ на правильный вопрос, который часто бывает расплывчатым, чем точный ответ на неправильный вопрос, который всегда может быть сделано точно .

Путь к поиску правильного вопроса требует времени с клиентом, чтобы понять его потребности - но чем больше времени вы проводите здесь и чем серьезнее вы пытаетесь понять проблему, стоящую за проблемой, тем более целесообразным будет решение.

Обнаружив работоспособное решение проблемы клиента, следующий важный шаг - найти лучший способ объяснить ее клиенту, которого нельзя ожидать или которому нельзя доверять, если только это невозможно не понять. Хотя пословица гласит, что 80% усилий специалиста по обработке данных тратится на очистку данных, 80% также тратится на объяснение конечного результата людям, которым необходимо его понять.

Стратегия визуализации для общения отличается от стратегии визуализации для открытия. Полное решение должно включать в себя отдельные компоненты, позволяющие клиенту делать свои собственные открытия, а также компоненты, которые гарантируют, что клиент правильно понимает ваши открытия. Следовательно, обеспечение того, чтобы ваше общение не оставляло ничего на волю случая, является еще одним важным элементом защитной науки о данных.

Конечно, независимо от того, сколько вы думаете, что знаете, и насколько хорошо вы думаете, что ваш алгоритм работает, вероятность того, что вы ошибаетесь, сохраняется. Ученые, защищающие данные, приветствуют фальсификацию данных - не в последнюю очередь из-за этических последствий. Излагая явный аргумент и подкрепляя его данными, защитный специалист по данным гарантирует, что эксперты в предметной области могут высказывать полезную критику, и, раскрывая модель таким людям перед выпуском, максимизирует вероятность того, что ошибки будут обнаружены до того, как кто-либо будет произведен.

Философией, которую придерживался Брюс Ли, была «экономия движения» - получение результата при минимальных усилиях. Конечно, чтобы добиться такого эффекта, Ли и его ученики усердно тренировались, чтобы усовершенствовать свою технику. Фактически, они прикладывают максимум усилий в додзё, чтобы минимизировать усилия во время боя. Защитная наука о данных требует, чтобы специалисты по данным приложили усилия, чтобы предотвратить ненужные усилия со стороны пользователя.