Наука о данных и машинное обучение в дикой природе

Вещи, которые вам никто не расскажет о работе Data Scientist

Чему я научился как практик в области науки о данных

Наука о данных в дикой природе

Если вы читаете это, вы, вероятно, хотите заняться наукой о данных. Я просто хочу начать с того, что сообщу вам, что наука о данных в дикой природе — это зверь, отличный от науки о данных, с которой вы, возможно, знакомы из своей степени или онлайн-курса.

Как практик, я хотел бы поделиться с вами несколькими профессиональными секретами, которые мне хотелось бы знать перед началом работы. Я учился на собственном горьком опыте, и я любезно бросаю эти жемчужины, чтобы вам не пришлось напортачить, как это сделал я. Поблагодарите меня, подписавшись (если хотите) …пожалуйста.

Вот некоторые вещи, которые люди не говорят вам о том, чтобы быть специалистом по данным. Есть еще много, но я дам вам четыре лучших.

Вам нужен бай-ин наверху.

Вы не можете оказать влияние на организацию как ученый-одиночка. Вам нужна поддержка со стороны тех, кто наверху. Это тяжелая пилюля, которую многие из нас не могут проглотить. Мы хотим быть Илоном Маском, спасающим организацию с помощью математики, науки и высшей логики. Илон — 1 из 7 миллиардов, но кроме вашей семьи и друзей никто вас не знает и не заботится о вас. Вам нужен кто-то, заслуживающий доверия, чтобы поручиться за вас, к которому прислушивается ваше высшее руководство, правление и исполнительный комитет (ExCo). Это единственный способ внести изменения в культуру, необходимые для эффективного машинного обучения, и спасти те миллионы, которые вы отчаянно хотите получить с помощью своих волшебных моделей машинного обучения. Прислушайтесь к этому предупреждению, вы будете страдать от отторжения тканей, если не получите поддержку наверху. Конечно, вы создадите несколько отличных прототипов, но никто не захочет тратить свой бюджет на их производство и масштабирование.

Решение: Машинное обучение должно быть «в деле» в вашей организации, единственный человек, который действительно может продвигать это как повестку дня, — это высшее заинтересованное лицо, кто-то вроде вашего технического директора или даже генерального директора. Если у вас есть возможность, заручитесь их аудиенцией как можно скорее. Приходите со стратегией и мыслите масштабно! Поговорите о том, почему ИИ вообще полезен, о ваших планах по прогреву организации, планах доставки, потенциальных затратах и ​​потребностях в ресурсах — все это должно быть частью вашей стратегии. Должна подойти колода стратегий на 10–16 страниц.

Почти никто не знает, что такое машинное обучение.

Это говорит само за себя, большинство людей, которых вы встретите на практике, на самом деле не знают, что такое машинное обучение, и вам будет нелегко убедить их, что это стоящее занятие. Кого я здесь имею в виду? Ваши ключевые заинтересованные стороны, которые контролируют, сколько бизнес может потратить на производство и поддержку ваших моделей. Я хочу, чтобы вы на минуту сняли шляпу науки о данных и взяли шляпу инвестора/ключевого заинтересованного лица в бизнесе. Теперь будьте очень прагматичны, почему вы, инвестор, должны поддерживать какую-то модель, которая работает только в теории? Вы, вероятно, не понимаете, на что смотрите, и наверняка уже предвидели технический долг, если этот эксцентричный специалист по данным решит покинуть ваш бизнес.

Дело в том, что многое в бизнесе связано с восприятием. Я знаю, что вы создали блестящую модель, которая сэкономит компании миллионы (на бумаге), но вам нужно изменить их восприятие машинного обучения и отказаться от каких-то слишком сложных и умных вещей, которые они не понимают. Для этого вам нужно будет говорить на их языке. Спросите себя, что заставило бы вас инвестировать в модель?

Решение: вам нужно разогреть их реальными примерами. Что-то, что сработало для меня в прошлом, — это сотрудничество с внешними партнерами, которые предоставили решения, которые принесли измеримую ценность для бизнеса. Я попросил своих партнеров работать со мной, чтобы проводить семинары для ключевых заинтересованных сторон. Цель состоит в том, чтобы вдохновить людей и предложить им идеи о том, как машинное обучение может им помочь. Вам нужно посадить семя.

Данные очень трудно получить доступ.

Если кто-то из вас знаком с Kaggle, это отличный способ освоить машинное обучение и проверить свои навыки в сравнении с тысячами других начинающих специалистов по данным и специалистов по машинному обучению. Проблема с Kaggle в том, что данные слишком легко доступны. Правильно, слишком просто получить данные. На практике все совсем не так. Получить данные может быть очень сложно, даже данные, принадлежащие вашей собственной компании. В некоторых организациях вы можете застрять в петле бюрократии на несколько месяцев, прежде чем получите данные. Вы планировали это?

Решение: не бросайтесь в проекты! Я знаю, что вы набрали 5% лучших в своем сложном испытании на регрессию на Kaggle, но пока не обещайте это сделать. Найдите время, чтобы оценить многие формулировки проблем и тщательно определить свои решения. В рамках этой первоначальной оценки вы захотите наметить, какие данные, по вашему мнению, могут вам понадобиться, И оценить, насколько сложно получить доступ к этим данным. Кстати, простое предположение о низком качестве данных с самого начала облегчит умственную нагрузку.

Чтобы масштабировать машинное обучение, нужна деревня, очень, очень дорогая деревня.

Под деревней я подразумеваю людей, инфраструктуру и данные. Вам, вероятно, понадобится облачная платформа, локальная инфраструктура, лаборатории, опыт, правильная команда и данные. Это дорого, и вам предстоит большая работа по убеждению вашей организации инвестировать в это, если они еще этого не сделали.

Решение: вам нужно доказать свою ценность для вашей организации. Есть ли низко висящие фрукты? Можете ли вы создать что-то в меньшем масштабе, что окажет большое влияние на одну команду? Никогда не забывайте, что бизнес основан на прагматизме: то, что хорошо сработало для одной команды, легче продать, чем то, что хорошо работает на бумаге, но еще не используется. Найдите проблему, которую можно решить просто, сосредоточьтесь на ней, а не пытайтесь вскипятить океан. Помните также, что наука о данных — это не только машинное обучение. Можете ли вы предоставить аналитику, статистическое моделирование или что-то еще, что может быть полезно заинтересованным сторонам вашего бизнеса? Подумайте, теперь вы специалист по данным, так что вы можете что-то придумать. Я верю в тебя.

В общем, это благодарная работа. Но дорога вымощена препятствиями, которые вы должны преодолеть. Не отчаивайтесь, учитесь на чужих ошибках и, прежде всего, будьте смелыми.

Удачи в вашем путешествии.

⭐️ Мне нравится помогать людям, делясь своим опытом работы с данными в дикой природе. Если вы еще не являетесь участником, рассмотрите возможность подписки на Medium, чтобы получать от меня больше полезного контента.