Любая компания, обрабатывающая большие объемы разнообразных данных, быстро поймет, что им нужны модели машинного обучения. Но превращение данных в ценные и надежные аналитические данные - задача, с которой столкнулись многие отрасли за последнее десятилетие, поскольку мир по уши в использовании больших данных.

За последние несколько лет мы узнали, что большие данные далеко не так ценны, как интеллектуальные данные. Это связано с тем, что компаниям нужны данные, на которые они могут положиться, чтобы мгновенно использовать их при принятии решений.

Интеллектуальные данные сочетают в себе возможности и знания в области глубокой науки о данных. В большинстве случаев для этого требуется множество моделей машинного обучения. Как человек, который курировал и создал тысячи из них, я хочу поделиться некоторыми из наиболее важных идей, которые я и моя команда усвоили на этом пути.

1. Вам нужно быть смелым: знания в области науки о данных постоянно развиваются, и ваш подход тоже должен

Наша первая модель в PredictHQ была основана на правилах и выполняла (по общему признанию) неплохую, но совершенно скучную работу. С тех пор мы создали более тысячи продвинутых моделей машинного обучения, некоторые из которых очень простые, а другие - чрезвычайно сложные и современные.

Самый важный урок, который мы извлекли из нескольких сотен первых людей о PredictHQ, заключается в том, что вам нужно постоянно подталкивать себя и свою команду к тому, чтобы узнавать больше и пробовать новые подходы. Каждый набор данных уникален и постоянно растет. Несмотря на то, что мы испробовали множество различных видов моделирования, чтобы найти наиболее точные и содержательные наборы данных, иногда для совершенствования нового подхода требуется опробовать модели, которые раньше никто не строил в компании, а построили всего несколько специалистов по данным по всему миру. Благодаря этим испытаниям мы научились доверять своим инстинктам и быть храбрыми, когда дело доходило до выбора правильного подхода. Мы узнали это, может быть, сто раз, но никогда так ясно, как недавно, когда мы изобрели итеративную модель SSA. IteSSA - это очень продвинутый подход к моделированию временных рядов, который был изобретен моей командой, поэтому он был одновременно сложным и захватывающим.

Мы были рады построить нашу первую итеративную модель SSA, потому что это непараметрический метод машинного обучения. Вместо того, чтобы указывать модели, как думать с предварительным предположением о данных и фиксированном количестве параметров, IteSSA освобождает данные для управления их собственным пониманием и выводом, а также полностью управляется данными и самоадаптируется по данным. Это было критически важно для нас, потому что мы не только обрабатывали данные, которые мы проверили и стандартизировали из сотен источников, мы также начали работать с избранными клиентами, чтобы получить большие выборки их данных (полностью анонимных), чтобы определить их корреляцию с реальными. -мировые события. Это требовало архитектуры модели, которая могла бы обрабатывать данные о транзакциях и доходах от разных клиентов в различных отраслях и не ограничивала модель определенной гипотезой о данных. Их данные, начиная от ведущих точек розничной торговли продуктами питания быстрого приготовления в США и заканчивая крупными мировыми гостиничными компаниями и транспортными компаниями, означали, что наши модели должны были учитывать различные отрасли, геолокации и типы заказов. Это подавило бы более традиционные модели, которые полагаются на предварительные предположения, которые мы в них кодируем.

Мы нервничали несколько дней, пока мы обсуждали достоинства запуска IteSSA, но мы поверили исследованию, которое показало, что непараметрические модели были более эффективными и точными, а затем взяли на себя обязательство создать такую, постоянно отслеживая и тестируя ее на каждом этапе. . В конечном итоге это был лучший подход к уникальной проблеме, с которой мы столкнулись, поэтому мы хотим побудить других специалистов по обработке данных проводить широкие исследования и смело подходить к решению сложных проблем, которые нам предстоит решить.

2. Понять полный контекст, прежде чем разбирать проблемы и начинать создавать модели.

Соблазн делать выводы - обычное дело для специалистов по анализу данных. Все мы склонны верить, что новые элементы похожи на те, с которыми мы сталкивались ранее. Имея дело с новыми данными и новыми проблемами, мы должны рассматривать каждую как можно более свежо.

Проблемы, которые нам предстоит решить, а также наборы данных, которые мы используем, сильно различаются. Одна из общих проблем, с которыми мы столкнулись с нашими ранними моделями, заключалась в том, что первоначальная сборка не работала так хорошо, как мы надеялись. Это произошло потому, что нам нужно было создать дополнительные модели ранее в архитектуре модели, чтобы подготовить данные для ее расчетов. Мы прорвались, потратив значительное количество времени на создание моделей, чтобы превратить большие объемы неструктурированных данных в списках событий в полезную информацию для моделей.

Также крайне важно, чтобы специалисты по обработке данных понимали не только стоящие перед ними технические задачи, но и бизнес-контекст. Каждый специалист по обработке данных хочет вести сложную инновационную работу, но если ее нельзя использовать в своем бизнесе, это будет неприятно для всех.

3. Ищите творческих специалистов по данным.

Наконец, по сути, помните, что лучшие специалисты по анализу данных очень креативны. Важно, чтобы вы построили культуру идей и нестандартного мышления. Я занимаюсь исследованием данных более десяти лет, и все лучшие специалисты в области данных, с которыми мне посчастливилось работать, были не только творческими, но и новаторскими. Это не значит, что они рисуют или пишут романы в свободное время (хотя некоторые из них это делают). Это означает, что они глубоко думают и придумывают нестандартные оригинальные идеи, которые тщательно продумываются, чтобы найти и создать идеальное решение.

При приеме на работу легко учитывать только технические навыки кандидата. Тем не менее, я бы посоветовал компаниям, ищущим квалифицированных специалистов по обработке данных, искать в своих соискателях уникальное сочетание математических, технических навыков и критического мышления, а также навыков решения проблем. Помните, что самые эффективные специалисты по данным - это ученые. Им необходимо уметь творчески решать проблемы, уметь выявлять новые гипотезы и проверять их, пока они не найдут нужное понимание.

Команды по анализу данных должны быть в состоянии подтолкнуть себя к дальнейшему обучению, мыслить новаторски и в то же время постоянно расширять свое понимание. Хотя построение модели во многих отношениях является легкой частью, а определение лучшего решения для построения является наиболее важным, одно из них может быть успешным только тогда, когда они способны сочетать творческий подход, критическое мышление и командную работу.