ПЕРЕХОД в науку о данных!

В этой статье я объясняю, почему общий подход к усвоению затрат на науку о данных и расширенную аналитику неверен, и что компании и разработчики программного обеспечения могут сделать, чтобы на самом деле добиться успеха с помощью расширенной аналитики.

Вы помните самое первое веб-приложение, которое вы когда-либо использовали? Не программное обеспечение, которое могло быть видеоигрой или приложением для повышения производительности, а в самый первый раз, когда вы зашли на динамический веб-сайт и взаимодействовали с ним?

Если вы еще не очень стары, это мог быть Facebook, Instagram или Snapchat. А если вы немного старше, возможно, вы писали на Slashdot или использовали программу обмена мгновенными сообщениями AOL.

Чем дальше вы заходите, тем меньше ощущается, что мы используем сегодня многофункциональные веб- и мобильные приложения. Даже когда AOL был ведущим сервисом, у каждой технологической компании было одно общее: разработчики, создающие эти приложения, строили их на основе четырех очень простых операций.

Создать, прочитать, обновить, удалить

Современные фреймворки часто просто ссылаются на эти операции как на C.R.U.D. произносится, как пуританинская ругань: «Ах, грязь!»

Прелесть этих четырех операций в том, что они объясняют почти все, что можно когда-либо делать с данными в сети, и почти все, что можно когда-либо делать с данными, точка. По крайней мере, они это сделали.

Все изменилось.

Теперь мы не просто хотим создавать простые приложения CRUD, мы хотим делать гораздо больше. Мы хотим, чтобы сайты и службы, которые мы используем, предоставляли нам еще более актуальную информацию. Первоначально проблема заключалась в том, чтобы просто найти нужные «статические» сайты с помощью поиска. Но вскоре это также означало, что мы ожидали, что эти веб-приложения будут понимать закономерности в данных, которые были созданы и обновлены в самом приложении. Первопроходцы в пространстве, выходящем за рамки CRUD, создали империи рекламы, розничной торговли и развлечений, намного лучше, чем их предшественники. В их приложениях есть то, чего нет в других приложениях. Как-то они чувствуют себя умнее.

Facebook, Amazon, Netflix и Google (FANG)

Facebook был построен на основе сообщений (операции создания и обновления), но получил возможность монетизации с помощью рекламодателей, когда их канал (уровень операции чтения: увлечение) стал динамичным и персонализированным.
Amazon создал первую розничную сеть с неограниченным выбором и «бутиком», рекомендуя вещи, которые вы, вероятно, захотите купить, на каждой странице (см. рабочий уровень: жуткий)
Netflix совсем недавно создал первого достойного конкурента HBO, создав свои собственные шоу (уровень создания: охлаждение) на основе идей, которые, как они «знали», будут работать, потому что они отслеживали, как люди реагируют на их рекомендации.
Google добился наибольшего успеха, создавая релевантные и персонализированные результаты поиска (уровень операции считывания: вторжение в частную жизнь) и чередуя «обычные» результаты с результатами, спонсируемыми рекламодателями.

Они и все им подобные умнее. Но не только они. Есть также спортивные команды, казино, компании, выпускающие кредитные карты и т. Д., Все превосходящие своих конкурентов в среднем два к одному, делая с данными что-то лучше, чем то, что делают с данными их конкуренты. . То, что они делают, называют по-разному:

Data Science
Машинное обучение
Искусственный интеллект
Расширенная аналитика
Большие данные
Сбор данных
И больше

Но как бы вы это ни называли, это нечто большее, чем CRUD.

Это означает, что для приложений, которые вы создаете, старайтесь с самого начала внедрять в них интеллектуальные возможности и возвращать интеллектуальные данные в существующие приложения. Простой CRUD функционально следует рассматривать как конкурентное обязательство. А для услуг, которые вы потребляете, они должны иметь встроенную интеллектуальную систему и в полной мере использовать собранные вами данные.

Этот пробел в знаниях между братством FANG и всеми остальными беспокоил меня несколько лет. Да, они нанимают очень умных аналитиков данных, но их реальное конкурентное преимущество - это данные. Другие группы, как большие, так и маленькие, также генерируют данные, но они не так тщательно обдумывают их использование.

Кроме того, я думаю, что инженеры по аппаратному обеспечению, инженеры по программному обеспечению и владельцы / менеджеры продуктов - одни из самых блестящих людей, которых я знаю. Они построили все, что мы с радостью оставили бы, даже если бы для этого пришлось отказаться от внутренней сантехники!

Может быть, я слишком оптимистичен и / или просто наивен; но я думаю, что огромная часть проблемы, с которой сталкиваются все остальные, кто что-то создает, заключается в том, что у них нет парадигмы для размышлений о том, как улучшить то, что они делают. CRUD на удивление хорошо послужил миру программного обеспечения, и он останется ментальной моделью, на которой построены все приложения, независимо от того, являются ли они настольными, мобильными или виртуальными приложениями. Я мог бы быть наивным, если бы подумал, что этим умным людям, которые делают великие дела, не нужна серебряная пуля в виде человека или даже в виде набора навыков. Им просто нужна более полезная ментальная модель.

Прямо сейчас серебряная пуля - нанять одного из этих неуловимых специалистов по данным, о которых мы так много слышим. Это заставляет меня съеживаться каждый раз, когда я слышу, как стартап или устоявшаяся компания говорят, что все, что им нужно сделать, это нанять рок-звездного специалиста по данным. Мне становится грустно каждый раз, когда уже компетентный инженер-программист задается вопросом, стоит ли ему пройти «учебный курс» по науке о данных, чтобы оставаться конкурентоспособным.

Что такого особенного в этом новом мире данных, от которого люди говорят сумасшедшие разговоры?

Компании довольно хорошее практическое правило: если вы не можете написать разумное описание должности, вы, вероятно, не сможете поддержать, привлечь или накормить человека, который "соответствует" этому описанию. Правда для вас:

Очень мало ученых из числа рок-звезд, которые могут построить что-нибудь для вас.
Те, кто может, не будут работать на вас.
Ваше конкурентное преимущество не в том, чтобы нанять кого-то для параметризации алгоритма за вас. Это твои грёбаные данные!

Часть вас должна это знать. Неужели вы не подозреваете, что недавний доктор философии по физике / химии / математике / CS, выпускник учебного лагеря или штатный профессор, ставший специалистом по обработке данных, вряд ли выкинут из поля зрения вас, как и ваши неопытные младшие разработчики. менеджеры и профессионалы в середине карьеры не собираются делать много хоум-ранов? Перефразируя поговорку в сфере технологий: «Никого никогда не увольняли / не теряли инвестора за то, что он нанял специалиста по данным» - но, вероятно, они должны были быть.

Инженеры-программисты: стать разработчиком полного цикла, владеющим полдюжиной языков за плечами, - это потрясающий и безумно отличный набор навыков. 99,9997% из вас просто используют базу данных, которая выполняет свою работу (например, MySQL, Postgresql, Sqlite, SQL Server или MongoDB) или ту, которую кто-то заставляет вас использовать для выполнения работы (например, Oracle, DB2 и т. Д.). Если бы я сказал, что вам нужно научиться создавать базу данных с нуля, вы, вероятно, назвали бы меня не очень приятным именем. Если бы я сказал, что вы должны стать сертифицированным администратором баз данных Oracle, большинство из вас все равно ругали бы меня. Чтобы в полной мере использовать базу данных, вам не нужно делать ни одного из этих действий. Так почему вы думаете, что вам нужно изучить такое ремесло, как «наука о данных», чтобы стать лучше? Это не язык и не каркас; так что вам, вероятно, не нужно изучать его, чтобы использовать его.

Несколько резких слов об IP

А как насчет IP !?

Инвесторы и члены правления позволяют мне сказать это очень прямо для вашей пользы:

Нанять кого-то для использования их набора инструментов по выбору (например, weka, python, R, SparkML, Dato, Alpine, Amazon, Google или, не дай Бог, Azure ML) или для написания проприетарной реализации ранее существовавших идей ( например, рекомендатель, классификатор, предсказатель акций) только по ощущениям как IP. Может быть это. Но едва; попытаться защитить это. Написание white paper - это не IP. Наверное, это просто коммерческая тайна. В лучшем случае вы можете защищать свой код, как и все остальные.

Послушайте, почти любой болван с достаточными навыками R (R - это эзотерический язык сценариев для статистики), чтобы быть опасным, и доступ к переполнению стека может создать для вас прогностическую модель. у вас может возникнуть теплое чувство, когда вы нанимаете этого человека, и еще более теплое чувство, когда вы видите, что его творение что-то предсказывает. Но, скорее всего, это хрупкое, немасштабируемое дерьмо, которое отдает предпочтение одному алгоритму, который они знают, а не алгоритмам, которые они не знают, и, вероятно, создание этого заняло слишком много времени и в конечном итоге будет плохо работать в реальном мире. И этот мешок с мясом вряд ли станет вашим ключевым преимуществом, если вы не наняли его в Университете Торонто, Канада. Даже в этом случае кто-то, нарушивший ваше пространство, вероятно, нанял своих равных или лучше из того же университета или, может быть, третий парень из того же университета решил создать некоммерческую организацию с открытым исходным кодом для всего набора и набора. Дох!

Ваше конкурентное преимущество и, возможно, основа любого надежного IP-адреса почти полностью зависит от ваших данных и того, как вам удалось их сгенерировать.

Еще раз заглавными буквами:

ЭТО ВСЕ О ЧЕРТОВЫХ ДАННЫХ!

Так ты должен просто сдаться? Конечно, нет. Но что вы можете сделать?

Сделайте Прыжок!

Реальность такова, что вы, вероятно, не собираетесь заниматься наукой о данных и вряд ли сможете найти для этого таланты. Но у вас, вероятно, уже есть много навыков, необходимых в вашей организации. Я создал ментальную модель LEAP, чтобы, надеюсь, помочь организациям понять, что они могут и должны делать, чтобы в полной мере использовать передовую аналитику.

Вот что вы можете сделать в первую очередь. Запомните этот простой акроним: L.E.A.P.

Ярлык, исследовать, анализировать, прогнозировать

И когда дело доходит до науки о данных, расширенной аналитики и т. Д., Это важные шаги, которые вам нужно запомнить. LEAP - это CRUD расширенной аналитики. Сможете ли вы лично сделать все? Нет. А зачем тебе? Вы лично сами пишете все заявки в своей компании, делаете все продажи и всю отчетность? Вы делаете? Поздравляю! Кто-то, кто лучше умеет делегировать и исполнять, выведет вас из бизнеса.

Все остальные, кроме парня из one-man-and-a-briefcase-.com, продолжают читать.

Я имею в виду «Портфельщик», тебя не пригласили. Вы не станете специалистом по обработке данных самостоятельно, как бы вы ни обновляли свой профиль в LinkedIn.

Этикетка

Этот путь начинается с данных.

"Вы можете предсказать погоду?"

Ну а погодные данные есть?

“No.”

Тогда нет. Нет, не могу.

«Можете ли вы построить мне XYZ-движок, который полностью автоматически увеличивает / уменьшает XYZ?»

У вас есть достаточно данных о XYZ?

“No.”

Опять же, нет. Извините, но ответ отрицательный.

Машинное обучение и искусственный интеллект не являются магией, как и специалисты по данным, несмотря на умные цитаты. Возможно, вы разговаривали с аналитиком данных, и у вас разболелась голова. Помимо высоких показателей IQ, все, что мы делаем, это используем компьютеры для поиска закономерностей в данных. Итак, данные имеют решающее значение.

Я не собираюсь заставлять вас учить жаргон машинного обучения. На самом деле я попрошу вас переслать это своим самым умным коллегам-руководителям данных и попросить их дипломатично, но решительно, чтобы они использовали жаргон LEAP, когда рассказывают вам о том, что они делают или предлагают, - за одним исключением. Я попрошу вас выучить одно слово, которое они, вероятно, сказали: Ярлык.

Что за лейбл? Это именно то, что вы думаете.

Допустим, вы попросили кого-то встретиться с вами за чашкой кофе, и вы никогда не видели фотографии этого человека (и я предполагаю, что это тоже 1980-е), и вы описываете себя ей по телефону или в личной рекламе (помните, что это 80-е). Что бы вы сказали? Какие черты характера наиболее заметны и с меньшей вероятностью обнаруживаются в общей популяции, которая идентифицирует вас? Если бы это был я, я бы сказал: «Я был бы лысым мужчиной в очках в квадратной оправе, с коротко остриженной бородой, светло-коричневой кожей, в футболке с рисунком, шлепанцах, шортах и сидящим где-нибудь у стены». Когда придет мой телефонный друг, она оглянется и мысленно подумает:

«Незнакомец, Незнакомец, Незнакомец, Гонзо, Незнакомец. Возвращаться! Это был он.

Основываясь только на некоторых чертах моей внешности, она смогла назвать меня соответствующим образом: Гонзо.

Характеристики - это просто данные. Но не позволяйте своему сообразительному аналитику данных говорить «особенности». Вероятно, так и будет, потому что это звучит круто и по-научному. Просто поднимите бровь и напомните ему, что мы собираемся сказать «данные» или, может быть, «точки данных» - он будет извиваться в течение минуты, но он это преодолеет. Ярлыки - это все, что описывают эти данные. В этой истории всего два лейбла: Stranger и Gonzo.

У вас может быть широкий выбор этикеток:

Спам, Хэм, сообщения на форуме, социальные сети и т. Д.
Даты
Цены
Настроение (например, положительное или отрицательное)
Мошеннические и правдивые заявки
Элементы изображения или видео
Слова в записанном телефонном разговоре
И Т. Д.

Действительно, нет предела. Поэтому, когда я говорю, что данные - это единственное, что имеет значение, позвольте мне уточнить: метки - это данные, которые имеют значение. Если у вас есть набор данных, описывающих людей в кафе, но без имен, они бесполезны для большинства приложений, за исключением конкретного случая использования, который я опишу в разделе анализа.

Что делать, если у вас нет ярлыков?

Что ж, с этим можно что-то сделать. Являетесь ли вы экспертом в предметной области в том, чему бы вы хотели научить компьютер? Идеально! Вы, наверное, один из самых квалифицированных этикетировщиков. Помните, что данные важны, но необходимы ярлыки. Они являются секретом любого решения для прогнозирования. Существуют также общие и специализированные службы, которые могут помочь вам пометить данные, если у вас нет времени или у вас слишком много данных, и вы не хотите быть специалистом по маркировке на полную ставку до конца своей жизни.

Варианты маркировки

Вы и ваши коллеги - удобно сокращает рабочую нагрузку и, вероятно, лучший вариант, если у вас всего несколько сотен вещей.
Сервисы - Mechanical Turk, CrowdFlower, OpenSpace neé CloudCrowd, CrowdSource передают рабочую нагрузку на аутсорсинг и могут обрабатывать до миллионов задач маркировки за разумный период времени с помощью людей.
Бизнес-правила!

Сколько этикеточных данных вам нужно? В общем, чем больше, тем лучше. Но если вы сможете получить хотя бы сотню вещей с этикетками, у вас будет хорошее начало. Не забывайте начинать с того, что вы уже знаете. Возможно, у вас уже есть некоторые практические правила, которые вы можете использовать для маркировки уже имеющихся данных. А еще лучше, может быть, эти практические правила уже маркируют данные для вас через какой-то процесс, уже функционирующий в вашем бизнесе. Например, если у вас есть процесс для сортировки таких вещей, как заказы, заявки или покупки, начните с использования этих данных для своих этикеток или начните их где-нибудь хранить, чтобы вы могли вскоре использовать их в качестве этикеток.

Проводить исследования

Изучение данных - невероятно важный шаг. Обычно это включает в себя диаграммы или «визуализацию» ваших данных и преобразования ваших данных, как то, что вы могли бы сделать со сводной таблицей Excel. Если вы даже наполовину умеете работать с Excel, вы можете начать этот процесс самостоятельно. А если вы полагаетесь на данные, которые собираетесь использовать для операций, то, вероятно, у вас уже есть завершенный «исследовательский анализ» - просто еще раз взгляните на отчеты, которые вы уже составляете.

Хотя иногда визуализация данных, такая как визуализация взаимосвязанных участников Facebook (см. Выше), может быть полезной (например, питонов и белых медведей нет на Facebook), а не просто красивой. Тем не менее, вы можете часто обходиться простыми столбчатыми диаграммами и даже круговыми диаграммами, чтобы найти тенденции - только не говорите своему другу-аналитику данных, что вы использовали круговую диаграмму, потому что у них есть профессиональные обязанности ненавидеть круговые диаграммы.

В этих исследовательских усилиях наиболее важны два элемента:

Первый - это поиск тенденций в ваших данных (электронных таблицах), которые относятся к вашей этикетке (вероятно, один столбец в Excel).
Во-вторых, вы задаете базовые вопросы, пытаясь ответить на них визуально с вашими данными.

Примеры исследовательских вопросов, на которые вы можете ответить самостоятельно или с помощью своего любимого гуру по Excel или аналитика бизнес-аналитики.

Как (часто, часто) то, что меня интересует, происходит в течение определенного периода времени? Он меняется в зависимости от дня / месяца / сезона? (Попробуйте построить гистограмму с датами.)
Как часто происходит X, когда случается Y? (Попробуйте использовать сводную таблицу.)
Какой уровень / категория / количество X встречается чаще всего? (Попробуйте сводную таблицу + гистограмму!)
Можно ли разделить X (число, например, цену или количество) на значимые категории (например, новые ярлыки), которые еще лучше объясняют приведенные выше вопросы? (Попробуйте использовать формулировку «если», чтобы разделить X на группы, такие как «уровни дохода», «активные пользователи» или «пользователи с наибольшими расходами».)
Какие еще столбцы данных, кроме X, вы хотите спрогнозировать? Можете ли вы найти какие-то тенденции, связанные с этим?

Если вы действительно хотите начать работу, не чувствуете себя слишком компетентным в Excel и имеете доступ к таблицам Google, вам повезло. Google встроил исследование данных в свой продукт Sheets, и для этого не требуется никаких усилий. Вы просто нажимаете значок исследовать в правом нижнем углу (текущий: июнь 2016 г.) и вуаля - мгновенное исследование данных с понятным языком объяснения тенденций в ваших данных. Это довольно красиво. Попробуйте эти наборы данных по туберкулезу в этой общей Таблице.

Чтобы получить эту и многое другое, вам просто нужно загрузить свои данные в Google Таблицы!

Вещи, которые вы, вероятно, не можете исследовать

Место, где вы, вероятно, не сможете исследовать самостоятельно, относится к «неструктурированным» данным. Это данные, которые не подходят для конфигурации строк и столбцов. Примеры: изображения, видео, аудио и текст.

Единственный пункт в этом списке на грани выполнимости - это, вероятно, текст. Если у вас получится сообразить с операторами Excel «сопоставления» или некоторыми регулярными выражениями, вы, вероятно, сможете извлечь слово или слова из кучи текста, которые могут быть действительно полезны в качестве отдельных точек данных (например, коды ошибок в журналах, агент браузера в веб-журналы, названия продуктов в обзорах и т. д.).

Но помните, что без ярлыков большинству специалистов по данным не повезет и в исследовательском анализе. Итак, если вы хотите использовать или вам нужно использовать неструктурированные данные, начните маркировать! Без этих ярлыков мало что может сделать решение для анализа данных, будь то человеческое или иное.

Анализировать

Есть несколько жаргонных терминов, обозначающих анализ данных на предмет шаблонов. Возможно, вы слышали некоторые из них:

Обучить модель
Алгоритм машинного обучения
Наивный байесовский классификатор, случайный лес, SVM и т. Д.
Глубокое обучение (сверточные нейронные сети, глубокие нейронные сети / dnn и т. Д.)

Помните, что это всего лишь распознавание образов. Поэтому независимо от того, использует ли специалист по обработке данных проверенный на практике регресс (например, то, чему вы научились в колледже) или одно из последних нововведений в нейронных сетях, он просто настраивает компьютер для анализа данных в надежде создать что-то, что может точно маркировать новые строки. данных.

Реальность такова, что, хотя вы, вероятно, являетесь специалистом по разметке этикеток мирового класса, вы, вероятно, не хотите учиться заставлять компьютеры выполнять анализ. Прямо сейчас существует огромный спрос на компьютерные анализаторы (например, аналитики данных), точно так же, как существует / был огромный спрос на компьютерных программистов / разработчиков программного обеспечения. Но не отчаивайтесь. Немало команд работают над тем, чтобы сделать ученых данных неактуальными. В отличие от разработки программного обеспечения, которая сродни написанию романа и поэтому ее довольно сложно автоматизировать, машинное обучение, по сравнению с этим, гораздо более автоматизировано. Наука о данных относится к категории сложности, аналогичной таким играм, как шахматы или го, которые сейчас лучше выполняются машинами, чем людьми. Вы, вероятно, не можете ждать пять-десять лет, чтобы начать работу; но если вы можете, вы, вероятно, сможете «нанять» робота-специалиста по данным примерно за лицензию Excel.

Итак, если вы не собираетесь проводить анализ, кроме, возможно, отбрасывания линии регрессии на гистограмме в Excel, о чем вам следует думать, когда дело доходит до анализа?

Две вещи:

Тип проблемы
Приемлемая точность

Типы проблем

Чем больше вы сосредоточитесь на типе проблемы, которую нужно проанализировать, тем быстрее вы получите что-то полезное и ценное. Хотя под каждой из следующих категорий скрывается почти бесконечное количество нюансов, на самом деле нет необходимости направлять анализ в правильном направлении. Когда у вас есть ярлыки и достойный кейс, поддерживаемый одним или двумя трендами, вы можете продемонстрировать своими исследовательскими усилиями, что выбор одной из категорий ниже, вероятно, будет очень простым.

Классификация - составьте шаблон, который идентифицирует дискретную категорию вещей, например "Вещи / фильмы / новости, которые могут вам понравиться", "лицо мужчины или женщины" и т. Д.
Регрессия: определите шаблон, который определяет непрерывную (т. е. от нуля до бесконечности и все десятичные дроби по пути) отношения между объектами, например «Сколько будут продаваться эти акции», «сколько потратит этот клиент», «сколько этот человек должен заплатить за страховку», «сколько товаров мы продадим в следующем квартале» и т. Д.
Обнаружение аномалий - разработайте шаблон для распознавания выбросов в море "нормальных" вещей, например обнаружение мошенничества, обнаружение вторжений, системный мониторинг и т. д.
Кластеризация - выясните, как данные соотносятся с другими данными без ярлыков. Часто это отличный способ придумать несколько меток, которые вы, возможно, захотите предсказать, например «Лысые мужчины в возрасте от 35 до 65 лет, которые часто посещают кафе», или «латиноамериканские женщины в возрасте от 18 до 35 лет, живущие на Среднем Западе». Это то, на что я намекнул выше, когда сказал, что вы можете проводить анализ без этикеток.
Извлечение информации / искусственный интеллект - особый вид прикладного машинного обучения, который обычно основывается на предварительно созданных аналитических моделях, например "Что на этом изображении", преобразование речи в текст и т. Д.

Таким образом, хотя вы, скорее всего, не проведете анализ, если у вас есть хорошие данные для ярлыков и пара идей о том, что было бы полезно предсказать на основе исследования данных, вы сможете эффективно найти кого-то, кто поможет провести анализ или выбрать точечное решение или универсальная платформа, которую вы или ваша команда можете использовать для аутсорсинга анализа.

Анализ аутсорсинга

Точечные решения - часто поставщики SaaS, которые специализируются на анализе данных определенного типа для решения конкретных проблем, например анализировать данные Google Analytics для выявления мошенничества с кликами, анализировать данные о продажах для выявления наиболее квалифицированных потенциальных клиентов, анализировать видеоинтервью для поиска лучших сотрудников и т. д.
Консультанты. Консультации с внештатными сотрудниками или агентствами часто помогут вам сделать все, за что им платят, но если вы делаете легкую работу по определению явной проблемы или набора проблем, которые вы хотели бы решить, и помеченные данные, готовые к работе, и некоторые начальные исследования, демонстрирующие интересные тенденции, их усилия принесут дивиденды намного быстрее, а счет будет намного меньше; беспроигрышный… для вас.
Обобщенный прогноз - такие платформы, как Amazon, Google, Microsoft, IBM; поставщики услуг, такие как Data Robot и Big Squid; или программное обеспечение, такое как Chorus 6 и Dato, что в конечном итоге приводит к размещенной модели (развертываемой в их облаке или иногда в вашем центре обработки данных).

К сожалению, ни одно из вышеперечисленных решений не является супер-простым или дешевым. Анализ в настоящее время и, вероятно, останется узким местом из-за отсутствия талантов, отсутствия поставщиков и дороговизны базовой компьютерной мощности, необходимой для проведения анализа. Однако чем лучше вы понимаете свою проблему, приводите ярлыки в порядок и подтверждаете, что есть что-то, на что стоит обратить внимание при исследовании данных, тем дешевле и быстрее вы сможете преодолеть препятствия для анализа.

Если вы инженер-программист и можете самостоятельно выполнить шаги Label и Explore, не хотите ждать, чтобы начать работу, и умеете интегрироваться с часто придирчивыми и непонятными API, я могу дать две рекомендации:

Amazon Machine Learning - у него хорошая документация, и для типов задач, которые он поддерживает, вам просто нужно указать API, какие данные являются вашей меткой (Y), а какие - вашими функциями (Xs).
Google AI - если вы хотите включить классификацию речи, транскрипции или изображений, API Google лучше, чем большинство других.

Приемлемая точность

Второе, о чем вам следует тщательно подумать, когда дело доходит до анализа, - насколько точным должен быть ваш анализ, чтобы он был полезен. Точность часто измеряется статистикой (например, оценка F1, R в квадрате, AUC - площадь под кривой, точность и отзыв), которая охватывает диапазон от 0 до 1. Таким образом, если вы вернете статистику 0,51, это будет означать, что точность анализа составляет 51%. Насколько точным должен быть анализ?

Коленный рефлекс таков, что он должен быть на 100% точным. Или, если вы один из тех энтузиастов спорта, которые говорят в основном метафорами, вы можете подумать, что это должно быть на 110% точным.

На самом деле вам не нужен 100% точный анализ. Если поставщик решения сообщает вам, что он создал что-то на 100% точно, то, вероятно, он зря потратил ваше время и деньги. Компьютеры, как и люди, ошибаются. Когда компьютеры не делают ошибок при анализе, вероятно, ваш специалист по науке о данных допустил неосторожную ошибку и «перестроил» алгоритм под данные. То есть они создали модель с их анализом, которая действительно хорошо работает в их маленьком огороженном саду на их ноутбуке, но как только они увидят новые данные в дикой природе, они потерпят неудачу.

Уровни точности на простом английском

Эффективность сортировки. Вас может не волновать, является ли верхний пункт в списке «лучшим». Может быть достаточно того, что все в первой десятке отсортированных / рекомендуемых элементов лучше, чем в следующих десяти элементах. В этом случае анализ с относительно низкой точностью может оказаться очень мощным. Не зацикливайтесь на точности, когда это не имеет особого значения.
Лучше, чем подбрасывание монеты. Если у вас более двух результатов, ваш базовый уровень будет ниже 51%, но все равно будет таким же значимым. Например, если вы можете постоянно угадывать результат броска шестигранного кубика лучше, чем в 17% случаев, вам следует отправиться в Вегас и забрать выигрыш.
Надежный. Вы более чувствительны к ошибкам неправильного типа или к чему-то непоследовательному, чем просто погоня за показателями точности. См. Раздел Ложноотрицательные, ложные срабатывания и ошибки измерения ниже.
Сверхчеловеческий. Это, естественно, требует, чтобы вы установили человеческий ориентир с помощью какого-то теста. В настоящее время несколько решений ИИ, таких как игра в шахматы, го и идентификация предметов на изображениях, работают с сверхчеловеческой точностью.

Ложноотрицательные, ложные срабатывания и ошибки измерения

Единственный другой аспект точности, который вам необходимо оценить, связан с типами ошибок, которые алгоритм допускает при анализе ваших данных. Ложные срабатывания означают, что алгоритм считал, что что-то было, хотя на самом деле это не так. Ложноотрицательные результаты - как раз наоборот. Вполне возможно, что один анализ с одним алгоритмом может иметь значительно более высокую «общую» точность, чем другой, но весь этот выигрыш в точности может привести либо к точности (мера ложных срабатываний), либо к отзыву (мера ложноотрицательных результатов) до тревожного уровня.

В некоторых случаях это не имеет значения для бизнес-целей. Но для некоторых бизнес-целей ложноотрицательный результат намного хуже, чем ложный положительный результат, или наоборот, например отсутствие мошеннической претензии может означать штрафы на миллионы долларов, но признание претензии как мошенничества только для того, чтобы выяснить это позже, было правдой, просто бесит клиента; все еще плохо, но, может быть, не на миллионы долларов плохо.

Вы должны заранее определить, что имеет значение для ваших бизнес-целей, и если определенные ошибки являются дорогостоящими с точки зрения возможностей, ответственности или соблюдения требований, вам нужно конкретно знать, как анализ выполняется в отношении тех ошибок, которые вас больше всего беспокоят. о.

Прогноз

Наш четвертый и последний шаг - это предсказание.

На самом деле это довольно просто, если у вас либо есть компетентная команда специалистов по данным / аналитикам данных, либо вы используете поставщика полнофункциональных решений для выполнения этапа анализа. Однако, если вы допустили ошибку и наняли специалиста по физике, который знает только Matlab, получение прогнозов может оказаться очень дорогостоящим как по времени, так и по деньгам. Так что, возможно, откажитесь от найма и позвольте специалистам по физике заниматься физикой. Но даже ваш недавний выпускник Data Scientist вряд ли будет готов перейти с нуля до героя с полностью развернутым решением для прогнозирования. Она может хорошо разбираться в R и создавать красивые диаграммы, но последнее препятствие - это развертывание этой модели, чтобы ее можно было использовать для автоматизации межмашинных процессов или процессов, связанных с участием человека в цикле, которые вы собираетесь автоматизировать в первое место.

Если вы настаиваете на приеме на работу специалиста по данным, который не знает, как развернуть свою модель полезным способом, есть несколько решений, которые помогут вам полностью окупить инвестиции в расширенную аналитику. Но вы можете подумать о том, сколько вы заплатите разработчику программного обеспечения, который может создавать только вещи, которые работают на их ноутбуке, и учитывать это в вашем предложении.

Решения для прогнозирования развертывания

Общее прогнозирование - у всех поставщиков (например, Google, Amazon, Microsoft и т. д.) будет решение для перехода из режима анализа в режим прогнозирования. Все будут размещать решение для прогнозирования в своем облаке, а у некоторых есть возможность развернуть решение для прогнозирования в вашем центре обработки данных - если вам не повезло работать в отрасли, настолько отсталой от времени, что они не могут понять, как Amazon Web Services и Amazon GovCloud, вероятно, на порядок лучше / безопаснее / надежнее, чем ваш центр обработки данных в подвале.
Развертывание нажатием кнопки - разрабатывается все больше решений, позволяющих вашей команде по анализу данных программировать на своем языке по выбору, будь то R, Python, Lua, Scala и т. д., и развертывать эти скрипты. в качестве услуг, с которыми ваша команда разработчиков программного обеспечения может интегрироваться. Вот несколько поставщиков, которые вы можете использовать в Google: Domino Data Labs, DeployR, IBM, PredictionIO и т. Д.
Искусственный интеллект как услуга - предварительно созданные модели (некоторые из них можно постепенно обучать на ваших данных для повышения точности), с которыми вы интегрируетесь, чтобы вы могли добавлять данные из модели ИИ к существующим данным, например Классификация изображений и преобразование речи в текст. Для начала ознакомьтесь с предложениями Google.

После развертывания решения вы сможете использовать его для новых прогнозов с использованием новой строки данных или пакета новых строк данных.

Построчное прогнозирование отлично подходит для межмашинного прогнозирования, но также может быть чрезвычайно полезно для процессов, выполняемых человеком в реальном времени (например, квалификация заявки на получение кредита, расчет прогнозируемой контрактной стоимости учетной записи и т. Д.) . Пакетное прогнозирование часто используется в процессах, выполняемых человеком в цикле, для подготовки набора прогнозов, которые можно использовать напрямую или загружать в программное обеспечение (например, оценки потенциальных клиентов для всех контактов в новом списке вызовов, прогнозируемые обзоры производительности в списке кандидаты на работу и др.).

Независимо от того, как вы используете прогнозирование для повышения автоматизации или просто для калибровки процесса принятия решений человеком, когда вы это сделаете, вы будете ближе, чем когда-либо, к присоединению к элитной группе компаний, действительно ориентированных на данные, которые надлежащим образом используют данные и аналитику. В то время как только 4% компаний могут претендовать на то, чтобы быть частью этой элитной группы, у них в два раза больше шансов оказаться среди лучших финансовых исполнителей в своей отрасли, в три раза больше шансов достичь своих целей и в пять раз быстрее решения. Вау! Похоже, к группе стоит присоединиться.

Это структура LEAP. Дай мне знать, что ты об этом думаешь.

Была ли эта разбивка полезной для тех из вас, кто не желает изучать расширенную аналитику, но действительно хочет использовать ее для улучшения своего бизнеса?

Для тех из вас, кто занимается или хочет заниматься наукой о данных, кажется ли, что структура LEAP достаточна, чтобы быть полезной, не пропуская важные шаги или не увязая в сорняках?

Поделитесь этим и сообщите мне, было ли оно полезно.

ПЕРЕХОД в науку о данных!