Открытые данные станут следующим шагом вперед

Каждая революция начинается как массовое движение. Благодаря демократизации наборов навыков в области науки о данных, быстрому распространению данных и простому доступу к вычислениям по запросу и хранилищу с помощью гибкой доступности облачных вычислений обещания эпохи ИИ практически недостижимы. Все более упрощающийся рабочий процесс в эпоху автоматизированного машинного обучения означает, что извлечение прогностических и предписывающих идей из огромных объемов информации никогда не было проще — если у вас есть активы.

Однако для малого бизнеса и гражданских лиц процесс доступа, сбора, очистки и анализа данных не является тривиальным. В то время как корпоративные фирмы могут использовать такие платформы, как Amazon Mechanical Turk, чтобы справиться с работой по очистке и маркировке грязных данных, необходимой для крупных проектов по науке о данных, отдельные разработчики часто оказываются во власти экрана покупки API, если они надеются получить доступ к совокупность данных, монетизированных корпоративными агрегаторами.

ИИ на современном рабочем месте

С момента первых прорывов в статистике, основанной на данных, в 1990-х годах факультет аналитики стал незаменимым набором навыков, требующим премии как со стороны работодателей, так и со стороны студентов. Простое добавление «Данные» к названию должности, по-видимому, позволяет новым сотрудникам получать низкую шестизначную зарплату, а «Магистр наук о данных» стал одной из самых желанных степеней, получаемых в бизнес-школах, готовящих выпускников к захватывающей карьере в области машинного обучения. , аналитика и другие отраслевые приложения.

Менее традиционные пути к карьере в науке о данных становятся все более распространенными. Теперь Class Central может похвастаться более чем 20 базовыми курсами в стиле «вводные науки о данных, каждый из которых содержит около 20 часов контента». Сюда не входят специализации таких учреждений, как университет Джона Хопкинса, или охват сопутствующих наборов навыков, таких как визуализация данных или проектирование.

Kaggle, принадлежащий Google, теперь может похвастаться впечатляющими 3 миллионами специалистов по данным, соревнующихся в решении задач прогнозирования и регрессии, а гроссмейстеры (высший ранг, присуждаемый в серии турниров) часто завалены запросами от рекрутеров как на внутренние, так и на внешние должности в компании. Сообщество размещает свои собственные курсы, а также доску объявлений о вакансиях, где членов Kaggle можно нанимать для различных отраслевых приложений, от технологий до здравоохранения и финансов.

Даже Amazon подхватила идею переобучения, пообещав в июльском пресс-релизе выделить 700 миллионов долларов на повышение квалификации 100 000 сотрудников с техническими навыками к 2025 году. В дополнение к программам университетского уровня и усилиям по повышению квалификации разработчиков программного обеспечения посредством запуска таких программ, как MLU, инициатива финансирует Associate2Tech и Growing Career Choice, программы, специально направленные на развитие сотрудников Amazon FC путем финансирования обучения или предложения стажировок в области ИТ. Стремление к повышению квалификации сотрудников было вызвано анализом Amazon собственных данных о найме, который показал ошеломляющий рост на 832% и 505% соответственно для должностей специалист по картированию данных и специалист по данным за предыдущие 5 лет.

Недостающие части головоломки данных

Наиболее примечательной особенностью этой новой рабочей силы является то, что, в отличие от прежних требований к высококвалифицированным работникам, высшее образование не является необходимым условием для подачи заявления. Все чаще работодатели заинтересованы в том, чтобы увидеть историю производства через портфолио, участие сообщества и проекты с открытым исходным кодом — лучшее свидетельство способностей — это продемонстрированная история производительности. Ученые и разработчики данных, активно участвующие в работе с открытым исходным кодом, с большей вероятностью обладают хорошими навыками командной работы и общения, которые помогают сотрудникам преуспевать в совместной работе и составляют основу любой сильной инженерной организации.

Эта гибкость со стороны работодателей, вероятно, частично обусловлена ​​острой нехваткой наборов навыков, связанных с большими данными. Опрос, проведенный Linked In в 2018 году, выявил нехватку почти 151 000 специалистов по анализу данных в США, причем острая нехватка наблюдается как в восточных, так и в западных населенных пунктах. Как и любая другая специальность, наука о данных не является набором навыков, которые можно приобрести только с помощью теории — практикующим специалистам требуется сочетание теории и глубокого практического опыта, и курсовая работа не решит последнюю проблему, независимо от того, стоит ли обучение студентам 40 или 40 000 долларов. .

Ключом к решению проблемы могут быть автоматизация и более широкий доступ к данным. Упрощение использования продуктов для обработки данных гражданскими специалистами по данным увеличит охват поставщиков на предприятии, а также поможет преодолеть разрыв в навыках, — сказал Александр Линден, вице-президент по исследованиям в Gartner. Ключом к простоте является автоматизация повторяющихся задач, требующих интенсивного ручного труда и не требующих глубоких знаний в области обработки данных.

«Гражданский специалист по данным» — человек, который «создает или генерирует модели, использующие расширенную диагностическую аналитику или возможности прогнозирования и предписания, но чья основная работа выходит за рамки статистики и аналитики», по-видимому, обладает ключом к масштабированию науки о данных. проблема. Вопросы, с которыми сегодня сталкиваются многие бизнес-направления, меньше сосредоточены на последних инновациях в федеративном или трансферном обучении или на тонкостях создания быстрых GNN. Скорее, для большинства приложений сосредоточение внимания на более простых вариантах использования позволяет бизнесу извлекать максимальную пользу из своих собственных данных, поддерживая лиц, принимающих решения, и линейный персонал в повседневных задачах. ИИ движется к товарной модели потребления, где роль приложений заключается в поддержке экспертов в своей области в их повседневной работе.

Открытые данные для более гуманного будущего

Предсказание Gartner от 2017 года — автоматизация прогнозирования значительной части задач машинного обучения — во многом сбылось. Инновационные фирмы, такие как DataRobot и H2O.ai, лидируют, внедряя масштабируемое машинное обучение в различные отрасли промышленности. Обещание этих фирм состоит в том, чтобы демократизировать набор навыков ИИ, позволяя сотрудникам, выполняющим различные организационные функции, использовать преимущества прогнозного и предписывающего моделирования, позволяя специалистам по данным сосредоточиться на действительно сложных технических проблемах, которые могут решить только они.

Конечно, подобные решения мало что дают обычным владельцам бизнеса, не работающим винтиками в крупных организациях, из-за отсутствия не только набора навыков, но и данных. Данные, собранные с помощью бесплатных сервисов о том, что люди ищут, чем делятся и что покупают, создают 25 миллиардов технологических империй в Силиконовой долине. Промышленные гиганты, такие как Siemens и GE, все чаще позиционируют себя как компании, предоставляющие данные, а фирмы, предоставляющие финансовые услуги, работают над подходами к платформе, производя активы данных в форме API.

Массовое движение к открытым данным — взгляд на данные как на необходимую общественную инфраструктуру — набирает силу как в политике, так и на практике. Общественные проекты, такие как W3C, города и правительственные организации, уже давно придерживаются стандарта предоставления внутренних данных через порталы, чтобы сделать информацию, которую можно извлечь, доступной для общественности. Это движение во многом напоминает революцию с открытым исходным кодом, которая повлияла на то, как сегодня создается программное обеспечение, путем введения концепции общей кодовой базы, поддерживаемой широкой публикой на совместной основе. Благодаря открытому исходному коду этой инфраструктуры разработка программного обеспечения решила проблему дублирования труда разработчиков, работающих над часто используемыми и переработанными компонентами. Благодаря доступной общей инфраструктуре зарождающаяся промышленность быстро разрослась, проникая во все части современного общества.

Открытые данные обещают сделать то же самое, не только предоставляя доступ к данным, которые обычно собираются теми, кто ищет информацию, но и объединяя дисциплину в соответствии с общим набором совместимых стандартов, позволяя исследователям сосредоточиться на проблемах, которые еще предстоит решить.

Firm.ai, проект, ориентированный на объединение приложений AI-BI с открытым исходным кодом, является лишь одним из примеров прогресса в достижении этой цели. Проект, управляемый Дереком Сноу из Окленда, Новая Зеландия, на сегодняшний день собрал более 500 записей и значительно продвинулся в каталогизации огромного разнообразия решений для сбора, агрегирования, анализа и доставки данных (бесплатных и платных), доступных для потребителей. назначить свидание. Firm.ai предвидит будущее открытого доступа к данным и облегчение автоматизации малых и средних предприятий.

Подход компании Firm.ai к открытым данным может быть революционным в США, где такие организации, как Google, Refinitiv и Bloomberg, соревнуются за звание создателя стандарта данных, но Китай и Корея добились значительного прогресса в реорганизация общества для поддержки массового процветания ИИ. Правительственное одобрение программ открытых данных (через спонсирование производителей данных для обеспечения открытого доступа к данным), стандартизация структур данных в бизнес- и отраслевых направлениях для лучшей совместимости, а также общий подход к инструментам торговли наукой о данных быстро позиционируют Китай как лидер пакета «Индустрия 4.0, с инновационными центрами, возникающими вдоль побережья Тихого океана от Шэньчжэня до Шэньяна».

Чтобы сохранить свое лидерство, США необходимо будет пересмотреть свой подход к доступу к данным и владению ими. Обещание четвертой промышленной революции — это высокая ставка на то, чтобы позволить технологиям расширить человеческий опыт, поддерживая работников умственного труда, руководителей и даже обычные социальные функции, позволяя им делать то, что они лучше всего умеют: изобретать, создавать и открывать. Автоматизируя банальное и принимая во внимание тривиальное, можно позволить людям сосредоточиться на способностях ортогонального мышления, которые создали разнообразный социальный ландшафт, которым мы наслаждаемся сегодня. Будет ли выполнено это обещание — или трофеи будут направлены вверх, создав низший класс под API — еще неизвестно, но одно можно сказать наверняка: как и любой значительный сдвиг, происходящий в обществе в целом, если этот произойдет, он будет снизу вверх.