Тенденции в области науки о данных, которые будут править в 2022 году

2021 год был захватывающим годом для науки о данных: несмотря на увольнения и сокращения бюджета, связанные с пандемией COVID-19, эта область продолжала процветать. Согласно опросу, проведенному Anaconda, только 37% компаний сократили свои инвестиции в науку о данных. Для подавляющего большинства компаний наука о данных стала главным инструментом выживания и процветания в условиях пандемии.

2022 год обещает быть не менее интересным.

TinyML

Массивные модели, обученные на миллионах экземпляров, таких как GPT-3 или DALL-E, могут попасть в заголовки, но TinyML находится на подъеме. Проще говоря, TinyML — это долгожданное слияние встроенных систем с машинным обучением. Парадигма IoT в значительной степени полагалась на необработанные данные с периферийных устройств, от умных часов до счетчиков электроэнергии, которые передавались на большие обычные серверы, которые затем выполняли сложные алгоритмы машинного обучения. Однако за последние несколько лет стоимость (и размер) вычислительной мощности быстро снизилась, в то время как стоимость передачи данных осталась практически неизменной. TinyML — это естественный ответ на дорогостоящие вычислительные модели.

Больше не всегда лучше, когда речь идет о моделях. Модель с низким энергопотреблением и малой задержкой, работающая на пограничном устройстве, может быть лучшим выбором, когда передача данных является дорогостоящей или сложной (например, из-за отсутствия сотовой или проводной сети в этом районе), желательно быстрое реагирование и модели можно уменьшить до относительно небольшого размера. Камера следа, используемая исследователями дикой природы для фотографирования определенного вида, не должна иметь на борту современную модель распознавания изображений с глубоким обучением, но она должна быть способна работать в суровых условиях в течение длительного периода времени. . Точно так же устройства, используемые для профилактического обслуживания и обнаружения аномалий, например. нефтепроводы или наземные высоковольтные сети часто должны работать за пределами повсеместного беспроводного подключения. TinyML — это тенденция, развившаяся в ответ на эти вызовы.

В основе TinyML лежит растущая потребность разработчиков машинного обучения в понимании их базового оборудования. Там, где ресурсы фактически неограничены, нет необходимости планировать вычислительную мощность. Однако, когда модель должна работать на микроконтроллере размером с монету с 256 КБ (да, килобайт — это не опечатка!) ОЗУ, разработчики должны быть ближе к металлу и иметь хорошее представление о мощности и ресурсах. почти каждую строку кода.

К счастью, разработчики TensorFlow уловили потенциал TinyML и создали TensorFlow Lite, который может сжимать и оптимизировать модели для работы с 8-битными целыми числами. По мере того, как периферийные устройства становятся повсеместными, от «умных» кухонных приборов до обнаружения аномалий в реальном времени и мониторинга автоматических промышленных объектов, парадигма TinyML будет набирать силу. Специалисты по данным могут сначала счесть кривую обучения аппаратному обеспечению и низкоуровневому программному обеспечению сложной, но растущее распространение сред TinyML обязательно приведет к значительному развитию этой области в 2022 году.

ИИ как услуга (AIaaS)

В ноябре 2021 года OpenAI произвела фурор, объявив, что их языковая модель Transformer, GPT–3, будет доступна широкой публике в качестве API. Это всего лишь последнее в растущей тенденции предоставлять передовые модели в качестве услуг. Будущее AIaaS будет характеризоваться составом атомарных сервисов ИИ. Банк может использовать один сервис для создания чат-бота, которому клиенты могут сообщать о мошеннических платежах по кредитным картам, и использовать другой сервис для обнаружения аномалий и отчетов клиентов с оценкой рисков. Между тем, модель клинического языка будет поглощать записи и историю болезни пациента и использовать механизм разговорного языка от другого поставщика, чтобы предупредить ее о взаимодействии с лекарствами. Благодаря растущему числу компонуемых моделей искусственного интеллекта специалистов в предметной области пользователи могут создавать сложные алгоритмы, объединяющие лучшие в своем классе инструменты для конкретной предметной области.

AIaaS не обходится без проблем: в частности, предприятия должны тщательно проверять своих потенциальных поставщиков услуг на надежность и безопасность. Вопросы конфиденциальности данных также могут влиять на управление риском зависимости от третьей стороны. Предприятие, которое предоставляет решение, может нести или не нести юридическую ответственность в случае взлома поставщика API, но потенциальный ущерб для репутации значителен. Предприятия, которые рассматривают возможность использования API-интерфейсов AIaaS для работы с клиентами, должны быть «придирчивыми едоками», тщательно проверять потенциальных поставщиков API, получать железные гарантии SLA и обеспечивать их достаточное возмещение.

Регулируемые отрасли (например, банковское дело, здравоохранение) должны нести высокие требования по соблюдению требований, что может свести на нет преимущества AIaaS. Однако для предприятий, которые могут выполнять свои обязательства по соблюдению нормативных требований и управлять рисками, связанными с тем, чтобы полагаться на третьи стороны в отношении потенциально важных продуктов ИИ, ориентированных на клиентов, AIaaS является отличным способом быстрого создания решений на основе ИИ без первоначальных затрат, традиционно связанных с первоначальными затратами. домашняя команда ИИ. Будущее для AIaaS выглядит радужным в 2022 году, и мы, вероятно, увидим известные имена и традиционные предприятия, использующие ИИ с помощью решений AIaaS.

Автомл

Машинное обучение является сложным, с крутой кривой обучения и часто ресурсоемкой бизнес-моделью, и это вряд ли изменится в 2022 году. Однако автоматизация машинного обучения (AutoML) может стать решением обеих этих проблем. Применяя «чертежи», лучшие практики могут быть встроены в конвейер аналитики с самого начала, тем самым предотвращая попадание пользователей в многочисленные ловушки машинного обучения. Кроме того, автоматизация может также снизить стоимость решения и время решения за счет уменьшения потребности в специально обученных и дорогостоящих специалистах по машинному обучению.

Название немного вводит в заблуждение — зрелые решения AutoML управляют не только частью машинного обучения, но также подготовкой и предварительной обработкой данных, а также выбором модели и настройкой гиперпараметров. Ведущие решения AutoML даже способны выполнять автоматическую диагностику модели, сообщая пользователю о пригодности конечного продукта.

AutoML также может быть привлекательным предложением для опытных пользователей и специалистов по данным, которые могут захотеть повторно использовать предопределенный аналитический путь для воспроизводимости или инкапсулировать отдельные подзадачи для создания компонуемых массивов задач. Кроме того, AutoML может обеспечить полезные гарантии надежности аналитических выходных данных, такие как выявление утечки информации из обучающих данных, которые не являются независимыми от строк и одинаково распределены. Автоматизация выбора функций и поиска гиперпараметров с помощью автоматической настройки гиперпараметров также поможет сэкономить время как ученым, работающим с данными, так и неспециалистам.

Хотя инструменты AutoML существуют уже много лет, в 2022 году, вероятно, будет сделан новый акцент на таких решениях, чтобы уменьшить хроническую нехватку специалистов по данным. В Недавнем отчете McKinsey подчеркивается, что деньги, потраченные на поиск дефицитных специалистов в области обработки данных, могут быть более эффективными при наборе и обучении компетентных и опытных пользователей AutoML. Точно так же легче приобрести компетенцию AutoML, чем полный набор навыков специалиста по машинному обучению, что позволяет профильным экспертам в операционных областях проходить перекрестное обучение в качестве пользователей AutoML. Станет ли 2022 год взлетом AutoML? Я, конечно, так думаю, и, судя по тенденциям крупных облачных провайдеров, а также независимых провайдеров, предлагающих решения AutoML, я не одинок.

Самообслуживание и расширенная аналитика

Аналитика самообслуживания вряд ли нова, но ее значение быстро меняется. От концепции, ориентированной на услуги, которая была сосредоточена на подготовке аналитики к самообслуживанию, ведущие предприятия перешли к подходу, основанному на возможностях: самообслуживание — это не только предоставление инструментов, таких как платформы BI, предназначенные для конечных пользователей, но и ожидание того, что менеджеры станут данными. лица, принимающие решения, которые используют эти инструменты в своих повседневных обязанностях.

Дополненная аналитика появилась, чтобы соединить перспективу, ориентированную на услуги, с требованиями, ориентированными на возможности. Автоматизируя генерацию идей, продукты расширенной аналитики помогают лицам, принимающим решения, ориентироваться в потоке данных и быстрее получать результаты, а также снижать нагрузку на дорогостоящих специалистов, таких как специалисты по данным, которые смогут сосредоточиться на деятельности с более высокой добавленной стоимостью.

Дополненная аналитика часто сталкивается с первоначальным энтузиазмом, но также и с глубоким беспокойством со стороны потенциальных пользователей. За этим стоят в равной степени гордость и благоразумие: просить опытных менеджеров полагаться на алгоритм для сбора информации для них — сложная задача. Даже руководители, которые не обманывают себя, полагая, что могут ориентироваться в огромном море корпоративных данных лучше, чем алгоритм, опасаются перспективы передать управление данными искусственному интеллекту.

Успешные решения расширенной аналитики действуют как проекционный дисплей (HUD) истребителя: они обеспечивают ситуационную осведомленность, предотвращая информационную перегрузку, расставляя приоритеты точек данных по влиянию и значимости — при этом стараясь не затенять всю информацию («незаметность»). ограничение курирования»). Дополненная аналитика также должна учитывать различные способы, которыми мы предпочитаем воспринимать информацию — например, генерация естественного языка (NLG) является ценным инструментом для передачи информации вербальным учащимся, в то время как визуальные учащиеся предпочтут спарклайны и другие визуализации. По мере того, как интерес к расширенной аналитике продолжает расти, все большее число решений включает в себя глубокое понимание сенсорной психологии и передовые методы передачи сложной информации. 2022 год вполне может стать годом, когда расширенная аналитика станет нарицательным словом среди ведущих корпоративных клиентов.

Торговые площадки и биржи данных

Если данные — это новая нефть, то рынки данных — это новые товарные биржи. Всего несколько лет назад компании владели своими данными и ревностно охраняли их. С появлением простых и удобных платформ для обмена и монетизации больших наборов данных, таких как Marketplace данных Snowflake, любая компания может превратиться в поставщика данных. Традиционная модель, когда посредник покупает данные у создателей и преобразовывает их в формат, пригодный для аналитики, приходит в упадок. Это плохая новость для посредников, которым придется упорно бороться, чтобы продемонстрировать свою добавленную стоимость, но хорошая новость для всех остальных: поставщики услуг, у которых есть данные о поведении клиентов, смогут создать прибыльный побочный бизнес, продавая результаты аналитики. То, что вы слушаете, на что вы смотрите перед покупкой, где вы заказываете ужин и какие погодные явления заставляют вас брать такси, теперь являются ценными товарами в руках поставщиков услуг.

Чтобы добиться успеха, они должны сбалансировать свои экономические интересы с неприкосновенностью частной жизни и правовыми нормами конфиденциальности клиентов, чтобы их новый побочный бизнес не разрушил репутацию их бизнеса в целом. В равной степени они должны научиться реагировать на новый класс клиентов и заранее приложить некоторые усилия, чтобы преобразовать свои данные в удобоваримый, готовый к аналитике формат. Обмен данными, такой как Marketplace данных Snowflake, может быть бесценным инструментом в этом процессе.

Компании, которые хотят воспользоваться преимуществами новых рынков данных, нуждаются в надежной стратегии монетизации данных. Это должно касаться всего процесса, от начала до конца: от юридических разветвлений и обязательств по конфиденциальности до создания внутренних платформ CI/CD для данных, которые автоматизируют преобразование в формат, готовый к аналитике, без привлечения ресурсов специалистов. Однако после адекватной разработки стратегия монетизации данных может продолжать приносить пользу с минимальными дополнительными усилиями. Для предприятий, которые генерируют большие наборы данных (или очень уникальные) в рамках своего бизнеса, изучение совместного использования данных может оказаться полезным.

2022 год обещает быть богатым на события в области науки о данных, машинного обучения и искусственного интеллекта. Пандемия переориентировала внимание на расширенную аналитику как на мощный инструмент управления неопределенностью и реагирования на быстро меняющиеся стратегические ситуации. Рост AIaaS будет способствовать повсеместному распространению решений на основе ИИ, что теперь станет возможным для гораздо более широкого круга рынков. Точно так же AutoML и расширенная аналитика постепенно превращают науку о данных из описания работы в профессиональный навык, который будет незаменим для менеджеров, стремящихся к продвижению. А 2022 год может стать годом, когда часто цитируемая поговорка о том, что данные — это новая нефть, станет ближе к реальности с первыми «товарными биржами» для данных.

СВЯЖИТЕСЬ С НАМИ ЗДЕСЬ, ЧТОБЫ УЗНАТЬ БОЛЬШЕ:

Поговорим | Starschema
Мы помогаем вашей организации управлять данными.www.starschema.com

ЧИТАЙТЕ БОЛЬШЕ ИСТОРИЙ ОТ STARSCHEMA:

8 лучших практик для работы с поставщиком данных в области обработки данных — от специалистов по обработке и анализу данных
Получите практические советы от специалистов по данным Starschema, чтобы оптимизировать рабочие процессы для повышения производительности и результатов… среда.com

Масштабируемое машинное обучение в Snowflake: распределенный Python из Snowflake SQL с использованием Bodo
Как настроить конвейеры выполнения машинного обучения Python в Snowflake с помощью распараллеливающего оптимизирующего компилятора Python Bodo, который…medium.com

COVID-19 и первая война науки о данных
Нынешняя вспышка COVID-19 — это первый случай, когда данные могут изменить ход пандемии среди людей: узнайте больше о… medium.com