Возраст умозаключений

Это особое время в эволюционной истории вычислительной техники. Часто используемые термины, такие как большие данные, машинное обучение и искусственный интеллект, стали популярными описателями более широкого изменения в обработке информации. В то время как традиционные вычисления, основанные на правилах, никуда не денутся, новая вычислительная парадигма формируется вокруг вероятностного вывода, когда цифровые рассуждения учатся на примерах данных, а не жестко закодированы с помощью логической логики. Этот сдвиг настолько значительный, что вокруг него формируется новый вычислительный стек с упором на инженерию данных, разработку алгоритмов и даже новые конструкции оборудования, оптимизированные для рабочих нагрузок параллельных вычислений, как в центрах обработки данных, так и на конечных точках.

В вероятностном выводе забавно то, что когда модели работают хорошо, они, вероятно, большую часть времени правы, но всегда ошибаются, по крайней мере, иногда. С математической точки зрения это связано с тем, что такие модели используют численный подход к анализу проблемы, а не аналитический. То есть они изучают закономерности на основе данных (с различными уровнями участия человека), которые имеют определенные уровни статистической значимости, но остаются в некотором смысле невежественными для любой интуиции физического уровня, связанной с этими закономерностями, независимо от того, представлены ли они математическими теоремами, предположениями или иным образом. Однако именно поэтому вероятностный вывод так невероятно силен. Многие системы реального мира настолько многомерны, сложны и даже стохастичны, что аналитических математических моделей не существует и их чрезвычайно сложно разработать. В то же время их невежественные в физике, довольные и часто грубые коллеги по машинному обучению могут развить дедуктивные способности, которые плохо следуют никаким известным правилам, но все же почти всегда приходят к правильным ответам.

Это захватывающе, потому что это означает, что, даже не полностью понимая лежащую в основе физику, мы можем воспроизвести в программном обеспечении мощные функции, такие как восприятие, планирование и принятие решений. Фактически, изучение входных и выходных данных моделей обучения может даже помочь нам разработать некоторые из недостающих физических моделей для сложных систем в биологии, химии, науках об окружающей среде и других областях. При рассмотрении этих возможностей неудивительно, почему ученые и промышленники стремятся найти способы применения искусственного интеллекта. Однако захватывающее обещание этого надвигающегося века умозаключений приходит с бесспорной ахилловой пятой. В этой вычислительной парадигме для запуска программных приложений требуются данные так же, как память и микропроцессоры. Данные становятся вычислительным компонентом, таким же ядром, как и физические части, из которых состоят настоящие компьютеры. Внезапно понятие цепочки поставок и создания стоимости применимо не только к физическим товарам, но и к цифровым активам, таким как данные. К сожалению, экономические экосистемы вокруг данных остаются в значительной степени недостаточно развитыми, и вместо того, чтобы беспрепятственно упаковывать и отправлять данные, товары данных слишком часто остаются сырыми и застрявшими.

Феодальные владения

В то время как общедоступная сеть распространяет информацию более свободно и в большем масштабе, чем когда-либо прежде, обмен данными, ценными для обучения и запуска моделей машинного обучения, идет вразрез с тем, как развивались большинство бизнес-моделей Интернета. В этом есть смысл, и в этом нет ничего плохого. Если компания инвестировала в создание ценных наборов данных, которые помогают дифференцировать ее продукт или услугу, ее мотивация состоит в том, чтобы сохранить этот ров, защищая эти данные от конкуренции. Эффекты сети передачи данных представляют собой особенно мощную бизнес-стратегию и технологическую стратегию, появившуюся в этом направлении. Однако, если мы оторвемся от взгляда на отдельную компанию и ее особые интересы, мы начнем видеть несколько преимуществ отраслевого уровня, которые нарушение разрозненных хранилищ данных может создать для всех. Вот лишь некоторые из них.

Эффективность

Многие избыточные наборы данных создаются без необходимости из-за отсутствия предварительных сведений об их существовании или доступности. Сокращение избыточности может привести к огромной экономии средств и времени.

Воспроизводимость

Иногда полезно намеренно повторить сбор данных, потому что воспроизводимость обеспечивает гарантию качества. Однако даже в этом случае прозрачность и совместное использование данных необходимы для фактического сравнения независимо собранных наборов данных.

Эффекты множителя

Для узких приложений, таких как распознавание кошек, ценность данных может довольно быстро упасть. Для массовых информационных пространств, таких как геномика или поездки по Нью-Йорку, ценность данных будет продолжать увеличиваться с агрегированием в течение некоторого времени. Учитывая, что культура алгоритмов с открытым исходным кодом уже получила широкое распространение, объединение данных может иметь мультипликативный эффект, поскольку открытые модели объединяются с открытыми данными.

Открытие доступа

Для успешного решения многих вычислительных задач требуются не только данные, но и критическая масса данных, которую часто можно быстрее получить с помощью агрегации или краудсорсинга. Различные уровни критической массы открывают разные уровни открытий, и мы даже не знаем, что это за уровни априори.

Большие инновации от мелких игроков

Экономия на масштабе помогает крупным организациям более эффективно накапливать данные, в то время как более мелкие игроки часто смотрят со стороны и обнаруживают, что их инновационные идеи испытывают нехватку данных. Необходимы новые инструменты, дающие малым компаниям больше рычагов воздействия, чтобы помочь преодолеть разрыв в неравенстве данных, чтобы их инновации имели больше шансов выйти на рынки.

Главное беспокойство здесь не в том, что все данные должны быть полностью объединены. Формы закрытых данных будут существовать всегда, потому что асимметрия информации дает такие сильные стратегические преимущества. Фактически, монопольное владение данными иногда способствует инновациям, поскольку дает новатору чувство безопасности, достаточное для инвестирования в проекты, требующие длительного периода времени. С другой стороны, в вотчинах существует множество исчерпывающих данных, которые, если их объединить и сделать доступными, могут создать общие хранилища данных, которые ускорят прогресс для всех в информационно-ресурсоемкой отрасли. Эти наборы данных обычно не представляют большой ценности для отдельных владельцев, когда они изолированы, но их агрегирование открывает гораздо большую ценность и увеличивает прибыль для всех. Типы данных, хранящиеся в общем массиве данных, часто необходимы, но недостаточны, и компаниям требуется гораздо больше данных и работы, чтобы фактически сделать свои продукты конкурентоспособными. Таким образом, конкуренция путем попытки монополизировать данные на уровне общего доступа к данным, по-видимому, сводится к игре с нулевой суммой, и потраченные на это ресурсы, вероятно, лучше использовать в другом месте. Вместо этого, по мере того, как машинное обучение распространяется в разных отраслях, совместное использование определенных типов данных может создать прочную основу, на которой каждый может строить и продвигать прогресс. Поскольку данные становятся более важными, чем когда-либо в эпоху умозаключений, становится необходимым создать ликвидность данных, выходящую за рамки организационных границ, определенных корпорациями, университетами и даже национальными государствами.

Модели обмена данными

Обмен данными для коллективной выгоды - это далеко не новинка. Призывы к повышению информационной прозрачности давно существуют, например, в открытой науке и открытом правительстве. Тем не менее промышленность проявила ограниченную инициативу, учитывая понятную настороженность конкурентов и скрытые замыслы. Тем не менее, промышленные рынки масштабируются для широких слоев населения, а дальновидный альтруизм - нет. Поскольку рынки работают в соответствии со спросом и предложением, отрасль, вероятно, должна будет укорениться в стимулах, чтобы широко внедрить обмен данными, поскольку она стремится включить компетенцию в области машинного обучения. Здесь стоит изучить несколько моделей обмена данными, чтобы задействовать способы создания промышленной экосистемы, стимулирующей совместное использование.

Один из способов представить совместное использование данных - это сеть, в которой узлы представляют наборы данных или репозитории. С этой точки зрения параметрами, которые лучше всего определяют надежность сети обмена данными, будут ее задержка и время безотказной работы, где время безотказной работы соответствует видимости и доступности узлов данных. Пропускная способность, конечно, будет иметь значение, если обмен данными в реальном времени имеет решающее значение, что имеет место в приложениях непрерывного обучения, но здесь мы будем рассматривать только приложения пакетного обучения, где задержка получения данных обучения более важна. Использование этой структуры помогает нам визуализировать атрибуты и различия трех типов обмена данными, работающих на разных принципах: открытые данные, брокерские операции с данными и кооперация данных.

Открытые данные

Идеалы открытых данных заслуживают похвалы, и их реализация дала отличные результаты, такие как постоянная работа Института Аллена над Атласом мозга Аллена. Видимость и доступность данных высоки, при условии, что организация, публикующая данные, успешно продает доступность и поддерживает инфраструктуру для размещения данных. Из-за неоднородности данных при эффективном объединении данных из разных организаций существует значительная задержка. Это сложно для любой модели обмена данными, но особенно сложно для открытых данных, где инициативы, как правило, осуществляются снизу вверх и фрагментированы между многими участниками без четких предписаний сверху вниз и требований о том, как организовать данные. Это можно решить, например, с помощью правительственных агентств, которые могут использовать финансирование в качестве рычага воздействия на внедрение стандартов. Однако это не решает еще более серьезную проблему масштабируемости с открытыми данными. Создание наборов данных, их структурирование и последующее размещение для бесплатного публичного использования требуют значительных усилий и затрат. Хотя некоторые из них прекрасно несут это бремя, будучи убежденными в силе открытости, они составляют меньшинство, и большинство потенциальных авторов данных не возьмут на себя дополнительную работу, даже если они понимают и соглашаются с ценностью общих данных. В конечном итоге стимулов должно быть больше.

Посредничество данных

Очевидный способ создать стимул - ввести финансовое вознаграждение. Возможность монетизировать данные естественным образом стимулирует формирование бизнеса, связанного со сбором и продажей данных с целью получения прибыли. Поскольку эта бизнес-модель в высшей степени хорошо сочетается с агрегацией данных, брокеры данных по своей сути решают проблемы масштабируемости и накапливают гораздо большие объемы данных, чем проекты открытых данных, и делают это на постоянной основе. Видимость данных может быть высокой, потому что брокеры также заинтересованы в продвижении своих предложений, но фактическая доступность данных скрывается за платным доступом. В результате данные могут быстро и часто перемещаться в этой сети, но только для платежеспособных клиентов и партнеров. Тем не менее, брокерские сети данных работают очень хорошо и эффективно поддерживают современные финансы и электронную коммерцию, обеспечивая основу данных для конечных приложений.

Однако модель брокера данных сталкивается с ограничениями, особенно в отношении типов данных, которые они обрабатывают. А именно, данные с высокой стоимостью приобретения менее приемлемы для брокеров данных из-за более высокой капиталоемкости. Например, нет сомнений в том, что расширение совместного использования и обмена медицинскими данными невероятно ценно. Однако процесс установления происхождения и получения согласия пациента кажется непомерно дорогим по сравнению с огромными объемами потребительских и финансовых данных, которые можно бесплатно извлечь из Интернета. Таким образом, предприятия уклоняются от здравоохранения и других отраслей с высокой стоимостью сбора данных (DAC), в результате чего у них остаются плохие сети обмена данными. Представьте на мгновение, что важные научные предприятия в таких областях, как медицина, химия и материалы, имеют высокий DAC (потому что данные генерируются в результате реальных физических экспериментов). Эти области представляют собой именно тот вид науки о выводах, для которого машинное обучение может привести к огромному прогрессу, но недостаток ликвидности данных ставит их в серьезное невыгодное положение, поскольку они пытаются внедрить методы машинного обучения. Модель брокера данных также лучше всего работает в областях с сильно фрагментированным владением данными. Он изо всех сил пытается работать в отраслях, где есть монополии на данные, у которых в конечном итоге слишком много рычагов влияния и слишком мало стимулов для совместного использования.

Совместная работа с данными

Кооперативы данных отражают своего рода модель членства, которая имеет серьезные преимущества в отношении координации и согласованности. В идеальном сценарии возникает благоприятный цикл, когда участники коллективно получают выгоду от координирующих усилий, что привлекает новых участников, что способствует еще большей коллективной ценности для участников, и образец повторяется. Согласованность в пользу сотрудничества (или даже сотрудничества) - очень мощная вещь. Например, участники могут договориться о стандартизации, чтобы облегчить проблемы при интеграции разнородных данных. Ликвидность данных может быть даже выше, чем в модели брокера, потому что участники могут более прозрачно координировать обмен данными, чем брокеры-партнеры с непрозрачными повестками дня. Возможно, наиболее явным преимуществом кооперативной модели является способность координировать усилия и коллективно инвестировать в создание и сбор данных. Это обеспечивает ключевой рычаг для решения проблем, с которыми сталкиваются отрасли, в которых DAC высок и, следовательно, ликвидность данных низкая, как описано выше. Кооператив может совместно определять приоритеты, какие наборы данных собирать и объединять ресурсы, чтобы сократить усилия, затраты и избыточность при получении этих данных.

Такие влиятельные отраслевые консорциумы, как Semiconductor Research Corporation (SRC), предлагают примеры того, насколько хорошо может работать эта динамика. Ярким примером успешного сотрудничества является то, что SRC управляется партнерами и конкурентами по всей цепочке создания стоимости в полупроводниковой промышленности. Каждый год участники совместно определяют направления исследований и разработок для решения наиболее важных технологических задач, стоящих перед отраслью. SRC финансирует некоторые из этих усилий и способствует передаче знаний между компаниями-членами по мере их прогресса. Когда совершается прорыв, он распространяется в соответствии с соглашением о членстве с тем понятием, что эти технологии являются предконкурентными. То есть их разработка - общее благо для всех в отрасли, и конкуренция должна в конечном итоге сосредоточиться на предложениях продуктов и дифференциации. В мире программного обеспечения Linux Foundation является еще одним показательным примером. В мире данных менталитет «выращивания пирога» изменил бы правила игры, но до сих пор его не хватало. Основной проблемой, с которой сталкиваются современные кооперативы данных, будет проблема холодного старта. Прежде чем компании начнут вносить ценные данные, необходимо установить доверие, но именно то, что на самом деле создает доверие, - это то, что другие вносят данные.

Важность данных будет продолжать расти, иногда очень сильно, по мере того, как компании выясняют, как извлечь пользу из данных, в то время как одновременно нарастают проблемы конфиденциальности и безопасности. Я подозреваю, что вскоре мы увидим множество инновационных решений проблем, связанных с владением данными и обменом ими. Тем не менее, мы не должны предполагать, что эти проблемы разрешатся сами собой без значительных размышлений и усилий, и на карту поставлено слишком много, чтобы сделать это неправильно. Возникающая парадигма вероятностных вычислений слишком многообещающа для человеческого прогресса и открытий, чтобы их можно было задушить игрой с нулевой суммой с данными.