Следующий рубеж в аналитике больших данных

Межотраслевая аналитика и три ее столпа

В нашем мире данные повсеместны, но их маржинальная отдача уменьшается.

Дополнительные данные не обязательно переводятся в новую информацию, фактически, иногда они могут служить только для повторения существующих предубеждений.

Так где же нам искать лучшие, новые, удивительные идеи? Выход за рамки отраслевой разрозненности - это следующий рубеж для получения ценной информации. Что касается данных о потребителях, то тонкий факт, который упускают из виду отраслевые практики, заключается в том, что мы все обслуживаем одного и того же клиента - один и тот же человек, который покупает мобильный тариф, также ищет ипотеку и, возможно, планирует отпуск на Гавайях. Тем не менее, как я поделился на саммите по машинному обучению в Торонто в прошлом году, группы аналитики данных анализируют данные только из контекста своей конкретной отрасли.

Тем не менее, многое еще предстоит сделать, чтобы подготовить, дать возможность и убедить участников отрасли к сотрудничеству.

Для того, чтобы сотрудничество стало реальностью, необходимы три столпа - модели оценки данных, механизмы сохранения конфиденциальности и объяснимость.

Оценка данных позволяет компаниям понять, что ценность их наборов данных зависит от контекста, она меняется в зависимости от того, с кем мы собираемся сотрудничать и для каких конкретных анализов или продуктов. Механизмы конфиденциальности позволяют такое сотрудничество, которое неизменно предполагает использование наборов данных из двух или более разных компаний или даже отраслей, возможно при сохранении конфиденциальности отдельных лиц о том, о ком набор данных предоставляет информацию. Объяснимость - это искусство и наука, позволяющая определить, что рассчитывает ваша модель машинного обучения, как она это делает, и, что наиболее важно, осведомленность об используемых допущениях и особенностях ваших данных, которые наиболее существенно влияют на результаты. Работа над этими тремя столпами позволит компаниям раскрыть скрытую ценность своих наборов данных.

В конце 2018 года я был на крупной ежегодной конференции по машинному обучению в Торонто, организованной Creative Destruction Lab. Мой план состоял в том, чтобы изучить потенциальные партнерские отношения с организациями из отраслей, отличных от моей, предложить нам объединить их наборы данных, не относящиеся к телекоммуникационной отрасли, с нашими наборами данных об использовании мобильных устройств и совместно выполнять расширенную аналитику, преодолевая разрозненные отрасли. В тот день я забрал ключи из неожиданного источника. Я разговаривал с основным докладчиком, известным физиком и писателем профессором Джеффри Уэстом. Беседуя непосредственно перед его основным докладом, я небрежно заметил, имея в виду его опыт работы в совершенно несвязанной теории струн: Часто решения находятся на пересечении дисциплин, не так ли? Он меня нежно поправил -

«Решения всегда и только междисциплинарны».

Я бы сказал, что для машинного обучения лучшая аналитическая информация будет межотраслевой.

Следующий рубеж в аналитике больших данных

Межотраслевая аналитика и три ее столпа

Вопросы по теме