Подавляющее большинство анализа данных связано с обнаружением взаимосвязей в данных путем их построения в виде линии. Как увеличение количества осадков влияет на количество кофе, продаваемого в магазинах шаговой доступности на Тихоокеанском Северо-Западе? Каковы эффекты более высокого финансирования после школы на долгосрочную академическую успеваемость? Это отношения, от которых можно разумно ожидать, что они будут развиваться по простой траектории. Но когда вы увеличиваете сложность, добавляя больше данных, это меняет то, как переменные влияют на ваш результат.

Инструменты анализа данных сегодня создаются в основном для обнаружения этих простых отношений. Как линейные, так и нелинейные, наиболее распространенный подход состоит в том, чтобы подогнать эти отношения к линии. При правильной настройке и взвешивании эти инструменты очень эффективны для прогнозирования данных, содержащих простые взаимосвязи.

Но что делать, если отношения в ваших данных не являются линейными, если данные просто не могут быть уложены в кривую, если есть эффекты взаимодействия или если данные становятся сложными, и неясно, как все различные переменные влияют на результат? Как узнать, какие данные использовать в вашей модели? Или какую модель использовать для ваших данных?

Прогнозирование на основе этих данных требует способности видеть сложные взаимосвязи, существующие в реальных данных. Линейная зависимость не только не описывает большинство данных, но и множество различных факторов, влияющих на ваш результат, не могут быть отображены только в двух измерениях. Вы можете решить эту проблему, разбив свои данные на части, чтобы решить каждую часть отдельно, но при этом теряется общая картина всех этих различных точек данных. Усилия по созданию этих мэшапов данных в сочетании с возможностью обнаружения данных в более широких данных являются хорошими аргументами в пользу сохранения целостности сложных данных.

Сегодня компании стремятся создать 360-градусное представление о своих клиентах или понять, что взаимодействие тысяч подключенных к сети машин находится на переднем крае такого сложного анализа. В будущем более широкий доступ к данным и усиление конкуренции будут означать, что каждый столкнется со сложностью данных. Знать больше о своих клиентах станет бременем для малых и средних предприятий, и когда в сеть будет подключено больше устройств, компании, производящие эти устройства, должны будут обеспечить их отслеживание и мониторинг. По мере того, как эти проблемы будут развиваться дальше, этим малым и средним предприятиям также потребуются навыки и ресурсы для решения своих собственных сложных данных.

Путь вперед — это инструменты, которые могут автоматически обнаруживать отношения в ваших данных и давать вам ответ о том, как делать прогнозы на основе взаимодействий, какими бы сложными они ни были. Потому что наш мир нелинейный. И у нас нет ни времени, ни навыков, чтобы разобраться в каждом наборе данных.

Хотелось бы услышать ваши мысли. Пусть они придут!