Несколько недель назад в нашем объявлении о машинном обучении в Нью-Йорке я написал в Твиттере:

«Потому что для машинного обучения имеет смысл учитывать серьезность данных »

Этот твит несколько раз ретвитнули, он явно нашел отклик у многих людей и заставил меня задуматься ...

Сражаемся ли мы с серьезностью данных, передавая их в облако ???

Не поймите меня неправильно, мы все согласны с тем, что предпочтительным местом назначения является облако. Возможность быть более гибким, не беспокоиться о создании кластеров или управлении ими, мгновенное получение решения всего несколькими щелчками мыши ... Я имею в виду, кто этого не хочет? Но, как оказалось, дорога к облаку - это немного больше, чем мы ожидали, почему?

Может быть, серьезность данных - большая сила, чем мы рассчитывали

Вот интересная статистика для вас: 90% мировых данных не, которые вы можете найти в Google.1 Верно, они не сидят в облаке и ждут, пока вы приходите и получите его, большая часть наших данных надежно заблокирована в наших собственных системах на месте.

Давайте возьмем только объем операционных данных на мэйнфреймах, в основном для финансовых услуг, компаний, выпускающих кредитные карты, и т. Д. Верно, почти каждый раз, когда вы проводите пальцем по кредитной карте, эта транзакция попадает на мэйнфрейм. Фактически, большая часть структурированных данных в мире хранится на мэйнфреймах, а это означает, что все эти данные, вероятно, сегодня не используются. По сути, это темные данные для компаний, которым они принадлежат, груды данных, которые становятся все больше с каждым днем.

И это касается большинства наших операционных систем повсюду. Совершаются транзакции, это много небольших данных, но это быстрые данные, которые невероятно ценны для бизнеса. Он может рассказать вам о логистических проблемах, операционных проблемах, проблемах на производстве, о мошенничестве, скрывающемся в этих транзакциях, а также о кибератаках. Это данные о нашем бизнесе, о том, как он работает и насколько он здоров. Дело в том, что сегодня большинство фирм не используют эти данные в полной мере или в конечном итоге загружают только часть данных в хранилище данных и ограничивают доступ через отделы и приложения.

Ну что ж за демократизацию данных а? Давайте начнем с того, что раскроем то, что у нас есть, и будем использовать эти данные, чтобы стать умнее. Я имею в виду, что его можно взять, бесплатно, и он готов шептать секреты о нашем бизнесе. Нам просто нужно послушать.

Именно по этой причине мы изначально выпустили машинное обучение на платформе System z. Http://www.ibm.com/analytics/us/en/events/machine-learning/

Просто имело смысл начать с того места, где в темноте хранился большой кусок действительно ценных данных. Кстати, если у вашей компании есть операционные данные в System z - вам также следует узнать, как использовать виртуализацию данных, чтобы пролить свет на эти темные данные, @Rocket Software предлагает отличное решение для этого…. Http://www.rocketsoftware.com/products/rocket-data/rocket-data-virtualization

Посмотрим правде в глаза, вам нужно много данных для обучения и моделирования, поэтому давайте вернемся к тому, что гравитация данных подталкивает нас к использованию аналитики и машинного обучения - давайте начнем с наших локальных золотых приисков и пойдем дальше.

Хорошо, поэтому для таких вещей, как машинное обучение и даже Data Science, я думаю, мы все можем согласиться с тем, что нам нужна гибридная архитектура. Настоящая проблема заключается не в том, чтобы попасть в облако, а в том, чтобы создать мост, чтобы все ваши данные, где бы они ни находились, можно было использовать.

Если ваш пункт назначения - облако сегодня (или завтра), не сопротивляйтесь гравитации. Сосредоточьтесь на гибридных технологиях, создайте архитектуру данных и модель управления, которая позволит вам демократизировать и использовать данные независимо от того, где они находятся.