ДАННЫЕ……БОЛЬШИЕ ДАННЫЕ….
Большие данные представляют собой комбинацию всех трех типов данных, структурированных, неструктурированных и полуструктурированных огромных объемов данных. Извлечение знаний из этой комбинации данных является ЗАДАЧЕЙ. Но что многие люди игнорируют, так это качество данных, требуемых от этих беспорядочных данных.
Глубокое обучение в последнее время стало горячей областью исследований. Ожидается, что в ближайшие годы он станет основой бизнеса. Глубокое обучение — это расширенная ветвь машинного обучения с использованием различных нейронных сетей. Многие исследователи заняты разработкой высококачественных архитектур глубокого обучения, но нельзя игнорировать важность данных.
ВАЖНОСТЬ ДАННЫХ
Актив компании
Актив компании-Важным активом компаний являются данные, это основа их успеха, из них извлекают полезную информацию о тенденциях, клиентах, их партнерах. Данные могут быть их секретом, любой медицинской формулой и т.д.
Основные потребности архитектуры
Независимо от того, насколько оптимизирована архитектура, ее нужно тестировать на данных. Данные выявляют лазейки в архитектуре. Поскольку реальная среда отличается от изолированной, идеальной среды, создается модель архитектуры.
Извлечение полезных знаний из другой полезной информации
Каждая сохраняемая информация важна, но важно понимать, какая информация полезна в каком сценарии.
Например, это набор данных, содержащий информацию о продажах и покупках в супермаркете. Задача состоит в том, чтобы спрогнозировать продажи в рождественский сезон, важны не детали клиентов, а список продуктов, продажи которых, как ожидается, увеличатся в рождественский сезон.
Нужная информация в нужное время, в нужном формате, в нужном месте
Информация бесполезна, если она недоступна вовремя и в правильном формате заинтересованному лицу.
Продолжая пример с супермаркетом, список продуктов на Рождество необходим как минимум за 1-2 месяца до начала сезона, чтобы подготовиться к сезону. Информация бесполезна, если информация предоставляется в рождественский сезон не раньше. Информация должна быть в списке продуктов и их количестве, необходимом в сезон. Информация полезна для лиц, принимающих решения, а не для какого-либо управления более низкого уровня.
Экспоненциально растет каждый день
Как и Walmart, Amazon насчитывают тысячи клиентов на каждые данные.
Данные увеличиваются. Этими данными нужно управлять (хранить, очищать, преобразовывать — предварительно обрабатывать)
Основой глубокого обучения являются данные, многие наборы данных доступны в Интернете, например MNIST. MNIST, содержащий огромное количество изображений числовых цифр.
С первого взгляда на основную информацию становится понятно, что все изображения соответствуют стандарту. Этот стандарт также применяется к внешним изображениям, которые будут использоваться для тестирования набора данных. Преобразование и правила, применяемые к данным, должны быть тщательно выбраны и применены. Убедитесь, что данные не потеряны.