Добро пожаловать, читатели!

ВВЕДЕНИЕ

Я Дхрув Трехан, партнер Microsoft для студентов из Индии. Этот блог предоставлен вам в рамках инициативы MSP Developer Stories программой Студенческий партнер Microsoft (Индия). Истории разработчиков MSP - это ежемесячный конкурс, цель которого - помочь студентам-разработчикам со всего мира лучше познакомиться с искусственным интеллектом и машинным обучением.

МОТИВАЦИЯ

Рост использования социальных сетей, мобильных устройств, аналитики и облачной парадигмы приводит к созданию огромного количества мультимодальных неструктурированных и избыточных данных в реальном времени. В настоящее время Интернет находится на расстоянии одного клика от пользователя. Жизнеспособность публикации любого контента на основе выбора потребителя интегрировала влияние на большие данные. Плагиат видео является обычным явлением в наши дни, поэтому плагиат приводит к избыточности данных.

ЦЕЛЬ

В этом блоге автор проанализирует ограничения и проблемы, с которыми сталкиваются большие данные, влияние «избыточности данных на инструменты обработки данных» и то, как машинное обучение и технологии, разработанные Microsoft в игру. Автор предлагает модель для классификации и кластеризации похожих данных, тем самым уменьшая избыточность данных.

Предварительные требования

Для достижения цели нужно узнать о «больших данных».

Большие данные

Большие данные относятся к «большим наборам данных», которые могут быть проанализированы с помощью вычислений для выявления тенденций, закономерностей, ассоциаций, связанных с человеческим поведением и взаимодействиями. Согласно исследованию, количество генерируемых больших данных можно разделить на 3 типа:

· Социальные сети

· Традиционная бизнес-система

· Интернет вещей

В этом блоге автор будет обсуждать сгенерированные пользователями большие данные в социальных сетях. Давайте сначала рассмотрим некоторую статистику и лучше узнаем, с какой скоростью растут данные: использование Интернета выходит на новый уровень, в настоящее время, согласно статистике, у нас более 4,39 миллиарда пользователей Интернета и примерно 5,16 миллиарда пользователей мобильных телефонов в соответствии с данными. в GSMA Intelligence. Также указано, что пользователи социальных сетей в среднем проводят более 2 часов и 24 минут в 8 социальных сетях и приложениях для обмена сообщениями.

Многие приложения социальных сетей, такие как Twitter, Facebook, Instagram, Snapchat, WhatsApp, WeChat, Tik-Tok, Reddit, Pinterest, генерируют более 2,5 миллиарда данных каждый день. Причиной этого может быть доступность электронных гаджетов по доступной цене, и даже при отсутствии знаний о работе в сети люди могут легко публиковать и загружать контент, созданный пользователями (включая текст, голос, фото и видео), на сайты социальных сетей за один раз. щелкните. Одно из ограничений мультимедийных больших данных заключается в том, что обычных инструментов обработки данных недостаточно для обработки сложных наборов данных, поскольку масштаб данных достигает петабайтных уровней.

Большинство из нас, выполняя поиск на YouTube по какой-либо конкретной теме, может проанализировать, что несколько пользователей предоставляют один и тот же контент. Это снижает оригинальность конкретной темы. Более того, эта избыточность данных является одной из основных причин создания петабайтных уровней данных.

Из-за такого увеличения объема данных инструменты обработки данных, такие как HADOOP, HPCC, STROM, CASSANDRA и многие другие, не справляются с управлением большими объемами данных.

Теперь давайте не будем обращать внимания на проблемы, с которыми мы сталкиваемся при работе с данными.

Поскольку объем данных увеличивается день ото дня, ниже обсуждаются различные проблемы, с которыми сталкиваются большие данные:

Проблемы с данными: разнообразие относится к типам и различным источникам данных, как структурированным, так и неструктурированным данным, скорость относится к в зависимости от темпа данных в движении, объем определяет объем данных, которые хранятся и создаются в дальнейшем, визуализация означает способ восприятия данных, чтобы они могли легко просматриваются, изменчивость указывает на несогласованность данных, которыми вы делитесь, достоверность подтверждает, что данные анализируются должным образом или нет, а ценность относится к знаниям, которыми обмениваются данные.

Проблемы процесса: Интеллектуальный анализ данных означает процесс изучения большой ранее существовавшей базы данных для создания новой информации. Очистка данных означает обнаружение или повреждение неточных записей и их изменение. Анализ данных можно определить как процесс очистки, преобразования данных для обнаружения из них полезной информации и принятия соответствующих решений. Моделирование данных означает разработку модели данных для информационных систем или для нашей идеи путем реализации определенных методов. Сбор данных означает анализ физических явлений реального мира и их преобразование в цифровые числовые значения. Интерпретация данных означает анализ данных и сбор деталей из графиков и диаграмм. Агрегация данных означает объединение нескольких наборов данных для предварительной обработки данных.

Проблемы управления: Платформа социальных сетей является наиболее часто используемой платформой для обработки данных. Пользователи находятся на расстоянии одного клика от Интернета. Наиболее важным фактором является создание доверия со стороны пользователя, а доверие может быть достигнуто за счет обеспечения конфиденциальности и безопасности пользовательских данных. Совместное использование данных означает совместное использование данных в нескольких социальных сетях. Право собственности на данные означает владение пользователем созданными данными. Управление данными означает следование определенному набору правил любой организацией.

Когда дело доходит до больших данных, исследователи сталкиваются с определенными проблемами, поскольку объем больших данных, генерируемых сайтами социальных сетей, растет в геометрической прогрессии. В этом блоге автор предлагает решение для уменьшения избыточности данных в Интернете для быстрой обработки больших данных с помощью инструментов обработки данных.

Если кратко сформулировать проблему, то есть набор вариантов, мы могли бы использовать следующие технологии, чтобы понимать данные и просто работать над избыточностью данных.

Индексатор видео

Индексатор видео служб мультимедиа Azure - это облачное приложение, основанное на Azure Media Analytics, Azure Cognitive Search, Cognitive Services (например, Face API, Microsoft Translator, Computer Vision API и Custom Speech Service). Приложение позволяет извлекать ценную информацию из ваших видео с помощью видео- и аудиомоделей Video Indexer.

Реализация

Шаг 1. Войдите в Индексатор видео Azure, используя для своей учетной записи Azure подписку. Появится экран дисплея.

Шаг 2: После того, как вы нажмете «Загрузить видео», появится дополнительный экран. Перетащите туда свой аудио- или видеофайл, обработка файла займет несколько минут.

Шаг 3. Когда файл будет обработан, вы увидите, что индексатор видео предоставляет информацию о вашем видео. Информация о видео охватывает для нас следующий контекст:

· Упоминает, если есть, любые названные объекты в видео

· Рассказывает о темах, затронутых в видео

· Ярлыки, обсуждаемые в загруженном видео

· Анализирует эмоции за кадром в видео

· Обнаружение сцен и сюжетов в видео.

Удивительно, вот как работает индексатор видео. Если мы построим сервисы индексатора видео, которые помогут узнать ключевые моменты в видео, созданном пользователем, перед его загрузкой.

Content Moderator API

Когда дело доходит до проверки качества контента, загруженного на определенную платформу, качество контента можно определить с помощью Content Moderator API. В Content Moderator API контент модерируется по четырем факторам:

· Модерация изображения

· Модерация текста

· Модерация видео

· Инструмент человеческого обзора

Реализация

Шаг 1. Зарегистрируйтесь в Azure Content Moderator

Шаг 2: Появится экран. Вы нажимаете «Попробовать», выбираете изображения, видео, текст и загружаете их для обучения. На обучение данных потребуется несколько минут.

Шаг 3. Когда данные обучаются, они указываются с помощью меток и тегов, которые могут помочь связать тип загруженного контента.

Шаг 4: Ваши данные обучаются, тестируются и маркируются, подходят ли они для аудитории или нет.

Полный обзор: Azure Content Moderator

Text Analytics API

Используя API текстовой аналитики, мы могли анализировать настроения, выраженные в тексте (например, в описании видео).

Слоганы с загруженным видео и описание могут стать для нас первым ключом к анализу, о чем это видео. Он создает структурный анализ видео и сохраняет сгруппированные похожие документы. Это помогает в предварительном определении категории видео.

Полный обзор: Текстовая аналитика

Классификация видео

Определенную стопку изображений можно назвать видео. В настоящее время видео является одним из крупнейших источников мультимедийного контента, поскольку за одну минуту загружается около 300 часов видеоданных. Такое резкое увеличение объема данных приводит к избыточности данных, что влияет на предварительную обработку данных. Анализируя данные, мы можем реализовать любой из этих 5 методов классификации видео:

· Классификация по одному кадру с помощью ConvNet

· Использование распределенной по времени ConvNet и передача функций в RNN в одной сети

· Использование сети трехмерной свертки

· Извлечение функций из каждого кадра с помощью ConvNet и передача последовательности в RNN

· Извлечение функций из каждого кадра с помощью ConvNet и передача последовательности в отдельный MLP

Обзор классификации видео: Классификация видео

Оценка времени и качества

Этот параметр может помочь нам обнаружить видео, которые публикуются в социальных сетях, но не нравятся аудитории. В таком кадре эти видео не подлежат восстановлению и могут быть удалены.

Заключение

Теперь, чтобы получить модель с таким подходом, мы можем разработать базу данных для каждого видео, а затем кластеризовать и классифицировать похожие видео сущностей вместе. Этот подход аналитически позволит нам рассмотреть все соответствующие параметры, указанные выше, и сгенерировать средний прогнозируемый балл для нескольких видео. Похожие видео (с аналогичным выводом) с лучшими оценками следует повторно сохранить, а видео с меньшими оценками можно удалить.

Более того, мы можем реализовать «Алгоритм классификации случайного леса», чтобы получить эту модель.

Алгоритм классификации случайного леса - это метод классификации, регрессии и других задач, который выполняется путем построения множества деревьев решений во время обучения, которое является режимом классов (классификация) или средним прогнозом (регрессия). отдельных деревьев.

В этом блоге автор обсудил ограничения и проблемы, связанные с большими данными, и предложил соответствующие методы для уменьшения избыточности данных и помощи в правильном функционировании инструментов обработки данных.

Еще предстоит прочитать, еще предстоит изучить !!

Приятного чтения. Большое спасибо.