1. Моделирование поведения персидских пользователей Instagram для обнаружения ботов (arXiv)

Автор: Мухаммад Базм, Масуд Асадпур

Выдержка: Боты — это учетные записи пользователей в социальных сетях, которые контролируются компьютерными программами. Подобно многим другим вещам, они используются как для добрых, так и для злых целей. Одним из гнусных вариантов их использования является распространение дезинформации или предвзятых данных в сетях. Существует множество исследований, проводимых на основе данных социальных сетей, и достоверность их результатов находится под угрозой из-за распространения вредоносных ботов данных. Следовательно, необходимы эффективные методы и инструменты для обнаружения ботов и последующего удаления вводящих в заблуждение данных, распространяемых ботами. В настоящем исследовании предлагается метод обнаружения ботов Instagram. Нет набора данных, включающего образцы ботов Instagram и подлинных учетных записей, поэтому текущее исследование началось со сбора такого набора данных с учетом проблем общности, так что он включает 1000 точек данных в каждой группе. Основной подход — машинное обучение с учителем, и классические модели предпочтительнее глубоких нейронных сетей. Окончательная модель оценивается с использованием нескольких методов, начиная с 10-кратной перекрестной проверки. После этого проверяется достоверность классификационных исследований, после чего следует анализ важности признаков и поведение признаков в сравнении с целевой вероятностью, вычисленной моделью. В конце концов, эксперимент предназначен для измерения эффективности моделей в операционной среде. Наконец, делается строгий вывод, что модель очень хорошо работает во всех оценочных экспериментах.

2. Прогнозирование гриппа из Instagram(arXiv)

Автор : Огужан Генкоглу, Миикка Эрмес

Аннотация:Обычные системы эпиднадзора за инфекционными заболеваниями, такими как грипп, сталкиваются с проблемами из-за нехватки квалифицированных медицинских работников, удаленности населенных пунктов и отсутствия коммуникационной инфраструктуры. Интернет-подходы к наблюдению привлекательны как с точки зрения логистики, так и с экономической точки зрения. Запросы поисковых систем и Twitter были основными источниками данных, которые использовались в таких подходах. Целью этого исследования является оценка прогностической способности альтернативного источника данных, Instagram. Используя общедоступные данные из Instagram за 317 недель, мы обучили несколько алгоритмов машинного обучения как прогнозировать, так и прогнозировать количество официальных случаев гриппоподобных заболеваний в Финляндии, где доступны официальные статистические данные о еженедельных инцидентах для всего населения. В дополнение к функциям даты и подсчета хэштегов в онлайн-сообщениях мы также смогли использовать визуальный контент размещенных изображений с помощью глубоких сверточных нейронных сетей. Наша лучшая модель прогноза текущей погоды достигла средней абсолютной ошибки 11,33 инцидентов в неделю и коэффициента корреляции 0,963 на тестовых данных. Модели прогнозирования на 1 неделю и 2 недели вперед также показали статистическую значимость, достигнув коэффициентов корреляции 0,903 и 0,862 соответственно. Это исследование демонстрирует, как социальные сети и, в частности, размещенные в них цифровые фотографии, могут быть ценным источником информации для области инфодемиологии.

3. Глубокий текстовый анализ данных Instagram без строгого контроля (arXiv)

Автор:Ким Хаммар, Шатха Джарадат, Нима Докуохаки, Михаил Матскин

Аннотация. С появлением социальных сетей наши онлайн-каналы все чаще состоят из коротких, неформальных и неструктурированных текстов. Эти текстовые данные можно анализировать с целью улучшения пользовательских рекомендаций и выявления тенденций. Instagram — одна из крупнейших социальных сетей, содержащая как текст, так и изображения. Тем не менее, большая часть предыдущих исследований обработки текста в социальных сетях сосредоточена на анализе данных Twitter, и мало внимания уделялось интеллектуальному анализу текста данных Instagram. Более того, многие методы интеллектуального анализа текста основаны на аннотированных обучающих данных, которые на практике получить сложно и дорого. В этой статье мы представляем методы неконтролируемого извлечения атрибутов моды из текста Instagram, которые могут обеспечить новый вид пользовательских рекомендаций в области моды. В этом контексте мы анализируем корпус постов в Instagram из области моды, внедряем систему для извлечения атрибутов моды из Instagram и обучаем глубокий классификатор одежды со слабым контролем для классификации постов в Instagram на основе связанного текста. С помощью наших экспериментов мы подтверждаем, что встраивание слов является полезным активом для извлечения информации. Экспериментальные результаты показывают, что извлечение информации с использованием встраивания слов превосходит базовый уровень, использующий расстояние Левенштейна. Результаты также показывают преимущество объединения слабых сигналов контроля с использованием генеративных моделей вместо голосования большинством. Используя слабый контроль и генеративное моделирование, оценка F1, равная 0,61, достигается за задачу классификации содержимого изображений в сообщениях Instagram исключительно на основе связанного текста, что находится на уровне человеческих возможностей. Наконец, наше эмпирическое исследование представляет собой одно из немногих доступных исследований текста в Instagram и показывает, что текст зашумлен, что распределение текста демонстрирует явление длинного хвоста и что разделы комментариев в Instagram многоязычны.

4. Salienteye: максимальное вовлечение при сохранении художественного стиля в Instagram с помощью DeepNeural Networks (arXiv)

Автор:Лили Ван, Руибо Лю, Соруш Восуги

Аннотация . Instagram стал отличной площадкой для фотолюбителей и профессиональных фотографов, где они могут продемонстрировать свои работы. Другими словами, это демократизировало фотографию. Как правило, фотографы делают тысячи фотографий за сеанс, из которых выбирают несколько, чтобы продемонстрировать свою работу в Instagram. Фотографы, пытающиеся создать репутацию в Instagram, должны найти баланс между максимальным вовлечением подписчиков в свои фотографии и сохранением своего художественного стиля. Мы использовали трансферное обучение, чтобы адаптировать Xception, модель распознавания объектов, обученную на наборе данных ImageNet, к задаче прогнозирования взаимодействия, и использовали матрицы Грама, сгенерированные из VGG19, еще одной модели распознавания объектов, обученной на ImageNet, для задачи измерения сходства стиля. на фотографиях, размещенных в Instagram. Наши модели можно обучать на отдельных учетных записях Instagram для создания персонализированных моделей предсказания вовлеченности и сходства стилей. После обучения в своих учетных записях пользователи могут сортировать новые фотографии на основе прогнозируемого взаимодействия и сходства стиля с их предыдущей работой, что позволяет им загружать фотографии, которые не только имеют потенциал для максимального вовлечения их подписчиков, но и сохраняют их стиль фотографии. Мы обучили и проверили наши модели в нескольких учетных записях Instagram, показав, что они хорошо справляются с обеими задачами, а также превосходят несколько базовых моделей и людей-аннотаторов.

5. Отслеживание соответствия предупреждений об электронных сигаретах в Instagram с помощью глубокого обучения (arXiv)

Автор: Крис Дж. Кеннеди, Джулия Вэсси, Хо-Чун Герберт Чанг, Дженнифер Б. Унгер, Эмилио Феррара

Выдержка: Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) требует, чтобы реклама электронных сигарет включала заметную предупреждающую этикетку, которая напоминает потребителям о том, что никотин вызывает привыкание. Однако большое количество сообщений, связанных с вейпингом, в социальных сетях делает аудит соответствия дорогостоящим и трудоемким, что говорит о необходимости автоматизированного масштабируемого метода. Мы стремились разработать и оценить систему глубокого обучения, предназначенную для автоматического определения того, пропагандирует ли публикация в Instagram вейпинг, и если да, то была ли включена предупреждающая этикетка, соответствующая требованиям FDA, или была ли видна предупреждающая этикетка, не соответствующая требованиям, на изображении. Мы собрали и пометили набор данных из 4363 изображений Instagram, из которых 44% были связаны с вейпингом, 3% содержали предупреждающие этикетки, соответствующие требованиям FDA, а 4% содержали несоответствующие этикетки. Используя 20-процентный тестовый набор для оценки, мы протестировали несколько вариантов нейронной сети: базовую модель обработки изображений (Inceptionv3, ResNet50, EfficientNet), увеличение данных, размораживание прогрессивного слоя, инициализацию смещения вывода, предназначенную для дисбаланса классов, и многозадачное обучение. Наша окончательная модель показала площадь под кривой (AUC) и [точность] 0,97 [92%] для классификации вейпинга, 0,99 [99%] для предупредительных этикеток, соответствующих требованиям FDA, и 0,94 [97%] для предупреждающих этикеток, не соответствующих требованиям. . Мы пришли к выводу, что модели глубокого обучения могут эффективно идентифицировать посты о вейпинге в Instagram и отслеживать соответствие требованиям FDA.