ГЕНЕРАЦИЯ НОВОСТЕЙ В СОЦИАЛЬНЫХ СЕТЯХ

В настоящее время люди общаются и делятся своими идеями, эмоциями, знаниями и личным мнением по различным темам в любое время в социальных сетях, поэтому они считаются источником больших данных для исследователей. Twitter, Facebook и т. д. стали самыми популярными социальными сетями за последние десять лет.

Социальные сети — это веб-сайты и приложения, предназначенные для того, чтобы люди могли обмениваться контентом быстро, эффективно и в режиме реального времени. Было обнаружено, что набор данных этих веб-сайтов социальных сетей содержит бесполезные данные, которые человек не сможет понять, поэтому этот проект направлен на использование подхода неконтролируемого обучения для кластеризации новостей.

ВВЕДЕНИЕ

В социальных сетях есть много новостей, которые публикуются в виде твитов, постов и т. д. Этот проект берет эти твиты и генерирует их как «Заголовки новостей». Код был разработан с использованием языка Python, так как он был прост в использовании и имел все библиотеки, необходимые для создания заголовков новостей из больших кусков бесполезных данных.

НАБОР ДАННЫХ

Коллекция экземпляров — это набор данных, и при работе с методами машинного обучения нам обычно требуется несколько наборов данных для разных целей.

В этом проекте под названием «Генерация новостей в социальных сетях» мы использовали набор данных Twitter. Данные были собраны в 2015 году с использованием Twitter API. Этот набор данных содержит новости здравоохранения от более чем 15 крупных информационных агентств, таких как BBC, CNN и NYT.

https://drive.google.com/file/d/11ZReqfyULTn_vm_GIoVDIpBbHYKyJUKd/view?usp=sharing

Каждый файл связан с одной учетной записью Twitter информационного агентства. Например, bbchealth.txt связан с новостями здравоохранения BBC. Каждая строка содержит идентификатор твита|дата и время|твит. Разделитель «|». Эти текстовые данные использовались для оценки производительности тематических моделей на коротких текстовых данных. Однако его можно использовать для других задач, таких как кластеризация.

https://github.com/anshul1004/TweetsClustering/tree/master/Health_Tweets

ФУНКЦИОНАЛЬНОСТЬ

Проект в основном будет принимать входные данные в виде набора новостных данных из различных источников, которые затем будут предварительно обрабатываться для извлечения необходимых деталей и выполнения кластеризации, т. Е. K-средних и агломерационной кластеризации, для группировки связанных новостей вместе и удаления любых похожих новостей. Окончательный результат даст нам заголовки новостей.

К-средние:

K-Means(n_clusters=true_k, init='k-means++', max_iter=100, n_init=1)

где,

n_clusters: Количество кластеров и центроидов, которые необходимо сформировать.

Init: метод инициализации, мы использовали k-mean++, который разумно подходит для сходимости.

Max_iter: максимальное количество итераций алгоритма за один раз.

N_init: частота запуска алгоритма с разными начальными значениями центроида.

АГЛОМЕРАТИВНАЯ ИЕРАРХИЧЕСКАЯ КЛАСТЕРИЗАЦИЯ

Этот алгоритм работает, группируя данные один за другим на основе измерения ближайшего расстояния всех попарных расстояний между точками данных. Агломеративная кластеризация — наиболее распространенный тип иерархической кластеризации, используемый для группировки объектов в кластеры на основе их сходства.

Существуют различные способы нахождения расстояния между кластерами. Само расстояние может быть евклидовым или манхэттенским. Для измерений расстояния (сходства) мы определяем сродство, метрическую функцию двух аргументов с той же размерностью, что и набор данных.

TF_IDF

TF-IDF (термин частотно-обратная частота документа) был изобретен для поиска документов и поиска информации. Он работает, увеличиваясь пропорционально количеству раз, которое слово встречается в документе, но компенсируется количеством документов, содержащих это слово. Таким образом, слова, которые являются общими в каждом документе, такие как это, что и если, имеют низкий рейтинг, даже если они могут встречаться много раз, поскольку они не имеют большого значения для этого документа в частности.

Машинное обучение с использованием естественного языка сталкивается с одним серьезным препятствием — его алгоритмы обычно имеют дело с числами, а естественный язык — это текст. Поэтому нам нужно преобразовать этот текст в числа, также известный как векторизация текста.

TF-IDF позволяет нам связать каждое слово в документе с числом, которое показывает, насколько релевантно каждое слово в этом документе. Тогда документы с похожими релевантными словами будут иметь похожие векторы. С помощью векторизатора Tf-idf вы одновременно вычисляете количество слов, значения idf и tf-idf.

ТОКЕНАЗАЦИЯ

Токенизация – это процесс токенизации или разделения строки, текста на список токенов. Токен можно рассматривать как часть, например, слово — это токен в предложении, а предложение — это токен в абзаце.

Мы используем методword_tokenize(), чтобы разбить предложение на слова. Выходные данные токенизации слов можно преобразовать в фрейм данных для лучшего понимания текста в приложениях машинного обучения. Его также можно использовать в качестве входных данных для дальнейших шагов по очистке текста, таких как удаление пунктуации, удаление числовых символов или выделение корней. Модели машинного обучения нуждаются в числовых данных для обучения и прогнозирования. Токенизация слов становится важной частью преобразования текста (строки) в числовые данные.

Косинусное сходство

Обычно используемый подход для сопоставления похожих документов основан на подсчете как можно большего количества общих слов между документами. По мере увеличения размера документа количество общих слов имеет тенденцию к увеличению, даже если в документах обсуждаются разные темы. Косинусное подобие помогает преодолеть эту неудачу («подсчет общих слов)». Косинусное сходство — это метрика, используемая для определения сходства документов независимо от их размера.

Косинусное сходство выгодно, потому что, хотя два похожих документа находятся далеко друг от друга из-за евклидова расстояния (из-за размера документа), они все же могут быть более близко ориентированы друг к другу. Чем меньше угол, тем больше сходство с косинусом. Математически он вычисляет косинус угла между двумя векторами, проецируемыми в многомерном пространстве. Эти два вектора представляют собой массивы, содержащие количество слов в двух документах.