Вы всего лишь человек. Как тематические модели могут помочь справиться с потоком данных

Около десяти лет назад мой отец начал сокращать штат. Первое место, где я увидел доказательства, был его стол. Пропали незакрепленные журналы, книжные полки, лотки для бумаги и папки. Но я полагаю, что серьезность ситуации не особо меня поразила, пока однажды я не очутился в его шкафу, где он собрал идеально сложенные прямоугольные стопки футболок, шорт и рубашек с длинным рукавом примерно одинакового размера. и количество.

Он устранил все лишнее.

Ни у одного предмета не было более 9 предметов такого типа. 9 футболок-поло с круглым вырезом цвета лосося. 8 белых приталенных футболок. Если бы он купил новый предмет, он бы отказался от старого.

Когда его спросили о причинах этого, мой отец не заставил себя долго ждать, чтобы начать рассуждать о том, что там «слишком много дерьма», и все это слишком сложно найти. Он нашел те предметы, которые работали, и был одержим их идеей.

Это было нечто большее, чем просто физический беспорядок; это была системная попытка ограничить информацию. Хотя он пользуется компьютерами в течение десятилетий, его общая реакция на поиск в Google вызывает раздражение. Он объясняет, что он дает слишком много результатов, и многие из них неактуальны. Не только он так себя чувствует.

Непонятно считаться с тем фактом, что 90% мировых данных были созданы за последние два года. Информационная перегрузка - это реальная проблема, и неудивительно, что теперь мы тратим более 8 часов в день на потребление данных.

Современная проблема заключается в том, что по мере того, как мы создаем все больше и больше цифровых данных, кажется, что существует все больше знаний - и они находятся в наших руках, но какой парадокс, что в то же время становится все труднее обнаружить то, что мы ищем. Сама плотность информации мешает нам извлекать знания и делать выводы.

Это не самая сильная сторона человечества, но извлечение информации из очень больших наборов данных - это, однако, задача, задача, которая очень хорошо подходит для талантов компьютера. Фактически, новый набор алгоритмов тематического моделирования внедряется в сегодняшнюю технологию, чтобы помочь сделать именно это.

Наши текущие ограничения:

Ты человек:

Извини за это. Обучение требует времени, большая часть которого посвящена чтению материалов, выявлению связей и попыткам понять, как все взаимосвязано. Мы тратим часы ручного труда на изучение, сортировку, маркировку и объединение идей. Мне нравится этот процесс, но я всегда пытаюсь найти способы сделать его более эффективным. Однако, имея так много источников данных, которые нужно разобрать, я обнаруживаю, что погряз в мелочах, вынужден потреблять и отбрасывать множество нерелевантных материалов, прежде чем обнаруживать общие черты среди связанных.

Вы не раскрываете потенциал технологий:

Традиционный поиск ограничен. Поиск по ключевому слову - это прекрасно, но результаты возвращаются в виде списка; им не хватает контекста, тем и отношений. Более того, алгоритм, которого вы действительно не понимаете сортирует результаты.

Но есть люди, разрабатывающие алгоритмы тематического моделирования, которые могут помочь разобраться в больших объемах данных и раскрыть тематическую структуру больших текстовых архивов. Используя различные таксономические структуры, они выявляют взаимосвязи, контексты и идеи намного быстрее, чем это может сделать человек.

В своей основополагающей статье о тематическом моделировании Введение в вероятностную тематическую модель Дэвид Блей, профессор информатики Колумбийского университета, объясняет, что самые продвинутые алгоритмы тематического моделирования могут отслеживать, как лежат в основе темы в различных текстах. связаны друг с другом и как они меняются со временем.

Эту технологию используют крупные компании и ученые.

Историческое исследование

Более 100 000 статей (это 24 миллиона слов) из крупной газеты Конфедерации военного времени «Dispatch» ходили в течение многих лет, но даже самый преданный ученый не подписался на анализ текстов - даже при том, что компендиум, несомненно, предлагает некоторые ценные идеи. . Ясно, что на пути стояли тяжелая и тяжелая работа, вовлеченная в процесс.

Затем, в 2011 году, был применен анализ тематического моделирования. Намерение состояло в том, чтобы понять, какие аргументы и призывы, выдвинутые в «Диспетчере», на самом деле убедили людей вступить в армию.

Модель показала, что статьи на темы «Анти-северная обличительная критика» и «Патриотизм и поэзия» работали вместе, чтобы убедить мужчин в том, что стоит рисковать всем, чтобы участвовать в войне, убивать других людей и рисковать собственной жизнью. Хорошо это или плохо, но это исследование оказалось полезным для газетных авторов (не уверен, что оно помогло именно ему, но чем закончить этот раздел?)

Эволюционные исследования

В 1998 году палеонтологи, которые разрабатывали макроэволюционную теорию, объединились, чтобы создать базу данных палеобиологии по находкам окаменелостей, организованную по местоположению, взаимосвязям и положению на эволюционной временной шкале. Эта база данных была чрезвычайно полезной, но до недавнего времени исследователи все еще вручную просматривали документы и вводили информацию.

Откройте для себя PaleoDeep Dive - систему, разработанную для преобразования изображений журнальных статей в цифровой текст для обработки языка.

«В идеале мы хотели бы достичь того момента, когда это время, эта энергия и эти усилия можно было бы вложить в анализ результатов данных и синтезов и творческое мышление в отношении их использования и оценки», - сказал профессор Шанан Петерс. профессор палеобиологии Университета Висконсин-Мэдисон и содиректор ИТ-группы PBDB.

Социальные исследования

Тематическое моделирование может не только помочь нам понять нашу историю и то, откуда мы пришли, но и помочь нам лучше понять самих себя в настоящем.

Как и во многих колледжах, у Тафтса есть модерируемая страница «признаний» в Facebook, где студенты могут анонимно публиковать свои впечатления о студенческой жизни.

Субхик Барари, студент факультета информатики Тафтса, обработал сообщения с помощью алгоритма тематического моделирования, чтобы выявить связи. Более 24 000 сообщений, организованных в 13 тематических групп, показали, что о «чувстве одиночества» говорят чаще всего.

В беседе с Motherboard Барари объяснил, что, по его мнению, «социальные сети могут дать нам беспрецедентный масштаб и понимание того, как университетская культура и психика взаимосвязаны (или не взаимосвязаны) - жизненно важный вопрос заключается в том, как мы можем использовать эти знания для добра и не зло ». Он считает, что НЛП могло бы стать более подходящим средством проверки температуры в кампусе, поскольку вся информация анонимна.

Тематическое моделирование в контент-маркетинге

Возможные варианты применения обширны, и мы будем регулярно освещать их в этом блоге. Но достаточно сказать, что как маркетолог и писатель, вам нужно разбираться во многих, многих гигах данных для вашего исследования контента, чтобы придумать умные темы для написания, а также выделиться и опередить Кривая. Уже есть люди, предлагающие внедрить концепции взаимоотношений в свои тексты, и сам Рэнд Фишкин из Moz провел эту презентацию WBF о семантической связности. Здесь, в Oz, тематические модели являются ключевой частью нашего программного обеспечения для генерации идей и исследований. Вся эта деятельность может означать только одно: есть хорошие шансы, что это еще не все. Еще предстоит увидеть, поможет ли более умный поиск сдержать поток данных для вас (или для кого-то, кто страдает от серьезного отвращения к данным, как мой отец).

Первоначально опубликовано на сайте ozcontent.com 13 августа 2015 г.