(Похожие сообщения: Введение в тематические модели для анализа текста, Осмысление тематических моделей, Преодоление ограничений тематических моделей с помощью полууправляемого подхода, Как передискретизация ключевых слов может помочь при анализе текста и Насколько надежны или полезны тематические модели? )

Моя предыдущая публикация в этой серии показала, как подход к моделированию тем с полууправлением может позволить исследователям вручную уточнять модели тем для получения более чистых и понятных тем, чем те, которые создаются полностью неконтролируемыми моделями. Частный алгоритм, который мы использовали, назывался CorEx, который предоставляет пользователям возможность расширять определенные темы с помощью якорных слов, которые модель могла пропустить. Используя этот полууправляемый подход, мы смогли обучить моделей набору открытых ответов на опрос Pew Research Center об источниках смысла жизни и прийти к набору тем, которые, казалось, четко соотносились с ключевыми темами и концепциями. в наших данных.

Затем мы столкнулись с задачей интерпретировать темы и оценить, верны ли наши интерпретации. Вот четыре темы, которые казались связными после того, как мы улучшили их с помощью нашего полууправляемого подхода:

Интерпретировать темы из модели может быть сложнее, чем может показаться на первый взгляд. Понимание точного значения набора слов требует глубокого понимания того, как слова используются в ваших данных, и значения, которое они, вероятно, должны передать в контексте.

Тема 37 выше, кажется, является классическим примером «переваренной» темы, состоящей из немногих, кроме слов «здоровье», «здоровый» и набора фраз, которые их содержат. Сначала мы не были уверены, сможем ли мы использовать эту тему для измерения полезной концепции. Хотя мы надеялись использовать его для выявления ответов на опрос, в которых упоминалось понятие здоровья, мы подозревали, что даже наши самые лучшие попытки провести мозговой штурм дополнительных якорных слов для этой темы могут по-прежнему оставлять релевантные термины пропущенными. В зависимости от того, насколько распространены эти пропущенные термины в наших данных, тематическая модель может серьезно занижать количество людей, которые упомянули концепции, связанные со здоровьем.

Чтобы исследовать, мы прочитали образцы ответов и искали те, в которых упоминалась желаемая тема. К нашему удивлению, мы поняли, что эта конкретная «переваренная» тема не была проблемой в контексте нашего конкретного набора данных. Из прочитанных нами ответов (многие из которых использовали самые разные термины, связанные со здоровьем), мы обнаружили очень мало, в которых тема здоровья упоминалась без использования варианта самого слова. Фактически, подавляющее большинство ответов, в которых использовался этот термин, относились именно к теме хорошего здоровья. Ответы, в которых упоминались проблемы со здоровьем или плохое состояние здоровья, были гораздо реже и обычно содержали более конкретные термины, такие как «заболевание», «лекарства» или «хирургия».

Исходя из специфики наших документов и контекста подсказок опроса, которые мы использовали для их сбора, мы решили, что можем не только использовать эту «переваренную» тему, но и дать ей более конкретную интерпретацию - «в хорошем состоянии». здоровье », что иначе было бы возможно с другими данными.

Однако это оказался уникальный случай. Что касается других тем, разделить как положительные, так и отрицательные упоминания было невозможно.

Например, язык, на котором наши ответы на опрос использовали для описания как финансовой безопасности, так и финансовых трудностей, был настолько разнообразным и пересекающимся, что мы поняли, что не сможем разработать отдельные положительные и отрицательные якорные списки и обучить модель с двумя отдельными темами, связанными с финансами. . Вместо этого нам пришлось сгруппировать все наши якорные слова, связанные с деньгами, в тему 44, которую мы могли интерпретировать только как относящуюся к деньгам или финансам в целом. Мы вручную закодировали образец этих ответов и обнаружили, что 77% упомянули о деньгах в положительном свете, по сравнению с 23%, которые упомянули о них в нейтральной или отрицательной манере. Но даже нашу уточненную вручную модель тем с полууправлением невозможно было использовать, чтобы заметить разницу.

Очевидно, что контекст имеет значение при использовании неконтролируемых (или даже частично контролируемых) методов. В зависимости от того, как они используются, слова, найденные в одном наборе ответов на опрос, могут означать что-то совершенно другое в другом наборе, а интерпретации, присвоенные темам из модели, обученной на одном наборе данных, могут не передаваться на другой. Поскольку такие алгоритмы, как тематические модели, не понимают контекста наших документов, в том числе того, как они были собраны и что они означают, исследователям приходится корректировать то, как мы интерпретируем вывод, исходя из нашего собственного тонкого понимания используемого языка.

Между двумя полууправляемыми тематическими моделями CorEx, которые мы обучили, мы выделили 92 потенциально интересных и интерпретируемых темы. Чтобы проверить нашу способность интерпретировать их, мы дали каждому из них краткое описание, включая некоторые дополнительные предостережения, основанные на том, что мы знали о контексте слов каждой темы в нашем корпусе:

Для каждой темы мы сначала составили небольшую исследовательскую выборку, состоящую из некоторых ответов, которые содержали главные слова темы, а другие - нет. Затем член исследовательской группы закодировал каждый ответ в зависимости от того, соответствует ли он ярлыку, который мы присвоили теме. После кодирования всех образцов мы использовали Каппу Коэна, общий показатель надежности между экспертами, чтобы проверить, насколько хорошо тематические модели согласуются с описаниями, которые мы дали темам.

Некоторые темы привели к особенно плохому согласованию между моделью и нашей собственной интерпретацией, часто из-за того, что слова в теме использовались в таком большом количестве различных контекстов, что ее определение пришлось бы расширить до такой степени, что она больше не была бы значимой или полезной для анализ.

Например, одна из тем, от которых нам пришлось отказаться, касалась мнений о политике, обществе и состоянии мира. Некоторые слова в этой теме были простыми: «политика», «правительство», «новости», «СМИ» и т. Д. Хотя для этих слов было несколько ложных срабатываний - ответов, в которых кто-то написал о своей карьере в правительство, или недавно получившие хорошие новости - подавляющее большинство ответов, в которых упоминались эти слова, содержали мнения о состоянии мира в соответствии с нашей интерпретацией. Но одно слово «мир» само по себе создало критическую проблему, которая заставила нас отказаться от уточнения этой темы.

В нашем конкретном наборе данных было много респондентов, которые высказывали свое мнение о состоянии мира, используя только общие ссылки на «мир», но было также много респондентов, которые использовали «мир» в неполитическом, личном контексте, например как описание того, как они хотели «сделать мир лучше» или «путешествовать по миру». В результате включение слова «мир» в качестве якорного термина для этой темы дало множество ложных срабатываний, но исключение этого привело к множеству ложноотрицательных результатов. В любом случае наша тематическая модель будет либо преувеличивать, либо недооценивать распространенность этой темы до неприемлемой степени.

В этом случае мы смогли сузить наш список якорных терминов, чтобы сосредоточиться на более конкретной концепции политики, но другие темы представляли аналогичные проблемы, и мы были вынуждены отложить некоторые из них. Продолжая изучать наши исследовательские образцы, мы также заметили, что некоторые темы, которые изначально казались интересными - например, «проводить время, делая что-то» и «думать о будущем» - оказались слишком абстрактными, чтобы быть полезными с аналитической точки зрения, поэтому мы отложили их. , тоже.

Из первоначальных 92 тем у нас осталась 31, которые представлялись интересными с аналитической точки зрения, могли иметь четкое и конкретное определение и имели обнадеживающие уровни начальной надежности, по крайней мере, на основе наших неслучайных исследовательских выборок. Опираясь на идеи, которые мы получили при рассмотрении этих тем в контексте, мы доработали их и добавили или удалили слова из наших якорных списков там, где это казалось полезным.

Для нашего окончательного выбора тем мы составили новые случайные выборки из 100 документов по каждой теме, на этот раз для кодирования двумя разными исследователями, чтобы определить, были ли наши предварительные названия тем определены достаточно последовательно, чтобы их можно было понять и воспроизвести людьми.

К сожалению, мы обнаружили, что семь из 31 темы привели к неприемлемой межэкспертной надежности. Хотя на бумаге они казались ясными, наши ярлыки оказались слишком расплывчатыми или запутанными, и мы не могли прийти к единому мнению, в каких ответах упоминаются темы, а в каких - нет. К счастью, по оставшимся 24 темам у нас был приемлемый уровень согласия, но для некоторых из более редких вопросов этого было недостаточно. В следующем посте я объясню, как мы использовали метод, называемый передискретизацией ключевых слов, для спасения этих тем.

Патрик ван Кессель, старший научный сотрудник исследовательского центра Pew Research Center.