Сравнение подходов к классификации машинного обучения для прогнозирования сложности описательного текста Рену Бальян, Кэтрин С. Маккарти, Даниэль С. Макнамара, FLAIRS-31

Текстовый анализ — популярная область исследований. Прогнозирование сложности текста — одна из самых сложных задач в текстовом анализе. Педагоги могут извлечь пользу из изучения сложности текста. Учитывая классифицированные по сложности материалы для чтения, преподаватели с большей уверенностью выбирают их для удовлетворения потребностей отдельного учащегося. В этой статье Рену, Кэтрин и Даниэль проводят серию экспериментов, чтобы выявить перспективы и ограничения применения иерархических подходов к классификации сложности текста.

Выбор функции

В эксперименте авторов используются более сложные лингвистические функции для оценки сложности текста.

  • Удобочитаемость: простые меры удобочитаемости (Флеш-Кинкейд, ученики L2)
  • Лексическое разнообразие: разнообразие слов, используемых в тексте (TTR, MTLD).
  • Необычные или редкие слова: слова, которые являются необычными или редко встречаются в английском языке.
  • Синтатическая сложность: среднее количество слов перед основным глаголом.
  • Конкретность: степень, в которой слово не является абстрактным.
  • Вообразимость: как легко построить образ слова в уме
  • Знакомство: насколько слово знакомо взрослому
  • Возраст приобретения: возраст, в котором слово впервые появляется в словарном запасе ребенка.

Проведение эксперимента

Два набора (неиерархический и иерархический) экспериментов применяются к трем наборам данных A, B и A+B. Набор A взят из модуля iSTART StairStepper и включает тексты, которые сильно различаются по жанру и сложности (1–12), а набор B – из основной текстовой библиотеки iSTART, которая используется в курсах естественных наук средней школы и колледжа и различается по сложности (6–14). ). Набор A+B представляет собой комбинацию набора A и набора B.

LDA, SVM «один против одного» и SVM «один против всех» используются для определения сложности текста. Ниже показана точность неиерархической классификации.

Для иерархической классификации авторы провели три серии экспериментов. Сводка экспериментов показана в таблице 3. Например, при первом запуске набора А тексты классифицируются как «низкие» и «другие». На втором уровне «другой» класс делится на «средний» и «высокий».

Результат классификации сведен в Таблицу 4.

Иерархический подход перспективен для классификации сложности текста. Он достигает наивысшей точности для набора A (77,78) и набора B (82,05). Для набора данных A+B как иерархический подход, так и подход SVM обеспечивают наивысшую точность (71,43%).

Обсуждение

Не все прогоны экспериментов с иерархической классификацией, достигающие более высокой точности, чем неиерархическая классификация, указывают на некоторые неизвестные факторы для таких результатов. Более того, когда два набора тестов были объединены, иерархическая классификация не показала перспектив для этой задачи. Разница между наборами среднего и верхнего текста незначительна и может повлиять на производительность иерархической классификации.