Вступительный тест Busuu, часть III: выбор модели IRT

К настоящему моменту я, возможно, заинтриговал вас теорией отклика предметов, но прежде чем вы продолжите ее использовать, вы хотите узнать немного больше о том, что там есть. Какие разные модели есть на выбор? И какой вид подойдет именно вам?

В этой статье я поделюсь некоторыми техническими подробностями IRT, в том числе математикой, лежащей в основе различных типов моделей IRT.

«Стандартная» ИРТ — одномерная, дихотомическая, логистическая

Существует множество различных моделей IRT, но прежде чем мы перейдем ко всем этим вариантам, давайте рассмотрим самые стандартные, базовые модели, а также предположения IRT в целом.

Основные предположения IRT

Все варианты IRT разделяют следующие предположения.

Функция ответа элемента. IRT исходит из того, что:
a. существует функция отклика элемента (IRF), представляющая собой математическое уравнение, описывающее вероятность того, что пользователь правильно решит задачу;
b. параметры IRF связаны с элементами и пользователями; и
в. IRF монотонно возрастает по отношению к параметру (параметрам) возможностей пользователя.
Независимые мероприятия. IRT предполагает, что вероятность того, что пользователь ответит на вопрос правильно, не зависит от того, какие элементы поступили ранее.

Обратите внимание на несколько интересных моментов, касающихся этих предположений:

Предположения не сильно ограничивают форму функции отклика элемента. Это означает, что у нас есть много разных моделей, с которыми можно поиграть под общей эгидой IRT, как мы увидим.
Предположение о независимых событиях легко нарушить. Предыдущий вопрос может напомнить вам о чем-то, что вы забыли, и позволит вам правильно ответить на следующий вопрос.
Предположение независимые события влечет за собой еще одно неявное ограничение — IRT подходит только (обычно) для тестирования людей в определенный момент времени, а не для наблюдения за тем, как люди работают в вопросы с течением времени в процессе обучения. Существуют модели для работы с последними, такие как байесовское отслеживание знаний (BKT), латентный факторный анализ (LFA), регрессия периода полураспада (HLR), глубокая память ключ-значение (DKVM) и Elo, но нам придется разобраться с некоторыми из них в другом посте.

Формы функции отклика элемента (IRF)

Двумя основными формами IRF являются логистические модели и так называемые нормально-оживальные модели. Логистические модели используют логистическую кривую, а нормально-оживальные модели следуют функции ошибок (т. е. площади под нормальным распределением). (Я пытался выяснить, что означает слово ожив или откуда оно взялось, но безрезультатно. Его нет ни в одном словаре, который я проверял. Не уверен, почему они не называют их просто нормальными моделями или гауссовские модели).

Нормально-оживальные модели появились первыми, и они, похоже, использовались, потому что… всем нравится нормальное распределение? В то время (в 1960-х годах) логистическая функция не имела такого повсеместного распространения и важности, как в наши дни, поэтому переход к логистическим моделям был более инновационным и удивительным в то время, чем кажется сегодня.

Переход к логистическим моделям был мотивирован

логистические кривые «похожи» на функцию ошибок (можно доказать, что разница между логистической функцией и функцией ошибок может быть ограничена некоторой очень малой величиной по всей длине кривой), и
с логистическими кривыми легче работать математически (учитывая, что нормальное распределение не может быть интегрировано, а это означает, что функция ошибок в любом случае может быть оценена только с использованием численных методов).

Однако из-за этой истории до сих пор принято называть логистические модели «nPL», где n — количество параметров элемента (см. ниже), чтобы отличить их от нормально-оживальных моделей, несмотря на то, что никто на самом деле больше не использует модели Normal-ogive. Так, например, 2PL-модель — это «двухпараметрическая логистическая» модель.

Логистические IRF

Общая форма одномерной (т. е. с одним пользовательским параметром — более подробное обсуждение см. ниже) функции отклика элемента 4PL выглядит следующим образом (один раз показана с именами переменных, один раз — с алгебраическими символами):

Вероятность здесь означает вероятность того, что пользователь правильно ответит на вопрос. Параметры с правой стороны были описаны в предыдущем посте.

Легче всего понять эту общую формулу, шаг за шагом переходя от версии 1PL, которая по сути является логистической функцией:

…где a — некоторая константа. Обратите внимание, что сложность и способности должны быть в одних и тех же «единицах», чтобы эта формула имела смысл (поскольку мы вычитаем одно из другого). Это означает, что они измеряются в одной шкале, что удобно.

Эта формула дает нам логистические кривые с одинаковым «наклоном», но переведенные в направлении x на разные величины, в зависимости от разницы между способностями пользователя и сложностью элемента:

Обратите внимание, что для красной кривой значение вероятности при способности = 2,0 равно 0,5, а для синей кривой значение вероятности при способности = 3,0 равно 0,5. В общем, если оценка способности пользователя равна оценке сложности предмета, то они «равномерно подобраны», и мы получаем эту вероятность 0,5.

Если мы изменим a, то получим вариант 2PL:

Теперь мы можем видеть, как меняется «наклон» кривой, а также ее положение. Более высокие значения дискриминации означают более крутые склоны.

Теперь мы добавим параметр угадывания в виде точки пересечения по оси y, но нам также нужно изменить числитель дроби, чтобы максимальное значение вероятности, которое мы можем получить, было равно 1:

Наконец, мы можем уменьшить максимальную высоту, чтобы получить эффект «скольжения», еще немного поработав с числителем:

На окончательных кривых вы также можете увидеть, как они варьируются в зависимости от положения (сложность), наклона (различение), нижней асимптоты (скорость угадывания) и верхней асимптоты (скорость проскальзывания).

В IRT всегда должны использоваться параметры сложности задания и способностей учащегося, но остальные параметры задания (различение, скорость угадывания и частота промахов) являются необязательными. Чем больше параметров, тем сложнее обучать модель, но они могут быть важной частью вашей модели, например. когда у вас есть вопросы с несколькими вариантами ответов с двумя отвлекающими факторами, для которых вы ожидаете очень значительный уровень угадывания 33%.

Расширения «базовой» IRT

Учитывая то количество, которое было написано об этом, IRT — это, по сути, область, а не отдельный подход. Хотя существует множество расширений, я кратко представлю три.

Политомические модели

Политомические модели ослабляют предположение о том, что на вопросы отвечают либо правильно, либо неправильно («дихотомически»). Это может охватывать целый ряд различных случаев, включая модель частичного кредита, модель дифференцированного ответа и модель номинального ответа.

Модель частичного зачета предполагает, что каждый вопрос состоит из несколько шагов. Возьмем, к примеру, арифметическую задачу (5+10)/3. Это действительно нужно сделать двумя частями, сначала (5+10), а затем (15/3). Поэтому, если вы правильно поняли первую часть, но ошиблись во второй, вы должны получить частичный зачет.

Модель частичного кредита имеет следующие допущения.

Пользователь может выполнить некоторые из этих шагов правильно, даже если не получит окончательный ответ (отсюда и «частичный зачет»).
Шаги могут быть оценены только «по порядку», т.е. невозможно наградить испытуемого за последний шаг упражнения, если он ошибся в предыдущем шаге.
Шаги должны выполняться в заданном порядке. В приведенном выше примере вы должны сначала сделать (5+10), прежде чем выполнять деление на 3.
Шаги могут различаться по сложности. Обратите внимание, что более поздние шаги не обязательно должны быть сложнее предыдущих — в задаче типа ((81/3)+5) начальное деление на самом деле сложнее, чем последующее сложение.

Количество возможных оценок или баллов, которые получает экзаменуемый, варьируется от 0 до количества шагов, которые он может сделать правильно. Мы моделируем каждый шаг со своей сложностью, а затем сравниваем набор чисел, которые пропорциональны вероятности заданных событий:

Все неправильно (x=0) — установите значение 1 по умолчанию. (Обратите внимание, что это не вероятность! Мы нормализуем ее позже. См. ниже.)
Выполняется первый шаг, но не проходит второй (x=1) — используйте exp(ability-d1), гдеd1это сложностьэтого шага. Это означает, что если ability и d1 равны, мы также получаем значение 1; если способность › d1, мы получаем что-то большее, чем 1, а если способность ‹ d1, мы получаем что-то меньшее, чем 1.
Обратите внимание, что эта экспонента та же самая. как тот, что мы видим в знаменателе модели 1PL, так это по сути заимствовано оттуда.
Получение второго шага, но непрохождение дальнейших шагов (x=2) — используйте exp(ability-d2)но затемумножьте егона exp(способность-d1). Причина здесь в том, что пользователю нужно будет правильно ответить на шаги 1, и2 , поэтому нам нужно будет умножить эти числа, как мы делаем с вероятностями.
Если есть третий шаг, нужно правильно выполнить этот шаг и включить его (x=3) — умножьте exp(ability-d3), exp(ability-d2),и exp(ability- г2)вместе.
И так далее, вплоть до количества шагов в элементе.

Затем мы нормализуем эти значения, разделив их на сумму всех. Это оставляет нас с этой формулой:

Модель оцениваемых ответов предполагает, что испытуемые отвечают на вопросы по шкале Лайкерта об одобрении утверждений, обычно от «полностью не согласен» до «полностью согласен». Это больше подходит для тестирования личности и отношения, чем для когнитивной оценки. Вместо того, чтобы измерять «способности», мы могли бы измерить личностную черту, такую как экстраверсия, или отношение, такое как энтузиазм по поводу определенного бренда; а «сложность задания» лучше понимать как «трудность подтверждения», а не «трудность дать правильный ответ».

Мы разлагаем «трудность» на два аспекта. Во-первых, существует сила одобрения — от «полностью не согласен» до «полностью согласен». Граничные точки или пороги между этими сильными сторонами одобрения имеют свои собственные значения «сложности».

Тем не менее, сами предметы также имеют свою собственную «сложность», которая отражает, насколько экстремальным является отношение, которое они представляют. Таким образом, чтобы интерпретировать значение ответа на вопрос, мы объединяем пункт «сложность» с силой одобрения, складывая их вместе.

Например, рассмотрите викторину личности, направленную на измерение экстраверсии. Два пункта могут звучать так: «Я — душа вечеринки» и «Меня заряжают люди». Предположительно, вы должны быть более экстравертированы, чтобы одобрить второе по сравнению с первым, а это означает, что первое более «сложно», чем второе.

Используя эту настройку и аналогичную логику для модели частичного кредита, мы получаем следующее уравнение:

Обратите внимание на сходство между этими двумя моделями — обе умножают экспоненты на различия между «способностями» и «трудностями», а затем нормализуют их по отношению ко всем доступным параметрам.

Многомерная ИРТ (МИРТ)

Многомерная IRT предполагает, что существует более одной «способности» и/или более одной «трудности», которые отвечают за производительность пользователя.

Одним из примеров может быть способность к чтению. В Простом представлении чтения понимание прочитанного основано на способности понимать язык и декодировать:

Способность к пониманию языка и декодированию может быть дополнительно разбита, например, на понимание языка состоит, среди прочего, из словарного запаса и общих фоновых знаний. Таким образом, вы можете создать еще более сложную модель с большим количеством деталей или просто придерживаться этих двух (как я сделаю ниже).

Используя простое представление о чтении, мы могли бы по-новому интерпретировать функцию отклика элемента несколькими способами. Один из способов — заменить (способность минус сложность) двумя такими различиями, а именно (понимание языка минус лингвистическая сложность) и (способность декодирования минус графическая сложность). Результирующее уравнение может выглядеть следующим образом:

Это будет означать, что теперь у нас есть несколько пользовательских параметров для обучения — как понимание языка, так и навык декодирования, которые заменили единственный параметр способность из до. Это может привести к гораздо более точному пониманию ваших пользователей.

Обратите внимание, что этот пример является некомпенсирующим, а это означает, что если одно из двух требований к чтению низкое, то и вероятность успеха невелика, поскольку оба взаимодействуют и необходимы для выполнения задачи. Модель компенсации будет использовать сложение, а не умножение типов способностей, и в результате вам потребуется только одна из двух способностей, чтобы хорошо работать, потому что одна может компенсировать или взять на себя другую. Примером компенсирующей модели могут быть навыки чтения карты и физическая подготовка в тесте на скорость в походе. (Мне было очень трудно найти пример, потому что все остальное, о чем я думал, было некомпенсирующим — большинство навыков требуют взаимодействия способностей, а не их работы независимо друг от друга.)

Бета-ИРТ

В стандартной IRT нет ограничений на возможные значения способности и сложности, что означает, что они находятся на шкале от отрицательной бесконечности до положительной бесконечности. На практике показатели сложности и способностей в стандартной IRT, как правило, колеблются между -5 и +5, но в принципе можно иметь показатель способностей +100 или +1 миллиард.

Отсутствие формально предполагаемых ограничений приводит к определенным побочным эффектам:

Не существует такого понятия, как «истинное мастерство», так как даже если показатель вашей способности равен +10 или +100, вы все равно получите предмет неправильно, если его сложность равна +1000.
Может быть трудно интерпретировать, что означают оценки способностей и сложности в абсолютном смысле. Если нет «нулевого уровня» и «уровня мастерства», нам нужно использовать другие методы, чтобы попытаться определить значение показателя сложности или способности.

Бета-IRTпредполагает, что способность и сложность оцениваются по шкале от 0 до 1, где 0 означает отсутствие знаний (т. е. пользователь всегда дает неправильный ответ), а 1 – идеальное знание (он всегда дает правильный ответ). ). Этот подход полезен для приложений, где нулевое знание и полное мастерство более или менее четко определены, в том числе в изучении языка, где носитель языка может иметь оценку способности 1 в этой схеме, что означает, что носитель языка никогда не сделает языковое упражнение неправильно. .

В Beta-IRT, как и в «стандартной» логистической IRT, способность и сложность измеряются по одной и той же шкале. Точнее, они считаются бета-распределенными (поскольку они ограничены от 0 до 1, как и бета-распределение), отсюда и название подхода. Бета-распределение также дает нам естественный способ приблизиться к априорному распределению способностей пользователя (и, возможно, сложности предметов) — мы можем определить распределение способностей пользователя от абсолютного новичка до идеального эксперта математически удобным и элегантным способом. Это отличается от параметров в стандартной IRT, чьи параметры обычно считаются нормально распределенными, насколько я могу сказать, взмахнув рукой, что «все по Гауссу по умолчанию».

«Чен и др. (2019). таких показателей, как точность.

Итак, какую модель мне следует использовать?

Предполагая, что у вас есть время, как и в любой другой задаче ML, стоит попробовать обучающие модели разных форм и с разными настройками или количеством параметров, чтобы сравнить их все друг с другом, используя такие метрики, как AUC или MAE. Однако есть определенные вещи, которые вы можете знать о вашем контексте или ваших данных, которые могут повлиять на модели, на которых вы решите сосредоточиться.

Если ответы на ваши вопросы теста имеют более подробные интерпретации, чем просто «правильно» или «неправильно», тогда рассмотрите политомическую модель. Модель частичного кредита, вероятно, будет полезна для проверки когнитивных способностей, в то время как модели дифференцированного ответа больше подходят для измерения отношения или личности людей.
Если теоретически предполагается, что навык или знание, которым вы обучаете, можно разложить на более чем один элемент, рассмотрите возможность многомерной модели.
Если навык или знание, которое вы моделируете, справедливо описывается как то, что некоторые люди вообще ничего не могут делать, а некоторые полностью овладевают им, так что они никогда не ошибаются, рассмотрите вариант Beta-IRT.

Помните, IRT — это большая область, и исследователи внесли в нее огромное количество расширений. Выше упоминаются только некоторые ключевые типы вариантов IRT. Модель, которая вам нужна, может быть одним из этих вариантов или может быть чем-то другим, существующим в исследовательской литературе — если вы действительно заинтересованы, поищите в Google Scholar, если хотите проверить, что там есть.

В следующий раз

…мы поговорим об обучении моделей. До тех пор!