Это третья часть нашей серии статей о Causal Impact @ Coursera. (Часть II находится здесь)

В Coursera мы используем данные для принятия стратегических решений, применяя различные методы причинно-следственных связей для разработки наших продуктов и планов развития бизнеса. В этой серии причинно-следственных выводов мы покажем, как мы используем следующие методы для понимания историй в наших данных:

(1) контролируемая регрессия

(2) инструментальные переменные

(3) прерывность регрессии

(4) разница в разнице

В этом третьем посте из серии рассматривается применение прерывности регрессии для измерения влияния курсов с субтитрами на других языках на зачисление.

В Coursera мы стремимся сделать наш контент максимально доступным для всех во всем мире в соответствии с нашей миссией по расширению всеобщего доступа к высококачественному образованию.

Одним из важных аспектов этого является обеспечение того, чтобы наш контент был доступен на разных языках для соответствия разным аудиториям, и большая часть этого - это субтитры для нашего контента на разных языках. Понимание ценности этих субтитров помогает нам понять, где наши усилия могут иметь наибольшее влияние.

Как только мы добавляем субтитры к отдельной видеолекции в рамках курса на определенном языке, мы работаем над тем, чтобы сделать ее доступной для учащихся, поэтому мы ожидаем, что по мере увеличения доли видео с субтитрами в курсе мы увидим больше участников, что мы видят исторически.

Однако, чтобы понять фактическое влияние субтитров на зачисление, мы не можем просто сопоставить количество субтитров в курсе с зачислениями. Исторически сложилось так, что более популярные курсы также имели наибольшее количество субтитров, что делало популярность курса препятствием для измерения причинного воздействия субтитров с историческими данными.

Однако оказывается, что когда курс достигает порогового значения, когда 80% его видео имеют субтитры на определенном языке, мы фактически рекламируем курс как доступный на этом языке, хотя до этого порогового значения он явно не отображается.

Этот 80% порог затем обеспечивает точку разрыва, вокруг которой можно сравнить соотношение процента субтитров с регистрацией. Если мы увидим скачок в зачислении после того, как курс пересечет 80% -ный порог, то мы будем знать, что реклама наличия субтитров оказывает причинное влияние на зачисление, что позволяет нам строго количественно оценить причинное влияние, используя технику прерывания регрессии. Это связано с тем, что 80% -ный порог одинаков для всех курсов и, следовательно, не имеет отношения к популярности курса или другим препятствиям.

Для этого мы регрессируем ежедневную регистрацию на долю видео с субтитрами в курсе на каждый день, показатель того, превышает ли эта доля 80% или нет, и взаимодействие этих двух (вместе с потенциальными элементами управления). Это эффективно соответствует двум отдельным линиям регрессии около 80% порога субтитров, одной до и одной после, что позволяет нам количественно оценить причинное влияние рекламных субтитров на регистрацию как разницу между двумя линиями регрессии.

В таблице ниже показаны результаты различных регрессий, которые мы выполнили:

Мы можем оценить причинное влияние субтитров на ежедневную регистрацию, используя следующую формулу:

% С субтитрами выше 80% +% с субтитрами * 80% X% с субтитрами выше 80%

что и есть разница в линиях регрессии до и после разрыва.

Используя этот метод, мы видим, что влияние субтитров на ежедневную регистрацию невелико, но поскольку мы можем использовать наше большое сообщество учащихся для расширения доступа к Coursera, мы по-прежнему продвигаем субтитры к курсам через наше GTC или глобальное сообщество переводчиков. GTC позволяет учащимся-добровольцам создавать субтитры для любого курса на любом языке, который они хотят, и помогает нам гарантировать, что любой и где угодно может получить доступ к трансформирующему обучению, доступному на Coursera.

Заинтересованы в Data Science @ Coursera? Ознакомьтесь с доступными ролями здесь.