Кстати, поставьте небольшую ставку на Брендана Фрейзера и Мишель Йео, и, о да, было очень легко заявить о победе Coda в прошлом году

Статистически, когда в колонке развлечений используется слово статистически, они никоим образом не полагаются на какую-либо статистику. В своем обзоре Оскара BBC смело заявила, что Coda не должна была побеждать.

Но эта статья запустила мои двигатели; Могу ли я создать простую модель для прогнозирования победителей премии «Оскар» на основе исторических результатов?

Часть 0. Путеводитель по наградам для неспециалистов, составленный непрофессионалом в связи с этим анализом

Я зарабатываю на жизнь тем, что делаю с данными, а не занимаюсь развлечениями. Подробнее здесь.

Короче говоря, «Оскар» — самая престижная награда в кино. Премия «Оскар» определяется голосованием Академии кинематографических искусств и наук. Академия — это в основном разные люди, работающие в сфере кино и развлечений, поэтому ее состав будет перекрывать многие другие награды, и может отличаться от реакции критиков.

Премия Оскар также является одной из последних крупных наград в сезоне награждения, что делает ее интересной задачей для прогнозирования на основе предыдущих наград. Две другие престижные награды сезона — Золотой глобус и BAFTA, вручаемые Британской академией. Для этого упражнения по прогнозированию я добавил еще одну награду для SAG, присуждаемую Гильдией киноактеров, поскольку SAG (профсоюз) в значительной степени пересекается (хотя и является подмножеством) органа голосования по Оскару.

Есть еще много наград, но это самые важные, и все исходные материалы указаны ниже, так что не стесняйтесь расширять работу.

Часть 1. Сборка и преобразование данных

Сборка данных

Сначала мне нужно было собрать данные. К сожалению, запрос Google «победители кинопремий .csv» не дал результатов. К счастью, любимый бот в Интернете, ChatGPT (и его двоюродный брат Python API), позволил мне довольно быстро возвращать результаты.

Я взял данные за 2001 год, чтобы представить их для каждой из вышеуказанных наград.

response = openai.Completion.create(
model="text-davinci-003,
prompt="назовите победителей BAFTAS 2001 года в следующих категориях: лучший фильм, лучший режиссер, лучший актер, Лучшая женская роль, Лучшая мужская роль второго плана, Лучшая женская роль второго плана»,
Temperature=1, max_tokens=256, top_p=1, Frequency_penalty=0, присутствия_penalty=0)

К сожалению, мне пришлось вручную вводить значения за последние два года, так как бот обучался только до 2021 года.

Большая проблема, и послушайте, ребята, заключается в том, что алгоритмы завершения любят галлюцинировать победителей.

  • У него были проблемы с сохранением года выпуска фильма и года награждения (в последующем году), поэтому некоторые фильмы появлялись дважды.
  • Ему просто нравились большие фильмы, о которых, возможно, было написано достаточно предложений, чтобы они казалось побеждать.

Я сделал все возможное, чтобы вы, читатель, очистили эти данные. Я знаю, что победители «Оскара» на самом деле правы. Но если одна или две награды были классифицированы неправильно, все исходные материалы указаны ниже, так что не стесняйтесь расширять работу.

Уборка и организация

Я хотел создать таблицу, для которой каждая награда была бы бинарной 0/1. Тогда это будет просто упражнение по классификации Oscar_category ~ NonOscars_categories.

Часть очистки и предварительной обработки я выполнил в Excel, а часть — в Python. Затем простой свод сделал мои данные готовыми к работе.

df_pivot = df2.pivot_table(index=[‘FilmCleansed’, ‘Год’], columns=’CategoryCleansed’, fill_value = 0, aggfunc=’size’).reset_index()

Часть 1.5. Исследование данных

Просто чтобы никто не подумал, что я пропустил это, я получил корреляции и сделал гистограммы! Они были хорошенькими, но эта статья уже слишком длинная.

Часть 2. Машинное обучение

Так что я обманул. Я использовал инструмент AutoML для настройки своих гиперпараметров, но это потому, что я работаю в компании-разработчике программного обеспечения с виджетом AutoML в наших блокнотах Python.

Но если вы хотите искать вручную, вы можете попробовать что-то вроде этого (и я не пытаюсь перепроектировать это):

В итоге оказалось, что гиперпараметры AutoML были близки к тому, что RandomizedSearch мог дать мне с некоторой выгодой для порогового значения, отличного от 0,5, по вероятности и некоторых других наворотов. Когда я буду обсуждать значения в письменной форме, они будут основаны на прогнозах из конвейера Python, обученного AutoML… но они также должны в значительной степени соответствовать приведенной выше простой модели, обученной Python.

Мы достигли уровня удержания F1, равного 0,714, что весьма неплохо, и, поскольку это интересный проект, я избегал FOMO.

Часть 3. Лучшее изображение

Главными особенностями, которые имели значение, были выступления на SAG и Golden Globes. Почему? Мое необоснованное предположение состоит в том, что тесная связь между органом SAG и избирателями Академии дает тесную связь. «Золотой глобус» может предложить ортогональную перспективу для академии, ориентированной на артистов, и SAG, и BAFTA не оказывает такого влияния на присуждение результатов ни в одной из более поздних категорий.

Помня, что я специалист по данным, а не экономист, я продвигаюсь вперед, не слишком беспокоясь о причинно-следственных связях.

Так кто победит? EEAAO занимает первое место с большой вероятностью 46%.

Модель очень любит свою победу в SAG. Тем не менее, Fabelmans занимает высокое место, потому что исторически драмы, как правило, лучше, чем комедии, в желанной категории «Лучший фильм». Нет ничего, что Академия любит больше, чем фильм о кино, поэтому, если кто-то дает вам шансы 100: 1, возможно, попробуйте.

В противном случае вы можете заметить, что 46% на самом деле не больше 50%… что говорит о несколько более низком пороговом значении.

Давайте на минутку вспомним прошлогоднюю победу Coda и просто позовем всех, кто был удивлен. По меркам нашей модели Coda тоже была фаворитом. Даже с немного меньшим количеством кивков, чем EEAAO, он казался самым многообещающим из различных фильмов года.

Просто в интересах справедливости мы бы пропустили год назад, когда модель предпочла бы Чикаго 7, а не Страну кочевников… но ни один из них не был достаточно сильным соперником, чтобы полностью превысить пороговую вероятность предсказания 1.

Часть 5: Лучшая мужская роль в главной роли

Модель здесь снова избегала BAFTA и придавала все значение SAG и премии Golden Globe Drama Awards. Музыкальная комедия подавала вялые признаки жизни, но в остальном никакая другая категория не имела значения.

Таким образом, с разделением SAG и Golden Globes и отставанием Colin / Banshees, поскольку он выиграл категорию комедии для мужчин вместо драмы (хотя контекстуально это можно рассматривать с престижем драмы), мы можем сказать, что это жеребьевка с Бренданом. Фрейзер в ките выходит вперед.

Но это близко! Остин Батлер и Колин Фаррелл могут выдержать это.

Часть 6: Лучшая женская роль в главной роли

Женская категория рассказывает похожую историю, с добавлением ореола от получения премии «Драма» от «Золотого глобуса». Маловероятно, что это будет колебательное голосование, но, скорее всего, оно подтолкнет некоторые вероятности по ветвям. BAFTA по-прежнему не демонстрирует аддитивную прогностическую силу, которая, по крайней мере, непротиворечива, если не полностью объяснена.

Исторически сложилось так, что мы назвали бы 8 из 10 победителей последних наград прогнозируемыми победителями, так что у нас все хорошо.

Здесь «Смола» Кейт Бланшетт проигрывает исключительно потому, что выиграла «Золотой глобус», исторически ценившийся немного меньше.

Zeitgeist выиграл Tar, но история отдает предпочтение победителю SAG над Золотым глобусом.

Заключительные мысли

Поможет ли добавление дополнительных наград предсказательной силе? Это не повредит, но я предполагаю, что это может добавить шума, не добавляя слишком большой точности.

Еще одна вещь, на которую следует обратить внимание, — это в целом более низкие вероятности — избиратели, как правило, делятся по наградам, и никогда не бывает ясно, из года в год. Люди капризны, и их трудно предсказать.

Наконец, модели помогают нам управлять нашими собственными предубеждениями относительно новизны и подтверждения и указывают на тенденции в данных. Если бы Би-би-си спросила меня в прошлом году, возможно, они бы угадали!