Проблема с классификацией

Почему лучше оставить пробелы в «данных о людях» незаполненными и просто оставить классификацию в покое.

Когда вы идете в кино, вам когда-нибудь хотелось просто нажать кнопку, пропустить сюжет и посмотреть, как прокручиваются заключительные титры? Если вы ответили «нет», вы в норме. Кредиты это скучно.

Но мы принимаем титры в конце фильма как должное; в конце концов, последовательность титров учитывается в продолжительности фильмов. Если подумать о титрах, то кажется странным, что мы завершаем фильм, художественную форму, которая использует драматические визуальные эффекты и риторику, чтобы вызвать внутреннюю реакцию, с таким скучным форматом, как последовательность титров. Конечно, титры заслужили свое место в кино как традиционный способ воздать должное его создателям, иногда даже сопровождаемый тематическими клипами, чтобы сделать последний переход менее резким. Все, что было до титров, предназначено для пассивного наслаждения, в то время как все, что после, едва ли напоминает искусство, которое ему предшествует — традиционный формат предполагает, что вы читаете список имен и отдаете дань уважения каждому из них за роль, которую они сыграли в создании фильма, прежде чем он прокрутится. вне поля зрения. Только со временем и повторением средний кинозритель учится ассоциировать имена (особенно те, что ниже черты) со стилем, духом и привилегиями.

У актеров лучший конец палки. Поскольку их лица проецируются с высокой детализацией, а их голоса воспроизводятся из динамиков объемного звучания, вы быстро знакомитесь с актерами; но, если бы вы смотрели фильм во второй раз, держу пари, вы бы не заметили, если бы все названия ролей членов экипажа были перепутаны.

Чтобы попытаться закрыть «разрыв в знакомстве», я подумал, что если бы я нашел элементы в именах, которые помогают людям узнавать их, я мог бы сделать титры более привлекательными для людей. Лично я лучше запоминаю имена людей, когда делюсь с ними опытом. Здесь первая сложность: люди никогда не встретятся с большинством людей, чьи имена они видят перед собой. Следующим очевидным решением было бы бомбардировать людей публичными профилями, созданными вокруг этих людей, например. динамическое изменение видео кредитных последовательностей и вставка биографий IMDB для каждого кредитованного человека. Это казалось эффективным, но слишком обременительным.

Далее я рассмотрел идентичность. Если профессия и опыт недостаточно интересны, чтобы удерживать людей ради кредитов, я полагал, что подойдет общий фон. Американцы, кажется, загораются, когда встречают кого-то, кто имеет общую национальность, даже если их предки иммигрировали 5 поколений назад. Я усвоил этот трюизм и решил пометить всех известных мне людей, которых я смог найти, их национальностью. Тогда, как я полагал, я учту даже типичного кинозрителя, который не хочет смотреть дальше театрального опыта, чтобы «познакомиться» с известными людьми.

Я подумал, что, поскольку «типичный кинозритель» не может знать этническое происхождение каждого члена титров, процесс маркировки должен отражать ту же наивную перспективу и делать обоснованную географическую оценку на основе самого имени. Я ошибся, но прежде чем объяснить, почему, я покажу вам, как далеко я зашел, прежде чем стало очевидно, что мой процесс несовершенен.

Я последовал интуиции, которую люди используют, чтобы предположить этническую принадлежность и пол кого-то, кого они никогда не встречали, и обратился к моделям машинного обучения, которые связывают имена с местами, используя данные опросов, переписей и опросов.

Существует множество инструментов для привязки идентификаторов к именам, а именно NamSor, который использует массивные наборы данных, чтобы дать наилучшее предположение о чьем-либо поле и этнической принадлежности, основываясь только на его имени. Каким бы сложным ни был разработан NamSor, и сколько бы ономастиков, лингвистов и антропологов ни консультировалось с ним, его (и любой другой) классификатор ИИ не может работать со 100% точностью. Это невозможно по двум причинам:

Последовательность имен недостаточно длинная.
Возьмем, к примеру, аналогичную проблему присвоения рассказу жанра. Если бы история шла «Человек шел», вы бы так же неуверенно относились к какому-либо жанру. Но если бы история гласила: «Девушка заставила себя робкими шагами приблизиться к захудалому поместью», вы бы предположили, что это предвестник истории ужасов по ряду причин, не последней из которых является то, что поместья только дом зла.
В имя входит гораздо больше, чем в этническую принадлежность, и в этническую принадлежность входит гораздо больше, чем в чье-то имя.
Точно так же, как кто-то не будет смотреть исключительно на свое имя, чтобы определить, как он идентифицирует себя, присвоение идентификаторов извне внутрь не является действенным средством понимания населения.

В конце концов, мой план придать большее значение личным именам, чем тому, что появляется на экране, провалился из-за ответственности за правильное представление людей. Думаю, у меня были правильные намерения, но мой подход был совершенно неправильным. Вместо того, чтобы искать, как люди идентифицировали себя, я подумал, что «этот проект требует очень хороших догадок», и упустил лучшие решения. Классификация, какой бы объективной она ни казалась, проблематична применительно к качественным характеристикам человека.

В моей следующей статье я покажу, как NamSor дополнил личные данные детализированными атрибутами, такими как этническая принадлежность, с точки зрения диаспоры (откуда создатели фильмов, скорее всего, приехали в Соединенные Штаты). Я также покажу, как это соотносится с достоверной информацией. Быть в курсе!

Проблема с классификацией

Почему лучше оставить пробелы в «данных о людях» незаполненными и просто оставить классификацию в покое.

Вопросы по теме