Однородные кадровые привычки Big Tech наносят ущерб нашим данным

В нашем цифровом мире, ориентированном на потребителя, мы срочно внедряем инновации и разрабатываем новые продукты. В связи с тенденцией к машинному обучению и постоянным давлением необходимости двигаться быстро и ломать - я имею в виду «строить» - вещи, большие технологии постоянно нуждаются в строителях. В результате инженеры-программисты стали очень востребованным товаром, преобладающим в численности персонала и разжигающим войны заявок между компаниями. Однако по мере роста амбиций машинного обучения растут и потребности в данных, превращая инженерные проблемы в междисциплинарные вопросы. Проекты, дающие очень неоднозначные данные - например, выражения лица для отслеживания лица - требуют понимания данных, выходящего за рамки инженерной мысли; они призывают к междисциплинарному браку между инженерией и дополнительной прикладной областью. Поэтому технологическим компаниям крайне важно брать на себя ответственность за целостность данных, вовлекая полевых экспертов в процесс разработки продукта.

Хотя в культуре больших технологий не принято отдавать приоритет неинженерным ролям, другие отрасли признают важность актуальных знаний в области машинного обучения. Например, сфера биотехнологий зависит от сотрудничества как медицинских экспертов , так и инженеров. В этом случае необходимость сотрудничества очевидна, но в более неясных областях специализации необходимость не всегда очевидна. Как упоминалось ранее, одной из основных областей, страдающих от неясности и непонимания, является отслеживание лиц. Распространенные варианты использования отслеживания лица, включая фильтры лица, обнаружение функций для рекламы продуктов (например, обнаружение губ для тестирования продуктов с помадой или обнаружение глаз для очков) и аватары, относительно безопасны. Однако при рассмотрении менее «симпатичных» случаев использования, таких как обнаружение эмоций, мониторинг поведения и обнаружение обмана с помощью приложений в системе уголовного правосудия, в секторе страхования или в мире кибербезопасности, производительность модели машинного обучения становится спорной; а если все сделать неправильно, становится опасно. Уже существует множество известных проблем с технологией распознавания лиц и ее нерегулируемым использованием в разных странах и отраслях. Поскольку отслеживание выражения лица не просто идентифицирует человека, но, скорее, наблюдает и делает выводы о поведении этого человека, оно может быть гораздо более инвазивным.

Несмотря на фундаментальную важность данных выражений для отслеживания лиц, большие технологии часто не уделяют первоочередного внимания качеству данных выражений. Менеджеры по продуктам, инженерные менеджеры, исследователи-пользователи и инженеры-программисты обычно полагаются на собственное поверхностное понимание и специальные поиски, а не на глубокое понимание, которое может предоставить эксперт. Хотя инженеры-программисты являются мастерами создания алгоритмов, они часто обладают лишь поверхностными знаниями о том, что входит в данные. Учитывая их напряженную рабочую нагрузку и сосредоточенность на собственных специализированных знаниях, инженеры не могут получить дополнительный опыт в изучении тонких данных выражения или овладении сложными концепциями в исследовании эмоций.

Определение того, какие данные необходимы, как их собирать и как их маркировать, - это деликатный процесс. Если вы выберете таргетинг на неправильные данные, не имеет значения, насколько хорошо вы их собираете или маркируете. Если вы нацеливаетесь на полезные данные, но собираете их неправильно, это тоже не удастся. Он снова выйдет из строя, если вы не обозначите его точно и / или точно. Из-за морфологических различий в чертах лица, врожденных предубеждений в интерпретации выражений и разногласий как среди исследователей эмоций, так и среди анатомов лица, любая группа, разрабатывающая алгоритмы отслеживания лица с намерениями, выходящими за рамки того, чтобы попробовать помаду перед покупкой, должна принять на себя ответственность и этическую ответственность за целостность данных. .

Вместо того, чтобы гарантировать, что строительные блоки своих алгоритмов хорошо понимают те, кто их использует, неудачное состояние Big Tech состоит в том, чтобы собирать или получать большие объемы данных и передавать их сторонним специалистам по маркировке. Этикетировщики обычно привлекаются к работе по контракту и почти всегда недооценены. Для мониторинга качества этикеток стандарт заключается в создании и обеспечении соблюдения различных ключевых показателей эффективности или KPI, но поскольку большие технологии предпочитают не инвестировать ресурсы в людей, которые могут законно контролировать качество расширенных данных, KPI обычно являются произвольными и остаются неизменными. маленькая заслуга. Что еще больше усугубляет проблему, если инженеры не обладают должным уровнем понимания, позволяющим определять основные истины, что они на самом деле измеряют? Есть обучение без учителя. И еще есть неконтролируемая инженерия.

Когда я работал в одной из компаний Большой пятерки в Кремниевой долине, меня постоянно шокировало безразличное отношение к сложным данным отслеживания лиц. Хотя мои коллеги были ведущими умами в разработке алгоритмов, они обладали поверхностным пониманием анатомии лица, основных концепций эмоций и экспрессивного поведения. Как и любой другой узкоспециализированный предмет, для понимания нюансов человеческого выражения требуются годы интенсивного изучения и опыта. Несмотря на то, что я был постоянным экспертом по выражению лица, посвятившим свою жизнь и карьеру пониманию нюансов человеческого лица, меня регулярно исключали из важных встреч и совещаний по планированию. Я часто замечал, как коллеги наугад просматривают устаревшие и неточные справочные страницы с выражениями (для которых я в настоящее время предлагаю новые решения) в попытках составить план конвейера данных. Мой опыт часто сводился к руководящей роли, а мои навыки использовались не по назначению для решения несущественных задач, таких как классификация типов бороды и цвета волос. Когда я отмечал тенденции в несогласованности данных или предвидел проблемы с оборудованием, меня садили и предлагали урок, как работает машинное обучение.

Я вижу много объявлений о вакансиях, в которых требуется X лет опыта в отслеживании лиц, но этого недостаточно. Так же, как предыдущая работа инженера в области медицинских технологий не дает им права быть практикующим врачом, простая работа над технологией отслеживания не дает инженерам права разбираться в мимике или эмоциях. Если бы больше внимания уделялось найму соответствующих экспертов, возможно, упростилось бы поиск инженеров с редким и конкретным опытом; такое облегчение может дать место для более инновационного сотрудничества между инженерией и дополнительными дисциплинами, с которыми оно может быть сопряжено.

Туннельное видение Big Tech сосредоточиться на инженерии - это халатная привычка, которую необходимо изменить. Хотя инженеры-программисты действительно играют важную роль в процессе машинного обучения, амбиции машинного обучения привели нас к тому моменту, когда мы должны признать необходимость междисциплинарных мер. К данным для систем, зависящих от нюансов, не следует относиться легкомысленно, особенно когда они раскрывают потенциал для инвазивных вариантов использования. Если бы компании ценили опыт в предметной области данных с таким же уважением и поддержкой, как и в отношении инженерных знаний, алгоритмы и, на основе которых они построены, были бы более полными и менее подверженными ошибкам. Отсутствие целостных систем данных оставит нас с нерегулируемыми продуктами, подверженными предвзятости. Несбалансированность инвестиций, направленная на алгоритмы и не на качество данных, приведет к потере инженерных усилий, некачественным продуктам и распространению неэтичных технологий.

Не складывайте всех сотрудников в одну корзину. Нанимайте ответственно.

Однородные кадровые привычки Big Tech наносят ущерб нашим данным

Вопросы по теме