Навыки, необходимые для создания хороших данных, также являются навыками, необходимыми для хорошего лидерства.

Недавно я написал книгу, которую хотел бы существовать, когда познакомился с машинным обучением: Машинное обучение человека в цикле: активное обучение и аннотации для ИИ, ориентированного на человека. Большинство моделей машинного обучения основаны на данных, аннотированных людьми, но большинство книг и курсов по машинному обучению сосредоточены на алгоритмах. Вы часто можете получить современные результаты с хорошими данными и простыми алгоритмами, но вы редко получите современные результаты от лучшего алгоритма с плохими данными. Поэтому, если вам нужно сначала углубиться в одну из областей машинного обучения, вы можете возразить, что данные более важны.

Помимо технической направленности книги, в ней представлены анекдоты 11 экспертов по машинному обучению. Каждый поделился анекдотом о проблемах, связанных с данными, с которыми они столкнулись при построении и оценке моделей машинного обучения в реальных ситуациях. Их истории рассказывают нам кое-что важное о лидерстве в машинном обучении в более широком смысле, и каждый анекдот связан с уроком об успешных проектах в области науки о данных.

Эксперты были отобраны по двум критериям: все они основали успешные компании, занимающиеся машинным обучением, и все они работали непосредственно над обработкой данных. Все они являются хорошими образцами для подражания для людей, рассматривающих карьеру в машинном обучении: Аянна Ховард, Даниэла Брага, Елена Гревал, Инес Монтани, Дженнифер Прендки, Джиа Ли, Киран Снайдер, Лиза Брейден-Хардер , Мэтью Хоннибал , Питер Скомороч и Радха Басу . Если вы только начинаете свою карьеру и изо всех сил пытаетесь создать хорошие данные для своих моделей, то я надеюсь, что вы можете относиться ко многим анекдотам из книги, которыми поделились здесь:

Аянна Ховард

«Родители - прекрасные знатоки предмета»

Модели о людях редко бывают точными для людей, которые не представлены в данных. Существует множество демографических предубеждений, которые могут привести к недостаточной представленности людей, например, способности, возраст, этническая принадлежность и пол. И часто бывают перекрестные предубеждения: если люди недостаточно представлены в нескольких демографических группах, то иногда пересечение этих демографических групп оказывается больше, чем сумма частей. Даже если у вас есть данные, может быть трудно найти аннотаторов с нужным опытом, чтобы правильно аннотировать их.

При создании роботов для детей с особыми потребностями я обнаружил, что не было достаточно данных для обнаружения эмоций у детей, выявления эмоций у людей из недостаточно представленных этнических групп и выявления эмоций у людей с аутичным спектром. Люди без иммерсивного опыта, как правило, очень плохо распознают эмоции у этих детей, что ограничивает круг тех, кто может предоставить обучающие данные, которые говорят, когда ребенок действительно счастлив или расстроен. Даже некоторые обученные детские врачи испытывают трудности с точным аннотированием данных при рассмотрении взаимосвязи способностей, возраста и / или этнической принадлежности. К счастью, мы обнаружили, что родители ребенка лучше всего разбираются в его эмоциях, поэтому мы создали интерфейсы, позволяющие родителям быстро принять / отклонить предсказание модели о настроении ребенка. Это позволило нам получить как можно больше данных о тренировках, сведя к минимуму время и технические знания, необходимые родителям для предоставления такой обратной связи. Родители этих детей оказались идеальными экспертами в предметной области, чтобы настроить наши системы в соответствии с потребностями их детей.

Биография: Аянна Ховард - декан инженерного колледжа Университета штата Огайо. Ранее она была председателем Школы интерактивных вычислений Технологического института Джорджии; соучредитель компании Zyrobotics, которая производит терапевтические и обучающие продукты для детей с особыми потребностями; работал в НАСА; и имеет докторскую степень Университета Южной Калифорнии.

Даниэла Брага

«Признания о языках-источниках»

В нашей компании мы гордимся тем, что делаем все возможное, чтобы обеспечить получение наилучших данных, что иногда приводит к забавным ситуациям. Для текстовых и речевых данных самая сложная проблема часто - найти говорящих свободно. Поиск людей с нужной квалификацией и говорящих на нужном языке - одна из самых сложных и упускаемых из виду проблем в машинном обучении.

Недавно мы делали сборник крупных проектов для клиента с особыми языковыми требованиями. После нескольких неудачных попыток найти нужных людей для редкого языка, один из наших людей пошел в церковь, где, как он знал, он найдет людей, которые будут соответствовать требованиям. Пока он находил людей, которые ему были нужны для нашего клиента, он случайно явился во время исповеди. Священник предположил, что он был здесь по этой причине, поэтому, как и следовало ожидать, он полностью исповедался, в том числе о поиске языков.

Биография: Даниэла Брага - основатель и генеральный директор DefinedCrowd, компании, которая создает обучающие данные для машинного обучения, включая текстовые и речевые данные на более чем 60 языках.

Елена Гревал

«Синтетические элементы управления: оценка вашей модели без оценочных данных»

Как вы можете измерить успешность своей модели, если вы развертываете приложение, в котором вы не можете проводить A / B-тесты? Синтетические методы управления - это метод, который вы можете использовать в этом случае: вы находите существующие данные, которые по функциям наиболее близки к тому, где вы развертываете модель, и используете эти данные в качестве своей группы управления.

Я впервые узнал о синтетическом контроле, когда изучал анализ образовательной политики. Когда школа пробует какой-либо новый метод улучшения учебной среды своих учеников, нельзя ожидать, что они улучшат жизнь только половины учеников, чтобы другая половина могла быть статистической контрольной группой. Вместо этого исследователи образования могут создать «синтетическую контрольную группу» школ, наиболее похожих по демографическим характеристикам и успеваемости учащихся. Я взял эту стратегию, и мы применили ее в Airbnb, когда я там руководил наукой о данных. Например, когда Airbnb внедрял изменение продукта или политики в новом городе / рынке и не мог провести эксперимент, мы создавали синтетическую контрольную группу из наиболее похожих городов / рынков. Затем мы могли бы измерить влияние наших моделей по сравнению с синтетическими элементами управления для таких показателей, как вовлеченность, доход, рейтинги пользователей и релевантность поиска. Синтетические элементы управления позволили нам использовать подход, основанный на данных, для измерения воздействия наших моделей, даже если у нас не было данных оценки.

Биография: Елена Гревал - основатель и генеральный директор D ata 2 the People, консалтинговой компании, которая использует науку о данных для поддержки политических кандидатов, стремящихся оказать положительное влияние на мир. Елена ранее возглавляла команду специалистов Airbnb по обработке данных, насчитывающую более 200 человек, и имеет докторскую степень в области образования Стэнфордского университета.

Инес Монтани

«Хорошие интерфейсы - это качество, а не только количество»

Когда я говорю с людьми о интерфейсах, которые можно использовать для аннотации, слишком часто они реагируют так: «Зачем беспокоиться? Аннотации не так дороги для сбора, поэтому даже если ваш инструмент в два раза быстрее, это все равно не так ценно ". Эта точка зрения проблематична. Во-первых, многие проекты нуждаются в поддержке профильных экспертов, таких как юристы, врачи или инженеры, которые будут делать большую часть аннотаций. Более того, даже если вы мало платите людям, вы все равно заботитесь об их работе, и люди не смогут дать вам хорошую работу, если вы настроите их на неудачу. Плохие процессы аннотации часто вынуждают работников переключать фокус между примером, схемой аннотации и интерфейсом. Это требует активной концентрации и быстро утомляет.

Я работал в веб-программировании до того, как начал работать в области ИИ, поэтому инструменты аннотации и визуализации были первыми частями программного обеспечения ИИ, о которых я начал думать. Меня особенно вдохновили «невидимые» интерфейсы в играх, которые заставляют думать о том, что делать, а не о том, как это делать. Но дело не в геймификации, чтобы сделать задачу «увлекательной», как «игру»: речь идет о том, чтобы сделать интерфейс максимально бесшовным и иммерсивным, чтобы дать им возможность наилучшим образом выполнить задачу. Это позволит создавать более качественные данные и относиться к людям, создающим их, с большим уважением.

Биография: Инес Монтани - соучредитель Explosion. Она главный разработчик spaCy и ведущий разработчик Prodigy.

Дженнифер Прендки

«Не все данные одинаковы»

Если вы заботитесь о своем питании, вы не идете в супермаркет и не выбираете случайным образом продукты с полок. В конечном итоге вы можете получить необходимые питательные вещества, поедая случайные продукты с полок супермаркетов, однако при этом вы будете есть много нездоровой пищи. Мне кажется странным, что в машинном обучении люди по-прежнему думают, что лучше «случайным образом выбрать супермаркет», чем выяснять, что им нужно, и сосредотачивать свои усилия на этом.

Первая система активного обучения, которую я построил, была создана по необходимости. Я создавал системы машинного обучения, чтобы помочь крупному розничному магазину убедиться, что при поиске на веб-сайте найдется правильная комбинация продуктов. Практически в мгновение ока реорганизация компании означала, что мой бюджет на маркировку персонала сократился вдвое, а запасы, которые нам пришлось маркировать, увеличились в 10 раз. Итак, у моей команды по маркировке было только 5% бюджета на каждую позицию, который мы делали раньше.

Я создал свою первую структуру активного обучения, чтобы выяснить, какие 5% являются наиболее важными. Результаты были лучше, чем случайная выборка с большим бюджетом. С тех пор я использовал Active Learning в большинстве своих проектов, потому что не все данные одинаковы!

Биография: Дженнифер Прендки, генеральный директор Alectio, занимается поиском нужных данных для машинного обучения. Ранее она возглавляла группы по анализу данных в таких компаниях, как Atlassian, Figure Eight и Walmart.

Цзя Ли

«Разница между академической и реальной маркировкой данных»

Развернуть машинное обучение в реальном мире намного сложнее, чем для академических исследований, и главное отличие - это данные. Реальные данные беспорядочные и часто труднодоступные из-за институциональных препятствий. Проведение исследований на чистых, неизменных наборах данных - это нормально, но когда вы применяете эти модели в реальном мире, может быть трудно предсказать, как они будут работать.

Когда я помогал создавать ImageNet, нам не нужно было беспокоиться о всех возможных классах изображений, с которыми мы могли бы столкнуться в реальном мире. Мы могли ограничить данные изображениями, которые были подмножеством понятий в иерархии WordNet. В реальном мире у нас нет такой роскоши. Например, мы не можем собрать большое количество медицинских изображений, связанных с редкими заболеваниями. Маркировка таких изображений требует дополнительных знаний в определенной области, что создает еще большие проблемы. Реальные системы нуждаются в тесном сотрудничестве как технологов ИИ, так и экспертов в предметной области, чтобы вдохновлять на исследования, предоставлять данные и анализ, а также разрабатывать алгоритмы для решения проблемы.

Биография: Цзя Ли был генеральным директором и соучредителем Dawnlight, медицинской компании, использующей машинное обучение. Ранее она возглавляла исследовательские подразделения Google, Snap и Yahoo !, а также имеет докторскую степень в Стэнфорде.

Киран Снайдер

«Ваши ранние решения в отношении данных продолжают иметь значение»

Решения, которые вы принимаете на раннем этапе проекта машинного обучения, могут повлиять на продукты, которые вы создаете, на многие годы вперед. Это особенно верно для решений по данным: ваши стратегии кодирования функций, маркировка онтологий и исходные данные будут иметь долгосрочные последствия.

На моей первой работе после аспирантуры я отвечал за создание инфраструктуры, которая позволила программному обеспечению Microsoft работать на десятках разных языков по всему миру. Это включало принятие фундаментальных решений, таких как определение алфавитного порядка символов в языке, чего не существовало для многих языков в то время. Когда цунами 2004 года обрушилось на страны вокруг Индийского океана, это стало непосредственной проблемой для говорящих на сингальском языке людей в Шри-Ланке: не было простого способа поддержать поиск пропавших без вести, потому что сингальский язык еще не имел стандартизированных кодировок. Наши сроки оказания поддержки на сингальском языке варьировались от нескольких месяцев до нескольких дней, чтобы мы могли помочь службе пропавшего без вести, работая с носителями языка над поиском решений как можно быстрее. Кодировки, которые мы выбрали в то время, были приняты Unicode в качестве официальных кодировок для сингальского языка и теперь будут кодировать этот язык навсегда. Вы не всегда будете работать с такими критическими сроками, но вы всегда должны с самого начала учитывать долгосрочное влияние ваших решений о продукте.

Биография: Киран - генеральный директор и соучредитель Textio, широко используемой платформы для расширенного письма. Киран ранее занимал руководящие должности в Microsoft и Amazon и имеет докторскую степень по лингвистике в Университете Пенсильвании.

Лиза Брейден-Хардер

«Предвзятость аннотации - не шутка»

Специалисты по анализу данных обычно недооценивают усилия, необходимые для сбора высококачественных и очень субъективных данных. Согласие людей на релевантные задачи непросто, когда вы пытаетесь аннотировать данные без достоверных достоверных данных, а привлечение людей-аннотаторов успешно только при четко сформулированных целях, руководящих принципах и мерах контроля качества. Это особенно важно при работе с разными языками и культурами.

Однажды у меня был запрос на корейские анекдоты от компании личных помощников из США, которая работает в Корее. Это был не быстрый разговор, чтобы объяснить менеджеру продукта, почему это не сработает, и найти культурно приемлемый контент для их приложения: он раскрыл множество предполагаемых знаний. Даже среди говорящих на корейском аннотаторы, создающие и оценивающие шутки, должны быть из той же демографии, что и предполагаемые клиенты. Это был один из примеров того, почему стратегии по снижению предвзятости затронут каждую часть вашего конвейера данных, от руководящих принципов до стратегий компенсации, нацеленных на наиболее подходящую рабочую силу аннотаций: предвзятость аннотаций - это не шутка!

Биография: Лиза Брейден-Хардер - наставник Института глобальной социальной помощи при университете Санта-Клары. Она была основателем и генеральным директором Butler Hill Group, одной из крупнейших и наиболее успешных аннотационных компаний; а до этого работал программистом в IBM и получил степень по информатике в Purdue и NYU.

Мэтью Хоннибал

«Учитывайте общую стоимость проектов аннотаций»

Это помогает напрямую общаться с людьми, комментирующими ваши данные, как и любой другой сотрудник вашей организации. Неизбежно, что некоторые из ваших инструкций не будут работать на практике, и вам придется тесно сотрудничать с вашими аннотаторами, чтобы улучшить их. Вы также, вероятно, будете продолжать уточнять инструкции и добавлять аннотации еще долгое время после того, как начнете работу. Если вы не потратите время на то, чтобы уточнить инструкции и выбросить неправильно маркированные предметы, то легко получить стороннее решение, которое на бумаге выглядело дешевым, но на практике было дорогим.

В 2009 году я участвовал в совместном проекте Сиднейского университета и крупного австралийского новостного издателя, который требовал распознавания именованных сущностей, связывания именованных сущностей и связывания событий. Хотя в то время ученые все чаще использовали краудсорсинговых работников, вместо этого мы создали небольшую команду аннотаторов, с которыми наняли напрямую. В конечном итоге это обошлось намного дешевле, особенно для более сложных задач «связывание сущностей» и «связывание событий», когда краудсорсинговые работники испытывали трудности, а нашим аннотаторам помогала работа и общение с нами напрямую.

Биография: Мэтью Хоннибал - создатель библиотеки НЛП spaCy и соучредитель Explosion. Он занимается исследованиями НЛП с 2005 года.

Петр Скомороч

«Солнечный свет - лучшее дезинфицирующее средство»

Вам нужно глубоко изучить реальные данные, чтобы точно знать, какие модели строить. В дополнение к высокоуровневым диаграммам и агрегированной статистике я рекомендую специалистам по обработке данных регулярно просматривать большой выбор случайно выбранных детализированных данных, чтобы эти примеры «овладели вами». Подобно тому, как руководители каждую неделю просматривают диаграммы на уровне компании, а сетевые инженеры просматривают статистику из системных журналов, специалисты по данным должны иметь интуитивное представление о своих данных и о том, как они меняются.

Когда я создавал функцию рекомендаций по навыкам в LinkedIn, я создал простой веб-интерфейс со «случайной» кнопкой, которая показывала бы отдельные примеры рекомендаций вместе с соответствующими входными данными модели, чтобы я мог быстро просматривать данные и получать интуитивное представление о типах алгоритмов и стратегии аннотации, которые могут быть наиболее успешными. Это лучший способ убедиться, что вы обнаружили потенциальные проблемы и получили необходимые входные данные высокого качества: вы проливаете свет на свои данные, а солнечный свет - лучшее дезинфицирующее средство.

Биография: Питер Скомороч - бывший генеральный директор SkipFlag (приобретенной WorkDay) и работал главным специалистом по анализу данных в LinkedIn в команде, которая изобрела название «специалист по данным».

Радха Рамасвами Басу

«Человеческое понимание и масштабируемое машинное обучение равны производственному ИИ»

Результат применения ИИ во многом зависит от качества вводимых в него обучающих данных. Небольшое улучшение пользовательского интерфейса, такое как волшебная палочка, может привести к большой эффективности при применении к миллионам точек данных в сочетании с четко определенными процессами контроля качества. Ключевым фактором является наличие высококвалифицированных сотрудников: обучение и специализация повышают качество, а знания опытных сотрудников могут использоваться при проектировании моделей совместно с экспертами в предметной области. Самые лучшие модели создаются в результате конструктивного и постоянного партнерства машинного и человеческого интеллекта.

Недавно мы взялись за проект, который требовал аннотации на уровне пикселей различных анатомических структур в рамках роботизированного обходного трансплантата коронарной артерии или видео АКШ. Наши команды по аннотации не являются экспертами в анатомии или физиологии, поэтому мы внедрили обучающие занятия по клиническим знаниям, чтобы расширить существующие основные навыки в области трехмерного пространственного мышления и точных аннотаций, под руководством архитектора решений, который является обученным хирургом. Результатом для нашего клиента стали успешные данные по обучению и оценке для нашего клиента. В результате мы увидели людей с ограниченными ресурсами в оживленном обсуждении некоторых из наиболее продвинутых способов использования ИИ, поскольку они быстро стали экспертами в одном из самых важных этапов анализа медицинских изображений.

Биография: Радха Басу - основатель и генеральный директор iMerit. iMerit использует технологии и рабочую силу искусственного интеллекта, на 50% состоящую из женщин и молодежи из малообеспеченных сообществ, для создания специалистов по передовым технологиям для глобальных клиентов. Ранее Радха работала в HP, назначила SupportSoft публичным исполнительным директором и основала «Лабораторию экономных инноваций» в университете Санта-Клары.

Лидерские навыки для машинного обучения

Создание хороших данных требует более широкого набора навыков, чем создание хороших алгоритмов. Многие из навыков, необходимых для создания хороших обучающих данных, также являются хорошими лидерскими качествами, и их примеры демонстрируют эксперты, представленные в моей книге:

Радха - один из самых успешных лидеров Кремниевой долины в любой отрасли, который уже вывел одну компанию на биржу и теперь является основателем и генеральным директором прибыльной ИИ-компании, в которой работают тысячи человек. Мне особенно нравится, как ее анекдот показывает, что сторонние аннотаторы могут стать экспертами в предметной области, повысив свой карьерный потенциал в результате своей работы.

Питер призывает специалистов по обработке данных всегда смотреть на данные, показывая, что даже для руководителей компании важно понимать данные, с которыми вы работаете.

В анекдоте Мэтью подчеркивается, что одна только аннотация не является единственной ценой, которая тратится на создание достоверных данных, что часто упускают из виду люди, использующие только анонимных краудсорсинговых работников, что является обычным явлением в академических кругах, но редко в промышленности.

Лиза подчеркивает, насколько важно рассматривать данные, но полностью понять их будет невозможно в тех случаях, когда у вас нет правильного культурного контекста для их понимания. Это подчеркивает, как хорошее лидерство означает привлечение людей с большими знаниями, чем вы, для решения своих задач.

Анекдот Кирана - еще один прекрасный пример понимания культурного контекста людей, создающих данные, где знание определенного языка было необходимо для поддержки срочных мер реагирования на стихийные бедствия.

Анекдот Цзя о разнице между академическими и реальными данными подчеркивает, что узкий набор навыков, которым большинство людей учатся в академических программах машинного обучения, не применим к реальным ситуациям.

Дженнифер также подчеркивает практическую реальность многих реальных ситуаций: у вас ограниченное время и бюджет, поэтому как выбрать правильные данные, когда вам все еще нужно отправить продукт, который люди будут использовать?

Инес начала свою карьеру с размышлений о хороших пользовательских впечатлениях от веб-интерфейсов, подчеркивая, насколько важен хороший дизайн интерфейса для хороших инструментов аннотации данных, независимо от того, кто аннотирует данные.

Елена подчеркивает еще одну практическую реальность реальных моделей: как оценить успех изменения модели, если вы не можете даже проводить A / B-тесты, не говоря уже о том, чтобы использовать устаревшие данные оценки?

История Даниэлы рассказывает о встрече с сообществом, предоставляющим языковые данные на их собственных условиях, и дает легкомыслие, чтобы напомнить нам не относиться к себе слишком серьезно.

Аянна приводит мой любимый пример того, насколько важно решить, кто может маркировать данные: родитель / опекун ребенка с особыми потребностями, вероятно, является единственным точным и этичным комментатором, который понимает и кодирует эмоции этого ребенка.

Даже в академических кругах, где основное внимание уделяется алгоритмам, исследователи понимают важность данных. Кристофер Д. Мэннинг, директор Стэнфордской лаборатории искусственного интеллекта, делится этим в предисловии к книге:

«Ни для кого не секрет, что получение правильных данных с правильными аннотациями во много раз ценнее, чем использование более продвинутого алгоритма машинного обучения», - не секрет для специалистов, практикующих машинное обучение в отрасли ».

Почетные упоминания

Есть много других людей, которых я знаю, которые квалифицируются как эксперты - основатели компаний, которые работали над обработкой данных в машинном обучении в своей карьере, - но время написания книги и ограниченное количество глав означало, что можно было включить только определенное количество экспертов. Если у вас будет больше времени, дополнительные образцы для подражания могут включать Алена Меделян, Аман Наймат, Фанг Ченг, Хилари Мейсон, Иван Ли, Джон Акред, Марк Сирс и Моника Рогати. На ум приходят еще десятки людей, в том числе люди, которые не соответствуют критериям, которые я использовал для книги, но все еще являются образцами для подражания. Спасибо также Эммануэлю Амейсену за вдохновение пригласить и показать экспертов для моей книги. Идея пришла мне в голову после того, как он сделал это для своей книги Создание приложений на базе машинного обучения.

Следуя ролевым моделям в машинном обучении

Для тех, кто плохо знаком с машинным обучением, может быть сложно определить, какие карьерные пути доступны. Подобно тому, как большинство курсов посвящено алгоритмам, большинство списков лидеров машинного обучения сосредоточены на исследователях алгоритмов. Разнообразие опыта экспертов в этой статье показывает, что существует множество возможных карьерных путей к лидерству в области машинного обучения, с опытом работы в области образования, лингвистики, разработки пользовательского интерфейса, физики и многих других областей за пределами информатики. Поэтому, если вы работаете над обработкой данных в машинном обучении и не имеете опыта работы в области информатики, вам не следует чувствовать себя аутсайдером. Работа над проблемами, связанными с данными в машинном обучении, необходима для успешной карьеры и является обычным путем к лидерству.

Я делюсь всеми историями здесь, чтобы вам не пришлось покупать книгу, чтобы узнать об этих экспертных анекдотах. Если вы все же купите книгу, я пожертвую все доходы автора инициативам по улучшению наборов данных, особенно для языков с ограниченными ресурсами, а также для здравоохранения и реагирования на стихийные бедствия, так что вы внесете свой вклад в добрые дела. Хотя это не входило в критерии отбора, все эксперты работали над приложениями, которые явно положительно повлияли на мир, поэтому было приятно дать этим 11 образцам для подражания хорошему руководству больше признания в моей книге!

Роберт Монарх
@WWRob

21 сентября 2021 г.