Ник Адамс, доктор философии.

Если роботы могут делать сальто назад, а автомобили могут почти сами управлять собой, почему Siri и Alexa не могут поддержать свою часть простого разговора? И почему нет искусственного интеллекта (ИИ), способного читать все наши новости и политические обсуждения для решения наших социальных и экономических проблем? Ответ проще, чем вы думаете. Это о данных.

Как это бывает, человеческие языки создают очень зашумленные данные. Наши неоднозначные слова, метафоры и идиомы создают прекрасную поэзию, но компьютеры были созданы для математических и логических вычислений с однозначными числами и категориями. Роботы и автомобили уже могут ориентироваться в своем физическом окружении, потому что относительно легко запрограммировать программное обеспечение, которое измеряет расстояния до ближайших объектов и вычисляет их траектории, используя краткие законы физики. Язык гораздо более беспорядочный и более чувствителен к более неизвестным контекстуальным факторам. Например, значения слов не всегда исключают друг друга, но иногда они исключают друг друга. Смущенный? Не вполовину меньше, чем компьютер. Программное обеспечение для языкового перевода находится только в зачаточном состоянии.

До сих пор величайшие достижения в области обработки естественного языка (NLP), области компьютерных наук, посвященной обработке человеческих языков, требовали большого участия человека. С помощью подхода, называемого машинным обучением с учителем (ML), исследователи дали компьютерам кнут и пряник, чтобы научить их имитировать поведение человека при выполнении определенных задач. Например, исследователи организовали большие группы обученных лингвистов, чтобы вручную маркировать многие тысячи документов, определяя часть речи каждого слова (грамматические единицы, которые большинство из нас едва выучило в школе). Затем исследователи машинного обучения ставили перед компьютером те же самые задачи, вознаграждая его каждый раз, когда он помечал слово, как это делали лингвисты, и наказывая его каждый раз, когда он совершал ошибку. После многих тысяч итераций компьютер «научился» имитировать человеческое поведение и теперь может идентифицировать и обозначать части речи в заданном предложении.

К сожалению, знание частей речи на самом деле не помогает компьютеру ориентироваться в разговоре или удивить нас риторическими сальто назад. Но подход контролируемого машинного обучения показывает нам процесс создания полезного, интеллектуального ИИ. Единственная проблема заключается в высокой стоимости оплаты труда людей за категоризацию значений такого большого количества текстовых данных. …Но теперь это меняется.

Доступны новые технологии, позволяющие исследователям быстро организовывать большие объемы языковых маркировок через Интернет. Программное обеспечение для онлайн-аннотации под названием TagWorks также поможет исследователям социальных и гуманитарных наук. Хотя они обычно не создают ИИ, они жаждали найти способ применить все свои самые богатые теории к огромным цифровым коллекциям человеческого поведения, таким как Стенограммы Верховного суда, Отчеты Конгресса и архивы оцифрованных новостей и журнальных статей (просто назвать немного).

Экспертные инструменты маркировки, часто называемые CAQDAS (программное обеспечение для автоматизированного качественного анализа данных), были доступны этим исследователям в течение десятилетий, поддерживая их собственные аннотации десятков или нескольких сотен документов одновременно. Но TagWorks позволяет исследователям легко делегировать задачи по маркировке большому количеству интернет-работников (наемных или добровольных), чтобы они могли работать с наборами документов, исчисляемыми тысячами или миллионами. Лучше всего то, что этот подход освобождает исследователей от необходимости обучать множество экспертов и контролировать каждого из них.

С помощью технологии TagWorks исследователи, по сути, загружают свой опыт в сборочную линию интерфейсов задач, которые тщательно направляют интернет-работников. Таким образом, вместо обучения и наблюдения за аннотаторами исследователи позволяют программному обеспечению TagWorks проводить предварительную квалификацию, тестировать, обучать, контролировать и проверять их и их работу. Резко сокращая управленческую нагрузку исследователей и одновременно увеличивая штат сотрудников проекта, TagWorks сокращает продолжительность типичного крупного проекта по аннотации с нескольких лет до месяцев.

До сих пор гигантские проекты по маркировке текста были настолько неосуществимы, что практически невозможны. Но с TagWorks исследователи получают возможность извлекать всю информацию из своих документов и создавать обучающие наборы мирового класса, производящие передовой ИИ. TagWorks уже используется рядом исследователей из национальных и международных университетов и лабораторий. Некоторые маркируют дипломатические телеграммы, представляющие внешнеполитические действия по всему миру. Другие создают детектор дезинформации, который оценивает достоверность новостных статей. Другая команда обучает ИИ, способный сканировать исследовательские статьи, чтобы отследить использование научного программного обеспечения. А другие до сих пор используют TagWorks для создания ИИ, способного предсказывать и предотвращать насилие между полицией и протестующими.

Программное обеспечение TagWorks завоевывает популярность отчасти благодаря продвижению и инвестициям со стороны SAGE Publishing, мирового лидера в области методов социальных наук. Их команда SAGE Ocean стремится усилить положительное влияние социальных наук за счет расширения использования исследователями передового опыта, инструментов и методов. И они присоединяются к TagWorks, чтобы побудить исследователей снова мечтать о большем и браться за полезные задачи, которые уже не являются такими огромными. Чтобы узнать больше и убедиться, что ваш проект аннотации готов для TagWorks, запланируйте бесплатную консультацию здесь или напишите по адресу [email protected].

Ник Адамс – эксперт в области методов социальных наук и обработки естественного языка, а также генеральный директор компании Toughly Inc., предоставляющей TagWorks как услугу. Он имеет докторскую степень по социологии Калифорнийского университета в Беркли и является основателем и главным научным сотрудником Goodly Labs, некоммерческой организации, работающей в сфере социальных технологий и базирующейся в Окленде, Калифорния.