Взгляд на кросс-функциональный подход к инновациям продукта (на конкретном примере языковой оценки)

Это краткое изложение выступления, которое мы с Энтони Николсом сделали на Конференции по электронной оценке 2023 в Лондоне, где мы поделились тем, как мы помогли группе инноваций в Британском совете создать будущее (английский) преподавание, обучение и оценка. Хотя этот пост может показаться сосредоточенным на языковой оценке, мы считаем, что концепции и идеи применимы к инновационным инициативам в целом.

Почему новый подход

В сегодняшнем быстро меняющемся мире инновации, включая ИИ, машинное обучение и метавселенную, меняют нашу жизнь. Например, язык и технология стали неотделимы друг от друга, влияя на коммуникацию и человеческое взаимодействие.

Недавние инновации открывают большие возможности (и проблемы) в том, как мы создаем среду обучения и оценки, опыт и возможности.

Кроме того, принимающие организации требуют более быстрых результатов, более рентабельных оценок и сосредоточения внимания на профессионализме и использовании в контексте (а не на отдельных навыках).

Все это требует изменений в том, как мы предоставляем языковые (и другие) решения для оценки, подхода, который позволяет нам адаптироваться к изменениям, использовать возможности и справляться с трудностями, сохраняя при этом качество оценки.

Традиционный (водопадный подход) не работает

Традиционный каскадный подход с его последовательными этапами и медленным темпом препятствует успешному выпуску продукта и инновациям. Но он не только не в состоянии приспособиться к быстрому прогрессу, что еще хуже, он предполагает, что вы можете раздельно управлять дизайном тестирования, пользовательским опытом доставки теста и технологией доставки. Не так! Технологии стали неотъемлемой частью коммуникационных конструкций (подумайте о том, как удаленные звонки или боты формируют то, как мы общаемся).

Если мы игнорируем технологии, мы упускаем возможности (например, модели машинного обучения для автоскоринга). Если мы используем технологию «плохо», мы можем либо поставить под угрозу наш тест (например, используя LLM, который недостаточно ограничен), либо упустить из виду риски и проблемы (например, предвзятость в моделях ML, используемых для оценки).

Взяв все это вместе, нам нужен новый подход, который включает в себя гибкость, быстрое реагирование на изменения и создание ценности на протяжении всего процесса.

Ловкость как ответ

Гибкость, как образ мышления и культура, является решением. Он способствует совместному творчеству, адаптивности, непрерывному обучению и надежному предоставлению ценности благодаря высокому уровню межфункционального сотрудничества, коммуникации и ориентации на пользователя, а также итеративному проектированию и доставке.

Гибкость — это способность совместно создавать изменения и реагировать на них; двигаться быстро; учиться и повторять, надежно обеспечивая ценность в темпе.

Пример и 8 факторов успеха

Стройте вокруг сильного видения

Мы начали свой путь с построения видения будущего преподавания, обучения и оценивания. Одна из ключевых гипотез заключается в том, что ML/AI/аватары сильно повлияют на опыт TLA.

Разрушьте разрозненность: создайте кросс-функциональную команду

Но мы не делали это разрозненно, как это часто бывает, вместо этого мы организовали небольшую кросс-функциональную команду (включая экспертов по оценке из Группы исследований по оценке Британского совета, опытных дизайнеров, технических специалистов, коммерческих экспертов и других). Чемпион нашего проекта, эксперт по оценке Prof. Барри О’Салливан.

Создайте синергию и качество через: сотрудничество, перекрестное опыление

Задача, которую мы поставили перед командой, состояла в том, чтобы совместно исследовать и оспаривать видение, а также вдохновлять его, а затем постепенно реализовывать.

Создавайте среду для экспериментов: делайте тесты, учитесь, развивайтесь и повторяйте

Такой подход позволил нам иметь 3 месяца на проверку концепции, 6 месяцев на ознакомительную версию продукта перед реальными пользователями и 9 месяцев на удобную дорожную карту того, как перейти к MVP.

Кроме того, пока мы движемся к видению, мы сосредоточены на обеспечении ценности для бизнеса на этом пути. Будь то в форме идей или в качестве строительного блока, в конечном итоге способствующего видению, но который в промежутке времени может принести пользу сам по себе, например. возможность набрать очки, возможность управлять мошенничеством/обманом); тем самым снижая риски.

Такой подход к работе позволяет нам бросать вызов и внедрять инновации во всех областях: сам дизайн теста, взаимодействие с тестами и доставка тестов.

Потому что, помните, LLM (такие как ChatGPT), которые мы активно используем, на самом деле не существовало, когда мы начинали. Но как только они стали доступны, они сильно изменили нашу точку зрения и подход: они обеспечивают до сих пор невозможные уровни взаимодействия, и в то же время они также создают проблемы (предвзятость, задержку). Чтобы использовать эти возможности, а также преодолевать трудности, необходимо идти на компромиссы со всех сторон.

При традиционном подходе мы бы либо пропустили, либо оказались во власти самых последних новаторских инноваций в VR, AR и ML. Вместо этого, с таким подходом непрерывного межфункционального сотрудничества и итеративной доставки мы можем приспособиться к этому изменению с вниманием, уверенностью и (относительно) легко.

Оптимизируйте свою работу

Сказать, что вы сотрудничаете, и быть в состоянии делать это хорошо — две разные вещи. Вашим командам нужно (время и пространство), чтобы сформировать штормовую норму. В некоторых случаях вам также придется вводить новшества в свои методы работы: например, глядя на артефакты, которые вы создаете.

В качестве примера: эксперты по оценке теперь представляют очень ранние проекты спецификаций задач остальной команде для просмотра/ввода и отзывов (чтобы идеи и ограничения можно было использовать в следующей итерации). Более того, мы скорректировали создаваемые артефакты, так что теперь спецификации задач включают блок-схемы в стиле UML, а специалисты по оценке просматривают подсказки GPT в формате JSON.

Небольшое примечание: не все так просто: одна проблема, которую мы обнаружили, но до сих пор не решили полностью, — это общий язык. Иногда мы обнаруживаем, что говорим о разных вещах, когда используем такие слова, как конструкция, надежность, архитектура или доставка. Что может означать очень разные вещи в разных областях.

Если вы хотите лучше понять, как создавать высокопроизводительные agile-команды в крупных организациях, взгляните на этот доклад, который мы с Энтони сделали в прошлом году на NDC Oslo:

Принимайте решение на основе данных

Теперь, хотя мы по-прежнему проводим ручную модерируемую строго контролируемую проверку, возможность развертывания ранней версии как части одного из наших существующих продуктов (в соответствии с передовой практикой мы четко позиционировали это как возможность исследовательской практики, не имеет «высоких» или даже тест с «низкими ставками») позволил нам очень рано получить большие объемы данных для разработки тестов, пользовательского опыта и технической проверки. Эти знания теперь используются в следующих итерациях нашего продукта.

Еще одна важная гипотеза нашей инициативы заключается в том, что большие наборы данных приведут к большей уверенности в достоверности, особенно когда мы говорим о трудно уловимых предубеждениях. (И этот подход позволяет нам легче получать эти большие наборы данных).

Управляйте ожиданиями за счет прозрачности

Одна из ключевых проблем, с которыми мы регулярно сталкиваемся, заключается в том, что при таком способе работы мы обеспечиваем достоверность, надежность и сопоставимость. Один «ингредиент» — непрерывное тестирование и данные, о которых я упоминал выше, другой — прозрачность:

Что все это также позволяет нам делать, так это управлять ожиданиями наших внутренних заинтересованных сторон в отношении того, когда это станет доступным и на каком уровне точности, а также наших кандидатов и пользователей с точки зрения «доли» и достоверности. И это ключевой момент: если вы общаетесь прозрачно, вы можете легко выпустить что-то, пока оно еще находится в стадии разработки.

(Продукт с низкими ставками для первоначального MVP, продукт, предназначенный для определенного рынка (но не для всех) для коммерческого запуска).

Tl;Dr — Что забрать…

Чтобы адаптироваться к меняющемуся миру, языковая оценка должна — и может! - принять ловкость.

В частности, мы должны создать культуру (и процесс) кросс-функционального, непрерывного сотрудничества (с первого дня), где лидерство между различными дисциплинами постоянно меняется (в зависимости от ситуации), а различные дисциплины подпитывают друг друга в симбиотических отношениях ( вместо того, чтобы работать изолированно, как мы обычно делаем), таким образом, создавая опыт тестирования (продукты), которые используют лучшее из тестирования и технологий, могут быть доставлены в темпе, оставаясь при этом действительными.

Если это вызывает отклик, вы владеете, разрабатываете или сдаете экзамены по языку или другим областям, вы работаете с такими технологиями, как ASR, TTS, дистанционное прокторинг, языковые или другие модели, если вы хотите пообщаться, обменяться идеями, получить совет или если у вас есть решение, которое, по вашему мнению, может быть нам интересно, почему бы не связаться с нами?