Проект Цзяляна (Джастина) Рена, Франческо Страфорелло, Ю Тянь Шена и Сию Ли

Введение

С развитием ИИ увеличиваются шансы на создание более крупных, лучших и интеллектуальных систем. Благодаря этому мир ищет новые способы решения социальных проблем. В этом сообщении блога мы поделимся проектом, над которым работали последние шесть недель. Это проект, который объединяет миры права и науки о данных. Эти две области могут показаться очень разными, но в сочетании они обладают огромным потенциалом для революционного изменения наших социальных структур. Этот проект вращается вокруг важной проблемы в Онтарио, а именно споров об аренде жилья. В частности, наш проект посвящен прогнозированию результатов дел о выселении в Совете по аренде жилых помещений Онтарио (RTB).

Совет по аренде жилья ежегодно рассматривает тысячи дел, и решения, принимаемые судьями, безусловно, важны для вовлеченных сторон. Эти процессы часто очень сложны и утомительны, что приводит нас к вопросу — «Можем ли мы предсказать, почему и как судьи разрешают или отклоняют приказы о выселении?». Ответ на этот вопрос очень важен не только для вовлеченных сторон, рассматривающих вопрос о возбуждении иска, но и для практикующих юристов и ученых, стремящихся понять мотивы этих решений.

Чтобы попытаться решить эту проблему, наш проект использует подход, основанный на данных. Он использует возможности машинного обучения для анализа более 44 000 случаев, стремясь найти факторы, которые больше всего влияют на эти важные решения. Наша конечная цель — обеспечить прозрачность и дать людям возможность принимать обоснованные решения об аренде жилья.

Важность проекта

Итак, почему вы должны заботиться об этом проекте? Ну, есть много людей, которые являются арендаторами или арендодателями. Даже если это не так, просто представьте на секунду. Представьте, что вы арендатор, не обязательно в Онтарио. Вы столкнулись с некоторыми финансовыми проблемами, и теперь вам грозит выселение. Если говорить об очевидном, то это стрессовая ситуация. Вы обдумываете, бороться ли с этим в Совете по аренде жилья (RTB), но не уверены в результате. Процесс очень запутанный, и вы не уверены, стоит ли он эмоциональных и финансовых потерь.

Теперь давайте посмотрим на другую сторону. Предположим, вы домовладелец. Вы зависите от своего дохода от аренды, чтобы оплачивать свои счета, но ваш арендатор не платил арендную плату в течение нескольких месяцев. Вы рассматриваете возможность выселения, но не уверены, что RTB поддержит вас. Риск потратить время, деньги и энергию на судебный процесс, который вы можете проиграть, может быть пугающим.

Эти сценарии не редкость. Это реальность многих людей, не только в Онтарио. Будь то арендатор, опасающийся выселения, или арендодатель, стремящийся к выселению, неразбериха в текущем процессе создает неопределенность для обеих сторон, делая ситуацию еще более напряженной.

Это не все. Практикующие юристы и ученые также не совсем понимают этот процесс. Без четкого понимания того, почему и как судьи принимают свои решения, способность практикующих юристов и ученых консультировать клиентов, формировать политику или проводить содержательные исследования замедляется.

Вот тут-то и появляется наш проект. Анализируя более 44 000 случаев, мы стремимся получить представление о факторах, влияющих на эти решения. Это не просто крутой проект, это то, что может повлиять на тысячи жизней, сделав процесс разрешения споров по аренде жилья более прозрачным.

Более того, наш проект демонстрирует возможность перекрестка между сферами права и науки о данных. Идея о том, что мы можем использовать алгоритмы и машинное обучение для более глубокого понимания юридических решений, открывает новые возможности. Он переосмысливает то, как мы получаем доступ к правосудию и понимаем его, делая его более предсказуемым и, надеюсь, более справедливым.

Итак, являетесь ли вы арендатором, арендодателем, практикующим юристом, академиком или просто любителем технологий, в этом проекте есть что-то для вас.

Пересечение права и информатики

Связь между правом и информатикой может быть неясна на первый взгляд. В конце концов, один занимается регламентами, кейсами и человеческими спорами, а другой — алгоритмами, кодами и бинарной логикой. Однако эти две области могут пересекаться удивительным образом. Наш проект — прекрасный пример такого неожиданного, но полезного сотрудничества.

Юридический мир полон данных. Например, нормативные акты, прецеденты и описания дел — вот некоторые из доступных данных. А там, где есть данные, есть возможность для науки о данных. В этом случае мы используем науку о данных, в частности НЛП и машинное обучение, чтобы выявить закономерности и тенденции в большом количестве случаев аренды жилья в Онтарио. По сути, мы учим машину читать и понимать эти юридические документы и учиться на них предсказывать будущие решения.

В следующем разделе я углублюсь в то, как мы претворяем это слияние в жизнь, изучая наш подход к проекту и инструменты, которые мы использовали.

Подход к этому проекту

Давайте подробнее рассмотрим, как мы на самом деле подошли к этому проекту.

Шаг 1. Очистка данных (исследовательский анализ данных)

Наше путешествие начинается с, пожалуй, самого важного шага — очистки наших данных. Имея в нашем распоряжении около 700 аннотированных данных и около 44 000 неаннотированных случаев, мы с самого начала были заняты. Что касается аннотированных данных, мы столкнулись с отсутствующими значениями, выбросами и неправильно введенными значениями. Однако с неаннотированными данными все было не так просто. Поскольку мы не можем вручную аннотировать такой объем данных, нам пришлось найти способ автоматизировать этот процесс.

Затем мы более внимательно изучили наши данные, обнаружив распределение признаков и поиск потенциальных корреляций. Для этого мы использовали сочетание описательной статистики и визуализации.

Шаг 2 — Разработка функций

Как только наши данные были очищены и мы узнали их немного лучше, пришло время перейти к следующему этапу нашего проекта — разработке функций. Именно здесь мы решили, какие аспекты данных или признаков включить в наши модели. Мы также думали о том, сможем ли мы создать какие-то новые функции из тех, что у нас уже есть.

Мы относились к разным типам функций по-разному. Для категориальных функций, которые попадают в отдельные категории, мы использовали процесс, называемый горячим кодированием. Для числовых признаков мы применили масштабирование, чтобы стандартизировать их диапазон. Мы даже рассматривали возможность создания функций взаимодействия на основе корреляций, обнаруженных нами в ходе исследовательского анализа.

Первоначально этот процесс выполнялся только с примерно 700 фрагментами данных. Это сделано для того, чтобы, когда мы пытаемся автоматизировать процесс аннотирования, мы делаем это только для тех функций, которые нам нужны, тем самым экономя много времени.

Шаг 3. Создание моделей

Наконец, когда наши данные были подготовлены и наши функции выбраны, мы были готовы позволить нашим моделям обучаться на данных. Мы попробовали несколько моделей — логистическую регрессию, случайный лес и SVM — чтобы увидеть, какая из них лучше всего предсказывает решения судей. Опробовав каждую из них, мы объединили их все в модель-ансамбль — своего рода супермодель, которая берет лучшие части каждой отдельной модели.

И это наш путь от беспорядочного набора данных к набору прогностических моделей. Это не всегда было просто, и мы определенно многому научились на этом пути.

Проблемы и способы их решения

Несмотря на кажущуюся простоту проекта, мы столкнулись с рядом проблем, которые немного замедлили нашу работу. Тем не менее, каждый из них был использован для улучшения нашего понимания проекта.

Нашей первоначальной неудачей было отсутствие аннотированных данных. У нас было только около 700 аннотированных случаев из 44 000. Чтобы попытаться решить эту проблему, мы попытались автоматизировать процесс аннотирования. Однако из-за некоторых ограничений по времени мы не продвинулись в этом очень далеко. Тем не менее, мы надеемся, что это будет в центре внимания в ближайшем будущем.

Далее нам пришлось иметь дело с многочисленными пропущенными значениями в наших данных. Чтобы решить эту проблему, мы заменили отсутствующие значения медианой существующих значений. Это позволяет этой конкретной точке данных быть достоверной, а также не иметь слишком большого вклада заполненного значения в общее решение.

Также было много несоответствий в аннотированных данных, которые у нас были. Для решения этой проблемы требовался практический подход. Мы просмотрели данные, тщательно рассмотрели несоответствия и исправили их. Это отнимало много времени, но было необходимо, чтобы наши модели учились на согласованных высококачественных данных.

Нам также приходилось иметь дело с дубликатами в наших данных. Наличие дубликатов в наших данных может исказить процесс принятия решений нашей моделью, что приведет к чрезмерному представлению определенных случаев. Здесь исправление было относительно простым — мы удалили повторяющиеся значения, чтобы обеспечить справедливое распределение данных.

Наконец, мы столкнулись со сложностью работы со слишком большим количеством ярлыков. Чтобы решить эту проблему, мы объединили похожие метки вместе, упростив процесс прогнозирования для наших моделей.

Каждое из них заставляло нас исследовать новые решения и расширять набор навыков, поскольку мы привыкли работать с большим количеством чистых данных в нашем классе.

Результаты

После обработки всех данных и экспериментов с различными моделями машинного обучения мы смогли разработать ансамблевую модель, которая могла бы точно предсказывать результаты споров об аренде жилья в Онтарио с точностью почти 80%.

Наше исследование набора данных привело нас к выявлению факторов, влияющих на эти решения, что создало основу для нашей прогностической модели. Уровень успеха модели означает, что она уловила некоторые скрытые закономерности в решениях судей, что дает нам интересный инструмент для лучшего понимания процесса принятия решений RTB.

Будущие направления

Хотя мы добились хорошего прогресса в нашем проекте, на этом он не заканчивается. Достигнутый нами прогресс — это только начало.

Нашей основной задачей является завершение разработки удобного веб-приложения. Цель состоит в том, чтобы предоставить платформу, на которой люди могут вводить характеристики своего дела и получать прогноз возможных результатов в RTB. Чтобы повысить прозрачность, мы также сосредоточились на улучшении интерпретируемости нашей модели, чтобы пользователи могли понять факторы, влияющие на прогнозируемые результаты.

Нашей общей целью этого проекта по-прежнему является улучшение доступа к правосудию в Онтарио. Глядя в будущее, мы видим много возможностей для дополнительных исследований и улучшений. Особый интерес представляет разработка автоматизированного процесса аннотирования. Реализация такого процесса привела бы к большему количеству аннотированных данных, что, по нашему прогнозу, могло бы улучшить производительность нашей модели.

Заключение

Подводя итог, можно сказать, что за последние шесть недель мы не только создали модель, которая потенциально может изменить способ рассмотрения споров об аренде жилья в Онтарио, но и выросли как в личном, так и в профессиональном плане.

Мы, работая над этим проектом, получили огромный опыт. Мы столкнулись с проблемами лицом к лицу и стали сильнее благодаря недавно приобретенным навыкам очистки данных, обработки несбалансированных наборов данных и общения с заинтересованными сторонами. Однако, если бы мы могли перемотать время назад и начать заново, у нас определенно были бы идеи, которыми можно было бы поделиться. Мы бы подчеркнули важность очистки данных как приоритета номер один, чтобы сэкономить время и усилия на более поздних этапах. Мы также подчеркиваем необходимость придерживаться одной идеи, поскольку проект длится всего шесть недель.

Мы надеемся, что вам понравилось читать о нашем проекте, и вы видите потенциал подобных проектов, которые сочетают в себе совершенно другую область с областью науки о данных.