Блог №1: Все идеи.

Вы! Добро пожаловать в нашу коллекцию мыслей, проблем и обновлений, поскольку мы начинаем наше завершающее путешествие по НЛП.

Итак, кто мы?

Мы GatesNLP, следующая важная вещь в НЛП (ха!) - если вы еще не поняли шутку, обратите внимание, что Билл и Мелинда Гейтс официально не спонсируются нами, просто вдохновлены ими :) В нашу команду входят 3 ученика Allen School - Брайан Ханнер, Митали Палекар и Суоджит Мохапатра.

Ниже приведены некоторые идеи, которые мы рассматриваем:

Идея 1. Анализ дрейфа модели, чтобы понять, что модели действительно изучают

Современные модели становятся чрезвычайно сложными и трудными для интуитивного понимания, особенно с появлением нейронных сетей. Таким образом, в этом проекте мы хотим лучше понять, что модели действительно изучают.

Для этого мы планируем сосредоточиться на задаче реферирования. Сначала мы планируем резюмировать отрывки, используя несколько различных современных моделей, в частности экстрактивные и абстрактные методы реферирования (позволяющие нам создавать резюме, в которых подчеркиваются различные аспекты, но все они предположительно хороши). Затем мы планируем извлечь информацию, которая закодирована в различных подготовленных резюме. После этого мы продолжаем переобучать модели на обобщенных текстах, чтобы увидеть, как выглядит резюме для различных современных моделей. Это показано на диаграмме ниже.

По мере того, как эти модели продолжают обучаться, мы лучше понимаем, какой тип информации кодируют различные модели реферирования. Как только мы это сделаем, мы затем попытаемся разработать метрику для перевода того, как информация, закодированная в сводках, преобразуется в информацию о том, какие модели действительно изучают, какая информация оценивается при разработке и как проявляется дрейф.

После того, как мы закончим эту базовую технику, мы также планируем распространить эту проблему на использование разных наборов данных / отрывков, а затем посмотреть, как разные отрывки влияют на тип сводок и информации, которая кодируется в сводках. Это позволит нам проанализировать похожие проблемы, но с несколько иной точки зрения.

Для достижения наших сложных целей мы надеемся расширить этот метод анализа на различные проблемы НЛП, такие как ответы на вопросы, машинный перевод и т. Д. Кроме того, мы думаем, что одной из наиболее сложных областей с этим типом проблем является разработка метрики для перевода информации. кодируются для понимания того, что модели действительно изучают. Мы считаем, что оттачивание этой метрики и дальнейшее ее развитие за пределы его базового состояния также может представлять собой непростую задачу.

Идея 2. Обобщение учебников, чтобы выделить наиболее важные моменты

Для второго проекта мы стремимся создать краткое резюме на основе содержания учебника, оцененное путем сравнения с резюме «золотого стандарта». Крайне важно найти надежные данные для этого золотого стандарта. Также необходимо определить, что значит быть хорошим резюме. Нам также нужно определиться со списком или текстовым резюме? Он может быть разным в зависимости от типа учебника. Например, если это книга самопомощи, можно составить список ключевых идей. Но если это рассказ, это может быть короткое эссе.

Возможные показатели оценки

Попросите людей оценить результат по шкале от 1 до 10, чтобы проверить, насколько он хорош. Больший вес для людей с опытом работы в гуманитарных науках.
BLEU
МЕТЕОР
ХЛЕПОР
РУЖ
MEWR

Единственная сложная цель, о которой я могу думать, - это поддержка сводок на основе запросов, которые вводят конкретный пользовательский запрос, а также учебник. Например, краткое изложение социальной структуры во времена Гамлета. Его также можно использовать для контроля краткости резюме.

Примерный план проекта:

Мы сохранили буферное время, потому что проекты занимают больше времени, чем первоначально предполагалось.

Данные [2–4 недели]: нам нужно найти наиболее релевантные данные для задачи. Желательно, чтобы нам понадобилось более 10 учебников, чтобы составить хорошее резюме. Нам нужно будет начать с того, чтобы хорошо понять, что содержат наши данные, а затем проанализировать их соответствующим образом на моделях, которые мы выберем.

Модель [3–4 недели]: Нам нужно найти лучшие модели, подходящие для данной задачи. Модель идеально проясняет поверхностные / тривиальные детали. Это даст хорошее представление о том, как должно выглядеть резюме. Нам нужно изучить лучший план действий для этой задачи, а также выяснить, сколько вычислительных ресурсов нам потребуется.

Веб-интерфейс [необязательно]: чтобы проект принимал запросы и выводил сводки. Веб-интерфейс будет простым, и его реализация займет не более трех дней.

Идея 3. Запросы на естественном языке для поиска людей, которые могут попросить о помощи

Наша последняя идея проекта - это система, которая моделирует людей на основе того, о чем они написали, а затем позволяет пользователю обратиться за помощью с вопросом на естественном языке и получить указание на наиболее полезные ресурсы. Это похоже на другие работы, а именно на GrapAL, который позволяет исследовательскому сообществу запрашивать публикации в семантическом научном литературном графе через SQL-подобный предметно-ориентированный язык. Целью нашей работы было бы объединить всю работу автора в одно представление, чтобы дать конкретные предложения экспертов вместо предложений по публикации. Суть нашей архитектуры заключалась бы во введении автора и некоторой части или формы текста, который он / она написал, и, наряду с вопросом пользователей, выводил бы релевантность для каждого ресурса или человека, которого мы рассматриваем в нашей модели. Затем мы выберем элементы, наиболее актуальные для читателя. Поскольку для этой проблемы не существует помеченного набора данных, мы, вероятно, научимся использовать прокси для релевантности человека: возможно, сколько цитат он получил за последние годы.

Сначала мы бы начали с конкретной области знаний, такой как обработка естественного языка, поскольку большая часть статей имеет открытый исходный код, а затем перейдем к другим областям, если позволит время. Сложные цели будут включать переработку нашей модели и добавление дополнительных данных для обработки широкого круга тем. Также было бы полезно разрешить пользователям выполнять поиск только по их естественному языку вместо структурированного запроса. Уточнение наших методов оценки также будет важно, потому что помеченный набор наиболее полезных для различных тем недоступен для нас и является в некоторой степени субъективным.

Вот ссылка на Github: https://github.com/mitalipalekar/GatesNLP

На этом пока все, ребята! Увидимся через несколько дней!