Опыт создания набора данных NLG

Привет, читатель, это будет мой первый блог, поэтому, если вы обнаружите какие-либо проблемы или грамматические ошибки, пожалуйста, не стесняйтесь признать то же самое.

Генерация естественного языка (NLG) — это использование программирования искусственного интеллекта (ИИ) для создания письменных или устных повествований из набора данных. Здесь я буду обсуждать, как я создал набор данных, который использовался для обучения модели чат-бота (для медицинской области). Задача, поставленная перед нами, состояла в том, чтобы создать некоторый входной текст на основе некоторых вопросов, заданных врачом (чат-ботом), а затем на основе созданного входного текста создать наводящий вопрос, который нужно задать пациенту (пользователю чат-бота).

Основная цель заключалась в том, чтобы узнать, положительно или отрицательно отвечает пациент на определенный вопрос, заданный врачом (чат-бот).
Поскольку область медицины очень обширна и состоит из многих медицинских вопросов, в этой статье я буду использовать Пример нарушения сна. Это одна из самых больших проблем, с которыми сталкивается сегодняшнее поколение, и также оказалось довольно сложно создать для нее данные.

Как я уже говорил ранее, у нас есть несколько фиксированных вопросов, которые бот будет задавать, чтобы подтвердить, действительно ли у человека есть какие-то проблемы, связанные со сном, или нет. После этого вопроса нам нужно было сгенерировать входной текст, который будет ответом человека (точно так же, как ответ пациента на вопрос, заданный врачом). И как только мы запишем этот входной текст, нам снова нужно написать целевой текст, который бот снова задаст пациенту (точно так же, как встречный вопрос, основанный на более раннем ответе пациента).

На первый взгляд все это казалось довольно простым, но по мере увеличения количества я начал ощущать нехватку идей и словарного запаса, которые я мог бы использовать для создания ответов и наводящих вопросов. Набор данных, который нам нужно было создать, должен был быть высокого качества, а избыточность должна быть минимальной. Чтобы решить эту конкретную проблему, я подумал погрузиться в сознание пациента и врача, чтобы подумать, как они будут действовать в такой ситуации. Чтобы преодолеть проблему со словарным запасом, я воспользовался помощью синонимов и антонимов и того, как мы можем перефразировать конкретный вопрос. Это очень помогло увеличить мои точки данных без снижения качества созданного набора данных. Ситуации из повседневной жизни очень помогли, когда я начала рассматривать себя как субъекта.

Одно предложение, которое я хотел бы дать читателю, собирающемуся создать любой такой набор данных, состоит в том, чтобы не сидеть в течение долгих часов. Пожалуйста, займитесь созданием данных таким образом, чтобы это не начало влиять на ваше психическое здоровье, потому что со мной произошло то, что, хотя у меня не было никакого нарушения сна, но через день я начал создавать вопросы и ответы, мое тело начало вести себя резко. . Я начал чувствовать недостаток сна, так как мой разум всегда вращался вокруг вопросов и ответов, которые я создал для набора данных Sleep. Возможно, это не относится к другим медицинским проблемам, но поскольку я столкнулся с этой проблемой при создании набора данных Sleep, я упоминаю ее. Держите интервалы короткими, делайте небольшие перерывы, гуглите причины и создавайте положительные и отрицательные наборы данных одновременно в равном количестве. Верьте мне или нет, когда я начал создавать как положительное, так и отрицательное в равном количестве, проблема, с которой я столкнулась со своим сном, была решена. Мозг действует таким образом только в том случае, если вы продолжаете создавать набор данных, который ведет к негативу, поэтому разум застревает там, и поэтому ваше тело будет вести себя таким образом. Но при сохранении равновесия это не должно влиять на человека.
Поскольку работа над проектом строго конфиденциальна, я не могу упоминать то, что я создал, поэтому я решил поделиться своим опытом о трудностях, с которыми я столкнулся, и о том, как я их преодолевал. те.

Спасибо, что читаете так же.

Опыт создания набора данных NLG

Вопросы по теме