1. Потеря семантического сходства при обобщении исходного кода нейронных сетей (arXiv)

Автор : Чиа-И Су, Коллин МакМиллан

Аннотация: В этой статье представлена ​​улучшенная функция потерь для обобщения исходного кода нейронов. Суммирование кода — это задача написания описаний исходного кода на естественном языке. Суммирование нейронного кода относится к автоматизированным методам создания этих описаний с использованием нейронных сетей. Почти все современные подходы используют нейронные сети либо как автономные модели, либо как часть предварительно обученных моделей большого языка, например GPT, Codex, LLaMA. Тем не менее, почти все они также используют функцию потерь категориальной перекрестной энтропии (CCE) для оптимизации сети. Две проблемы с CCE заключаются в том, что 1) он вычисляет потери для предсказания каждого слова по одному, а не оценивает целое предложение, и 2) он требует идеального предсказания, не оставляя места для частичной оценки синонимов. Мы предлагаем и оцениваем функцию потерь, чтобы облегчить эту проблему. По сути, мы предлагаем использовать метрику семантического сходства для расчета потерь по всему предсказанию выходного предложения для каждого обучающего пакета, а не просто для каждого слова. Мы также предлагаем объединить нашу потерю с традиционным CCE для каждого слова, что упрощает процесс обучения по сравнению с базовыми показателями. Мы оцениваем наш подход по нескольким базовым показателям и сообщаем об улучшении в подавляющем большинстве случаев.

2. Коллективные человеческие мнения в семантическом текстовом сходстве (arXiv)

Автор: Юся Ван, Шимин Тао, Нин Се, Хао Ян, Тимоти Болдуин, Карин Верспор.

Аннотация: Несмотря на субъективный характер семантического текстового сходства (STS) и повсеместные разногласия в аннотациях STS, существующие тесты используют усредненные человеческие оценки в качестве золотого стандарта. Усреднение маскирует истинное распределение мнений людей по примерам низкого согласия и не позволяет моделям уловить семантическую неопределенность, которую представляют отдельные рейтинги. В этой работе мы представляем USTS, первый набор данных STS с учетом неопределенности, содержащий около 15 000 пар китайских предложений и 150 000 меток, для изучения коллективных человеческих мнений в STS. Анализ показывает, что ни скаляр, ни один гауссиан не соответствуют набору наблюдаемых суждений адекватно. Мы также показываем, что текущие модели STS не могут отразить дисперсию, вызванную разногласиями между людьми в отдельных случаях, а скорее отражают достоверность прогнозирования по совокупному набору данных.