Ответ на ответ Яна Лекуна.

Я ценю интерес и дискуссии вокруг моего поста и ответа Яна на фейсбуке. Позвольте мне ответить на ответ.

[Я решил разместить его здесь, а не на facebook, потому что, хотя у меня есть старая неактивная учетная запись facebook, я предпочитаю не использовать ее. Я уже провожу кучу времени в одной социальной сети и стараюсь не втягиваться в другую. Кроме того, здесь у меня есть лучшие параметры форматирования и лучший контроль над содержимым с течением времени. ]

Янн назвал мои предыдущие разъяснения греблей на спине. Я не думаю, что это правильно. Он уточнил некоторые моменты в исходном сообщении и изменил тон, но само сообщение не изменилось. В любом случае, вот еще несколько пояснений в ответ на ответ Янна:

Я не против использования методов глубокого обучения в языковых задачах.

Я имею в виду давай. Я соавтор многих статей, в которых используется глубокое обучение для изучения языка. Я читаю доклад под названием Делаем что-нибудь с LSTM. Недавно я опубликовал книгу о нейросетевых методах НЛП. Методы глубокого обучения преобразили НЛП, я думаю, что эта часть уже хорошо известна.

Я против, так это стремление «сообщества глубокого обучения» входить в области (включая НЛП), в которых они имеют только очень поверхностное понимание, и делать широкие и необоснованные заявления, не тратя время на то, чтобы немного узнать о проблеме. домен. Речь идет не о том, чтобы «еще не наладить общий язык». Речь идет о том, чтобы не тратить время и усилия на ознакомление с областью, в которой вы работаете. Не обязательно со всей предыдущей работой, но с основными определениями. С основными оценочными метриками. Утверждать «современные результаты в области создания китайской поэзии» (из аннотации статьи) абсурдно. Сказать «мы оцениваем с помощью CFG», даже не глядя на то, что представляет собой CFG, было бы слишком небрежно. Использование вероятности, установленной PCFG, в качестве меры, «фиксирующей грамматичность предложения», просто неправильно (в смысле неправильности, а не аморальности).

[и написав, что матрица 1-горячих закодированных векторов визуально похожа на код Брайля и, следовательно, вдохновляет на то, почему наш подход может работать (Zhang and LeCun, 2015, arxiv версии с 1 по 4 из 5), просто глупо.

]

Когда я говорю, что «вы должны уважать язык», я не говорю, что вы должны уважать предыдущие усилия и методики других (хотя это может хорошо сработать и для вас), но что вы должны обращать внимание на нюансы проблемы, которую вы пытаетесь решить. решать. И, по крайней мере, узнайте достаточно, чтобы ваши оценки были значимыми.

Некоторые основные исследователи глубокого обучения хорошо переключились и вносят очень хороший вклад. Кёнхён Чо, пожалуй, самый известный из них.

Теперь к части arxiv:

Я думаю, что ответ Янна действительно упустил суть этого вопроса.
Я не против быстро разместить статьи в архиве. Я осознаю очевидные преимущества публикации arxiv и быстрых результатов. Но следует признать и его недостатки. В частности, меня беспокоит слияние науки и PR, которое способствует arxiv; эффекты «богатые становятся богатыми» и злоупотребление властью; и некоторые из текущей динамики публикации arxiv в сообществе DL.

Разрешить раннюю публикацию в arxiv. НЕПРАВИЛЬНО искажать и чрезмерно заявлять о том, что вы сделали. Неряшливые документы с широкими заголовками, такими как «Состязательная генерация естественного языка», вредны. Это как раз разница между патентной системой (которая в целом является разумной идеей) и патентным троллингом (что является вредным злоупотреблением).

Нормально заявлять об идее использования softmax вместо одноразовых выходов в WGAN для дискретных последовательностей.
НЕЛЬЗЯ призывать идею применения обучения состязательности к NLG, как это сделано в этой статье.

Аргумент Янна может быть таким: «но люди могут читать газету и видеть, каков был фактический вклад, и со временем это будет исправлено». Поправка с течением времени может быть правильной, но в краткосрочной и среднесрочной перспективе эти чрезмерно востребованные статьи от известных групп по-прежнему очень вредны. Большинство людей не читают статьи всесторонне, а читают только заголовок, иногда аннотацию, а иногда и вступление. А когда документы поступают от устоявшихся групп, люди склонны доверять утверждениям без проверки. «Серьезные исследователи» могут не поддаться на это, но население в целом действительно вводит в заблуждение. И под населением в целом я имею в виду людей, которые не работают активно в этой конкретной области. Сюда входят специалисты-практики, коллеги, абитуриенты, потенциальные рецензенты статей и грантов. За короткое время, прошедшее с момента выхода этой статьи, я уже несколько раз слышал: «о, ты интересуешься генерацией? вы пробовали использовать GAN? Я видел эту недавнюю статью, в которой они получили классные результаты с помощью состязательного обучения для NLG ». Это будет крайне вредно и неприятно для исследователей NLG, которые подают заявки на гранты в следующем году (помните, что многие гранты рассматриваются группой способных, но неспециализированных экспертов), поскольку им придется либо тратить драгоценное пространство и усилия, с этой статьей и с Ху и др. и объяснением, почему они не имеют отношения к делу, или будут отклонены как работающие над этой «уже решенной проблемой», несмотря на то, что ни рассматриваемая статья, ни Ху и др. на самом деле не сделали очень много, и несмотря на то, что что обе газеты имеют ужасные оценки.

Быстрый темп arxiv может иметь очень положительное влияние на поле, но «с большой силой приходит большая ответственность», и мы должны быть осторожны, чтобы не злоупотреблять силой. Мы можем сделать публикацию arxiv еще более мощной, если будем действовать ответственно и продвигаться к более научной культуре публикации, в которой мы ценим и поощряем надлежащую оценку и точное представление результатов, а также препятствуем (и разрабатываем систему наказания!) Популистские нарративы, чрезмерно претензии и преувеличения.

Ответ на ответ Яна Лекуна.

Теперь к части arxiv:

Вопросы по теме