Результаты стипендии OpenAI за последние три месяца , мысли о будущем и мой финальный проект

Обновление сообщения:

Вот последняя версия моего финального проекта с полной реализацией кода.

Не стесняйтесь реализовывать его для своих нужд.

Первоначальное сообщение в блоге

Неделя Burning Man! Большинству моих друзей нравится чистое общение с другими людьми. Честно говоря, я никогда не был в BM, но я знаю, что в нужный момент придут нужные люди, и вселенная решит это за меня.

Я спросил своих коллег из OpenAI, что им нравится в BM - они ответили: «Самое крутое в том, что никого не волнует, чем вы занимаетесь в жизни, какова ваша профессия или ваш социальный статус. Люди видят людей и искренне заботятся друг о друге.

По сути, это наиболее близкое представление о мире просветленных людей, движимых единственной реальной ценностью - безусловной любовью друг к другу. Что ж, пока вселенная решает обстоятельства моей жизни, чтобы я поехал в BM в следующем году, на этой неделе я делюсь с вами некоторыми результатами своей летней работы в рамках стипендиальной программы OpenAI.

Мой опыт как стипендиат OpenAI

Лето пролетело безумно быстро - кажется, 4 июня было только вчера… Так где же я был тогда и где я сейчас? Три месяца имели огромное значение. Я провел большую часть своего времени и сосредоточился в области исследований НЛП. Я начал с множества низкоуровневых реализаций общих алгоритмов, таких как мешок слов, встраивание word2vec, а затем перешел к созданию с нуля моделей RNN и LSTM. Позже в рамках программы я переключил свое внимание на обучение с подкреплением и то, как его можно применить к задачам НЛП.

Свою работу с RL я начал с реализации The Pong Game, предложенной Андреем Карпати. Его кодовая база написана на Python, и с тех пор, как я получил стипендию, я работал с TensorFlow и целенаправленно развивал свои навыки на основе фреймворка, над которым я работал над игрой с использованием TF.

В настоящее время я работаю над проектом «Обучение с подкреплением с учетом языка в среде Gridworld». Агент (в то время как ячейка) достигает целевых ячеек по команде, либо «перейти к зеленому», либо «перейти к красному». Архитектура агента состоит из MLP, который объединяет команду («CMD») и наблюдение («OB»). В каждом эпизоде ​​агент и целевые ячейки появляются в случайных местах, и агент получает исправление состояния и задачи (см. Визуализацию ниже).

Делимся с вами кодом проекта (реализация находится в TensorFlow), чтобы вы могли получить представление о том, чем я сейчас занят.

Загрузка библиотек и определение гиперпараметров:

Определение среды Gridworld:

Определение политики:

Цикл обучения:

Текущая оценка тренировки:

Я продолжу работу над проектом, чтобы улучшить результаты и улучшить языковую подготовку в качестве шага к основательному изучению языка, в котором я хочу продолжить свою исследовательскую работу. Окончательная версия будет доступна в открытом доступе как часть учебной программы стипендиальной программы OpenAI.

Мне действительно понравился рост, который я испытал этим летом. Благодаря программе мне стало удобнее строить модели с нуля, работая с TensorFlow, и я получил более глубокое понимание НЛП и обучения с подкреплением.

В будущем, объединив свой опыт в журналистике и коммуникатора, а также укрепив свои технические навыки в области искусственного интеллекта, у меня действительно хорошие шансы стать отличным помощником в самых удивительных технологиях в мире.