Обучение нейронной сети

(aka. Living a Successful Life)

Один из способов взглянуть на обучение нейронной сети состоит в том, что вы минимизируете функцию стоимости для повышения точности. Это делается с помощью градиентного спуска, не пытаясь вычислить гессиан. Потому что общее пространство поиска невыпуклое и сложное.

One way to look at trying to live a successful life is that you are minimizing the resources you spend (e.g. time and money) to increase your happiness. This is done through getting better every day, not trying to have a master plan for life. Because the overall experience of life is constantly changing.

Есть некоторые стандартные процедуры, с которыми соглашаются люди. Например, больше слоев и больше единиц, как правило, лучше. Иногда сеть даже имеет 1000 слоев, что может быть излишним, но, безусловно, 100 слоев лучше, чем 10, а 10 слоев лучше, чем 1 — в этом весь смысл глубокого обучения, верно?

There are some standard procedures people agree on. Such as more schooling and more degrees is generally better. Sometimes a person might even have PhD, which might be overkill, but certainly a masters is better than an undergrad degree, and an undergrad degree is better than a high school diploma - that's the whole point of education right?

Но здравый смысл никогда не бывает там, где люди любят сосредотачиваться. Большинству людей нравится настраивать размеры мини-пакетов и тестировать 10 новых функций для улучшения встраивания слов (позиционное кодирование, тематическое моделирование, статистика n-грамм, матричная факторизация и т. д.), хотя реальные преимущества заключаются в сборе и предварительной обработке. данные, а не пытаться построить более причудливую модель — т. е. грязную работу.

But common sense is never where people like to focus. Most people like to go to self-improvement workshops or read 10 ways to hack your productivity, even though the real gains come from putting in the hard work rather than trying to take shortcuts - i.e. the dirty work.

Людям нравится сосредотачиваться на методах оптимизации (Adam, Adagrad, Momentum), но, честно говоря, простой SGD с мини-пакетами отлично работает в большинстве случаев. Это связано с тем, что большая часть работы приходится на время обучения, а не на то, правильно ли вы выбрали оптимизатор.

People like to focus on optimization techniques (Pomodoro, GTD, Kanban), but honestly just setting goals and then doing them works perfectly fine most of the time. This is because the majority of the work comes during the execution of the task, not whether you have a fancy todo-list app.

Какие достижения действительно ценны? Ну, мы видели, что правильная инициализация очень важна. Но «правильный способ» инициализации на самом деле состоит в том, чтобы просто иметь случайные веса, центрированные по среднему значению. Другими словами, вы знаете, что не можете обнулить все, но это не обязательно означает, что вы знаете, с чего начать.

What are some gains that are truly worthwhile? Well, we've seen that choosing the right career that you're passionate about is pretty critical. But the "right way" to start your career is really to just try random activities centered around your interests. In other words, you know you can't just sit on the couch all day, but that doesn't necessarily mean you know where to start either.

Один из способов начать хорошую инициализацию — предварительное обучение. Эта альтернативная задача не является вашей конечной целью, но она указывает вам правильное направление. Что касается темы инициализации, мы не можем забыть о преимуществах пакетной нормы при запуске каждого слоя наилучшим образом. Вы можете начать с VGG-net, если вы действительно хотите, но этот толчок от трансферного обучения не заведет вас так далеко. В конце концов, ваша модель должна научиться чему-то сама. Наконец, давайте не будем забывать об отсеве. Это похоже на создание ансамбля из нескольких сетей и получение наилучших результатов от каждой задействованной сети.

One way to make sure you are starting the right career is through internships. This alternate task isn't your final goal, but it points you in the right direction. And on the topic of initialization, we can't forget the benefits of a good night's sleep to help starting each day the best way possible. You can drink all the coffee you want, but that jolt of caffeine will only take you so far. Eventually, you need to do just grind through some long nights yourself. Finally, let's not forget about learning from other's mistakes and mentors. It's like building an ensemble of multiple lives and getting the best experiences of every person involved.

Однако, даже со всеми этими советами и рекомендациями, иногда вам просто нужно перезапустить весь тренировочный процесс с новой моделью.

Even with all these tips and tricks though, sometimes you just need to restart the whole growth process with a new career.

Надеюсь, вы достаточно хорошо поняли свою ситуацию, чтобы не требовать такого радикального изменения, как переход от CNN к LSTM, но, возможно, вам нужно сделать более тонкое изменение от 3-слойного би-LSTM с вводом символов в 2-слойный ГРУ с морфемными входами.

Однако давайте будем честными, даже более «тонкие» изменения действительно сложны и часто требуют совершенно нового набора гиперпараметров, так что это означает совершенно новый процесс поиска по сетке. Это не говоря уже о том, что переобучение само по себе занимает много времени, даже если у вас волшебным образом оказались все нужные параметры с самого начала.

Hopefully, you understood your situation well enough to not require such a drastic change as going from a being a doctor to being an engineer, but maybe you need to make a more subtle change from a web developer focused on e-commerce into a systems engineer focused on healthcare.

Let's be honest though, even the more "subtle" change is really difficult, and often requires a completely new set of industry connections, so that means a completely new networking period to meet people. This is not to mention that building credibility in a new field itself takes a long time, even if you happened to magically have all the right skills for the job from the start.

Так что же происходит? Большинство людей просто выбирают стандартную готовую модель и начинают тренироваться. И если точность их тестов низкая, они жалуются на медленный процессор (например, если бы я был достаточно богат, чтобы позволить себе GPU) или пытаются перенаправить внимание людей на их удивительную точность проверки (или даже точность их обучения, если они в отчаянии). ). Таким образом, большинство результатов оказываются очень средними.

Но у вас уже есть конференция NIP, и скоро наступит крайний срок подачи статьи. Кроме того, вы только что получили этот новый исследовательский грант, и комитет скоро ожидает некоторых результатов, так что сейчас не время раскачивать лодку.

So what happens? Most people just pick a safe career and start getting promoted. And if their success is poor, they complain about their unreasonable boss (eg. if only I were rich enough to quit immediately so I could look for a new job) or try to redirect people's attention to their amazing college years (or even the glory days of high school if they're desperate). Thus most lives end up being very average.

But you already have a mortgage to pay and that deadline for figuring out your health insurance is coming soon. Plus your wife is 8-months pregnant, and the baby is expected to come out any day now, so right now isn't really the time to rock the boat.

Начинать с самого низа снова слишком болезненно и отнимает много времени. Модель, которая у меня есть сейчас, не так уж ужасна — моей текущей оценке недоумения, безусловно, нечего стыдиться. Нет смысла пытаться конкурировать с Джеффом Дином, этот парень знает все.

Starting from the bottom again is just way too painful and time consuming. The career path I have now isn't horrible - my current salary is certainly nothing to be ashamed of. There's no point in trying to compete with Jeff Dean, that guy knows everything.

Итак, стоп. Здесь вы должны спросить себя: «Вы действительно довольны тем, где вы находитесь?» Конечно, не каждый может получить современные результаты, но действительно ли вы собрали все данные, которые могли, прежде чем сдаться? Неужели уже поздно начинать с новой модели? Возможно, чтобы сделать это правильно, нужно не просто попытаться превзойти текущие ориентиры на 1,2%. Возможно, вам нужно перестать сравнивать себя с чужими результатами на ArXiv и просто спросить себя, что действительно важно.

So, stop. This is where you have to ask yourself "Are you really satisfied with where you are?" Sure, not everyone can get the perfect job, but have you actually tried learning everything you could before giving up? Is it really too late to start with a new career? Maybe getting this done right isn't about just trying to just beat your friend's stock options package by 1.2%. Maybe you need to stop comparing yourself to everyone else's lives on Facebook and just ask yourself what really matters.

Потому что ты знаешь, что можешь лучше. Потому что ты знаешь, что предназначен для чего-то большего.

Because you know you can do better. Because you know you were meant for something more.

Первоначально опубликовано на сайте feature.engineering 22 октября 2016 г.

Обучение нейронной сети

Вопросы по теме