Введение

Куда движется рынок? Будет ли замедление роста или спешка с финансированием? Какие отрасли развиваются или испытывают трудности?

Стартапы, живущие в Сан-Франциско, исчезают и быстро превращаются в разговоры, как это происходит в новостях и на рынке. И, как большинство жителей Bay Area, я переехал сюда, чтобы воплотить в жизнь мечты стать частью нарастающей волны перемен, исходящей из Кремниевой долины. С самого начала моего увлечения стартапами я почувствовал мотивацию лучше разбираться в стартапах и начал с финансирования.

Управляющее резюме

С помощью машинного обучения я могу с относительной уверенностью прогнозировать тенденцию общего рынка венчурного капитала и то, какие сектора являются наиболее многообещающими. Используя данные Crunchbase за 2013 год, я могу спрогнозировать объем финансирования на начало 2014 года. Кроме того, я предсказал, что наиболее многообещающим сектором в то время будет биотехнология, а худшим сектором - социальные услуги. Если учесть текущие собственные данные Crunchbase, я мог бы легко спрогнозировать финансирование на оставшуюся часть 2017 года.

Сбор данных

Crunchbase содержит информацию о стартапах, охватывающую, когда эти компании были профинансированы, кем, в каком секторе и какой опыт у основателей этой компании. Crunchbase была основана в 2007 году и работает за счет вкладов пользователей, которые проверяются перед тем, как быть размещены на веб-сайте. Crunchbase сделала некоторые из своих данных в свободном доступе в формате MySQL, который предоставляет всю их информацию до конца 2013 года. (1) Чтобы получить доступ, необходимо зарегистрироваться в качестве исследователя. Однако нужно зарегистрироваться как предприятие и платить около шести тысяч долларов в год за доступ к своим текущим данным. Таким образом, мой объем исследований будет касаться информации, находящейся в свободном доступе, чтобы собрать идеи прошлого, которые можно было бы легко воспроизвести, если бы были предоставлены самые свежие данные.

Сами данные

Достаточно удобно, я смог легко извлечь и исследовать данные с помощью серии запросов MySQL к одиннадцати файлам. После тщательного изучения всех файлов я использовал несколько объединений для работы с одним набором данных: финансирование. Оказавшись в DataFrame, я реорганизовал структуру, чтобы поместить ее во временной ряд. Следовательно, мои переменные - это данные ежемесячных временных рядов с 2005 по 2013 год.

Мой выбор ограничить объем был основан на наблюдении за этой гистограммой уникального количества инвестиций в год. Важно отметить, что пользователи могут вносить информацию о прошлом и что эта гистограмма целенаправленно сужается, поскольку данные об инвестициях относятся к 1970-м годам.

Оба приведенных выше графика показывают всех инвесторов, у которых есть не менее 50 обязательств. Крупнейшие инвесторы различаются в зависимости от стадии финансирования. Y Combinator возглавляет список по финансированию стадии Seed, а SV Angel возглавляет список для серии A, занимая третье место в стадии Seed.

Выбор модели

Я хотел два представления о состоянии стартапов. Один взгляд, чтобы увидеть, как будет работать рынок стартапов в целом, и второй более пристальный взгляд на уровень сектора.

Общий рынок (ARMA)

Обзор рынка анализирует общий объем финансирования каждый месяц с начала 2005 года до конца 2013 года. Поскольку это простой временной ряд, я подумал, что подойдет модель авторегрессионного скользящего среднего (ARMA). ARMA объединяет две модели, в которых каждое значение регрессирует по своим прошлым значениям и принимает предыдущие условия ошибки в качестве входных данных и прогнозирует следующее значение на основе отклонений от предыдущих прогнозов. Член ошибки - это разница между прогнозируемым значением и фактическим значением. Модель ARMA - стандартный инструмент при анализе данных временных рядов.

График показывает падение финансирования примерно в 2009 году, что имеет смысл в условиях Великой рецессии. Затем финансирование неуклонно увеличивается до конца 2013 года.

Несмотря на то, что у меня есть полное финансирование в месяц, первый шаг к настройке модели ARMA - вызвать стационарность. Теория, лежащая в основе преобразования данных в стационарный временной ряд, состоит в том, чтобы включить внутренне зависимую структуру данных путем проведения разницы с соответствующими временами. Другими словами, финансирование в одно время немного зависит от прошлого года и немного зависит от прошлого месяца. (2)

График выше представляет собой стационарный временной ряд, позволяющий моделировать и прогнозировать будущее финансирование. Среднее значение этого ряда очень близко к нулю и в основном имеет постоянную дисперсию, что является двумя требованиями для стационарности. Два показанных скачка ограничивают уверенность в моих прогнозах, но прогноз все еще возможен, учитывая немного сомнительные данные. Прежде чем обсуждать результаты рынка в целом, давайте сосредоточимся на уровне секторов.

Индивидуальные сектора (LSTM)

Crunchbase имеет 42 предопределенных секторных метки (например, оборудование, путешествия, спорт). Я поместил каждый сектор в отдельный временной ряд с 2005 по 2013 год для согласованности. Я думал, что для этого типа данных хорошо подойдет рекуррентная нейронная сеть (RNN) с длительной краткосрочной памятью (LSTM). LSTM был специально разработан для запоминания информации в течение длительных периодов времени. Простая RNN принимает входные данные и через набор весов (слой) создает выход, а также просматривает эти входные данные, а затем обновляет веса. LSTM работает так же, за исключением того, что уровень имеет четыре взаимосвязанных обновления. Самая важная часть из этих четырех - ворота забывания, где либо хранится, либо выбрасывается информация прошлого. Остальные три взаимодействуют для создания отфильтрованной версии ввода в качестве вывода. (3) Весь этот процесс представляет собой одну эпоху, когда данные обучения обновляют веса в пределах одного цикла итерации.

Финансирование программного обеспечения сократилось после 2009 года, в то время как финансовый сектор значительно увеличился после 2010 года. Биотехнологии за весь этот период увеличились втрое. Одним из огромных преимуществ использования LSTM для всех этих различных секторов является то, что в различиях нет необходимости, поскольку нейронная сеть может изучить лежащий в основе зависимый характер данных.

Результаты

Что касается общего обзора рынка, моя лучшая модель ARMA имела статистику R-квадрат 0,452. Статистика R-квадрат варьируется от 0 до 1 и показывает, насколько дисперсия данных улавливается вашей моделью. Модель ARMA работает с опусканием, но, похоже, не в полной мере учитывает большие всплески в любом направлении. Похоже, что там будет какой-то скачок, но прогноз остается консервативным.

Для представления отдельных секторов моя модель LSTM имела значение R-квадрат 0,604 для данных обучения и 0,382 для данных тестирования. Набор для обучения состоит из 2005–2012 гг., А набор для тестирования - за весь 2013 год. Синяя линия на обоих графиках представляет собой статистику R-квадрат набора для тестирования и значение функции потерь соответственно. Функция потерь должна быть минимизирована, поскольку это измерение отклонений между прогнозируемыми и фактическими значениями. График R-квадрат (r2) показывает, как модель LSTM обучается очень быстро, а затем выравнивается примерно на 400 эпохах с незначительным улучшением. График «потерь» показывает, как сходятся обучающая и тестовая наборы.

Красное перекрестие в виде R-квадрата показывает, где и при каком значении моя модель работала лучше всего. Я мог бы запустить эту модель для большего количества эпох; однако набор для тестирования начинает увеличивать свою дисперсию, сигнализируя о том, что модель начинает чрезмерно соответствовать обучающим данным, поэтому не будет хорошо обобщаться для прогнозирования.

Интерпретация

После 2012 года рынок в целом неуклонно рос, и моя модель предсказывает, что это продолжится и в начале 2014 года. Учитывая данные Crunchbase, сектор стартапов довольно быстро оправился от финансового кризиса 2008 года.

Согласно прогнозам, сотни миллионов долларов потратятся в секторы биотехнологий, чистых технологий, программного обеспечения, предприятий, электронной коммерции, мобильной связи и медицины. Биотехнологии, чистые технологии и медицина особенно интересны, потому что, как было показано, в этот период они демонстрируют наибольший рост. Программное обеспечение, предприятия, электронная коммерция и мобильная связь являются наиболее финансируемыми секторами и наиболее надежными для потока финансирования.

С другой стороны, связи с общественностью, некоммерческий, юридический, местный и государственный секторы являются наименее перспективными, и, по прогнозам, каждый месяц практически не будет финансирования. Эти секторы объединяет то, что они относятся к более широкой категории социальных услуг. Однако означает ли это, что инновации здесь невозможны? Я твердо уверен, что нет, поскольку эти сектора нуждаются в дополнительных инновациях; тем не менее, рентабельность этих секторов, вероятно, будет низкой.

Вывод

В 2012 году рынок сохранил рост при стабильном притоке финансирования. Сектор биотехнологий в это время становился наиболее многообещающим, в то время как социальные услуги не были представлены для инноваций.

Затем я намерен еще больше сфокусироваться на отдельных компаниях и их инвесторах, чтобы лучше понять предпринимательство и измерить, оказывают ли определенные инвесторы существенное влияние на результат. Что наиболее важно, я планирую окунуться в жизнь предпринимателя, когда знание движения рынка имеет большое значение для компании.