Когда мне был 21 год и я участвовал в первой неудачной презентации венчурных капиталистов, то есть между моими выпускными экзаменами, я всегда задавался вопросом, есть ли что-то особенное в компаниях, которым удалось привлечь большие средства от венчурных капиталистов. Мне всегда было интересно, есть ли алгоритм, который помог бы этим врачам предсказать, получит ли компания им выход или нет.

Если создание компании означает восхождение на гору Тамалпаис, то управление компанией более 3 лет, сбор средств и рост до многомиллионной стоимости - это как восхождение на Эверест. В этом восхождении так много всего может пойти не так, и можно только оценить это и даже начать понимать движущиеся части, если они прошли через это путешествие сами. Иногда я задаюсь вопросом, как люксы в магазине венчурных капиталовложений, недавно окончившие бизнес-школу высшего уровня, решают, сможет ли основатель стартапа создать успешный стартап или нет? Я нахожу тесную взаимосвязь между этими товарищами и комментаторами, оценивающими выступления спортсменов на поле, даже не участвуя в игре. В этом нет смысла. Как вы можете рассматривать финансирование венчурной капитализации только как финансовую операцию? Среди всего, что венчурные капиталисты добавляют компании, деньги, вероятно, даже не входят в тройку лидеров. Хорошо, теперь вы знаете, что я их не очень люблю. Но есть такие люди, как К Хамат Палихапития, Бен Горовиц и Питер Тиль (за исключением его политических взглядов), которые великолепно выбирают победителей, и я твердо верю, что это потому, что они кое-что понимают в строительных компаниях. по сравнению с люксами.

Однако вернемся к цели этого поста. За последние три года я несколько раз размышлял о создании фонда для студенческих стартапов в Индии - The Dorm Room Fund of India. Учитывая, что компания, в которой я был одним из основателей, так тесно работала со студентами, я был увлечен этой сферой и всегда думал, что в Индии не хватает экосистемы для студенческих стартапов и слияний и поглощений. По сути, я думаю, что по мере развития экосистемы слияний и поглощений в Индии появится большое количество стартапов, создающих продукты мирового класса. Так что пересечение венчурного капитала и M&A определенно является тем, над чем я надеюсь работать в течение моей карьеры. Итак, с самого начала моей магистерской программы в области бизнес-аналитики в Калифорнийском университете в Дэвисе я хотел построить модель, которая могла бы помочь мне предсказать, какие компании потенциально могут получить выход для своих инвесторов - победителей. Проект машинного обучения в моем курсе машинного обучения, который вел ветеран индустрии Ноа Гифт, казался мне прекрасным шансом осуществить это. В итоге я построил модель, которая предсказывает с 70% точностью, будет ли компания приобретена или закрыта с учетом определенного набора функций. Для людей, которые разбираются в инвестировании - это огромно! Это ссылка на Github для людей, которым может быть интересен код - Нажмите, чтобы просмотреть.

Набор данных

Я надеялся получить обновленный набор данных из CrunchBase, но не смог этого сделать, поэтому я приобрел набор данных из этой удивительной платформы данных под названием Data.World. Это стало моей любимой платформой для сбора данных для любого вида анализа, которым я занимаюсь сейчас. Это были данные CrunchBase до 2014 года, в которых было всего 49437 компаний. А пока мне придется с этим согласиться. Но по мере того, как я продолжаю улучшать эту модель - я надеюсь получить доступ к обновленным данным запуска! Но что касается любого анализа, вы не получаете бесплатного обеда, и поэтому данные были довольно плохими.

Как может тип данных «found_at» быть ненулевым объектом, если это дата. Почему люди не могут просто хранить данные в правильном формате? Но я думаю, это проблема, с которой аналитик будет сталкиваться всю свою жизнь. Возьмите это с недоверием и двигайтесь дальше. Но посмотрите на количество нулей в каждом из этих столбцов. Нулевые значения для людей, которые не знают подлых фиктивных ценностей! Это хоумран нулей. Это определение неверных данных, даже при случайном наличии отформатированного имени столбца (рынок и сумма финансирования). Я также надеюсь, что мог бы иметь больше данных об основателях, таких как их возраст, образование, опыт и т. Д. - но студенты не могут быть заблудшими.

Но давайте продолжим и проведем исследовательский анализ данных

Моей первой мыслью было то, что, учитывая, что это мировые данные, я хотел посмотреть количество приобретений по всему миру, чтобы затем я мог сосредоточить свои усилия на рынке с меньшим шумом и более локализованными функциями. Я решил использовать замечательную библиотеку для построения карт Choropleth с данными на python. Если вы хотите взглянуть на код - посмотрите ссылку на GitHub, упомянутую выше (вы можете скопировать и вставить код в свой блокнот Python, чтобы увидеть его и взаимодействовать с ним). Но я не хотел наносить все на карту, поэтому решил посмотреть только на страны с более чем 15 приобретениями.

Посмотрите на США: 2785. По сравнению с моей родной страной, где всего 17 приобретений. На втором месте оказалась Канада с 100 с лишним приобретениями. Я сразу же решил, что хочу сосредоточиться только на США! Чтобы уменьшить шум, я также решил смотреть только на те компании, которые либо закрылись, либо были приобретены. Для этого анализа я исключил из поля зрения компании, которые все еще работают. Когда я впервые взглянул на тепловую карту корреляции, она выглядела не очень многообещающей. Я знал, что, если я хочу чего-то добиться, мне нужно будет проделать много работы по проектированию функций.

Так что я начал глубже копаться в США. Я хотел посмотреть, в каких штатах больше всего поглощений. У меня было ощущение, что Калифорния загорится, но я все равно нанес ее на карту.

Это было очевидно. Но если я должен был создать равные условия для других государств, мне нужно было посмотреть на это с точки зрения% успешных выходов. Мне также было интересно посмотреть на эти цифры в масштабе. Итак, я решил отобразить только те штаты, в которых было как минимум более 15 выходов (15 - это мой день рождения, следовательно, 15). Давайте посмотрим на эти числа

Это интересно. У Алабамы самый высокий процент выходов. Я этого не ожидал. А ты? Откровенно говоря, Калифорния сильно отстает с скромными 63% по количеству закрытых или приобретенных компаний. Неплохо. Это показало наличие определенной взаимосвязи между штатами, в которых были созданы компании, и их выходами.

Затем я хотел посмотреть на города в этих конкретных городах. Область залива Сан-Франциско вне курса имела самые высокие абсолютные числа, но когда я проанализировал данные по процентному соотношению выходов, где снова 15 было отсечкой, область залива Сан-Франциско не попала в тройку лучших. Победитель снова удивил меня.

Я проанализировал и работал над множеством других функций, но один из интересных анализов касался процентного выхода на рынок, на котором находились компании. Я готов поспорить, что первым был бы «Интернет» или программное обеспечение. Я бы никогда в своих самых смелых мечтах не подумал о том, что этот рынок возглавил планку успешных выходов. Опять же, это с учетом фильтра 15 компаний.

Но весь этот анализ показал, что определенно были некоторые конкретные точки данных и то, как они взаимодействовали друг с другом, которые определяли, может ли компания потенциально быть приобретена или нет. Я также чувствовал, что существует взаимосвязь между успешным приобретением компании и временем, которое требуется компании для получения первого раунда финансирования. Я пошел дальше и создал некоторые из этих дополнительных столбцов в данных, чтобы создать больше функций для анализа. Кроме того, необходимо было преобразовать множество категориальных переменных, таких как город, рынок, в формат, который я мог бы использовать в качестве входных данных для модели машинного обучения и, следовательно, преобразовать их в определенные целые числа. Последняя тепловая карта наконец-то дала мне большое количество функций, в которых многое происходило в корреляционной матрице.

Выбор модели машинного обучения

С самого начала я знал, что это будет проблема классификации. Я использовал несколько функций для уникальных компаний и пытался предсказать, будет ли компания приобретена или будет закрыта. Два кластера, в которые я пытался разместить компании, были приобретены или закрыты (1 или 0). Учитывая, что я работал с предыдущими компаниями и зная их текущий статус, я решил использовать метод классификации с контролируемым машинным обучением. Чтобы быть конкретным, я решил использовать алгоритм K-Nearest Neighbor, чтобы предсказать, где подходит компания. Проще говоря, то, что делает этот алгоритм, заключается в том, что он проверяет соседей, указанных в алгоритме, которые являются сокращенным евклидовым расстоянием от новой компании, и решает, в какой кластер он может вписаться.

Сначала я решил запустить модель с числом соседей, равным 1. Удивительно, но модель показала неплохие результаты с точностью около 60%. Как правило, точность прогнозов для всех этих моделей находится на уровне около 90%, но если мы посмотрим на эту конкретную проблему, то даже у лучших венчурных капиталистов показатель успешности составляет около 50–60%. Но я знал, что это было с k = 1, поэтому мне нужно было найти критическую точку для моего n и, следовательно, провел некоторый быстрый анализ, чтобы выяснить, что модель будет работать лучше всего с k = 28.

После выбора K = 28 точность выросла до 70%.

Когда я начал изучать машинное обучение, я всегда сомневался в возможностях этих алгоритмов, которые по большей части были закрыты черным ящиком для получения прогнозов. Но после нескольких проектов машинного обучения я пришел к выводу, что влияние оказывают методы обработки данных, выбор алгоритмов и интерпретация оценок и точности.

Мне удалось построить модель, которая использовала данные 49437 компаний для прогнозирования статуса случайно заданной компании. До сих пор я мог прогнозировать с точностью 70%, но мне нужно сделать гораздо больше, прежде чем я смогу улучшить код и модель, чтобы лучше прогнозировать. Я также хотел бы получить какие-либо отзывы о подходе и модели.

Если вы хотите посмотреть код для анализа, его можно посмотреть здесь - Щелкните для просмотра.

Об авторе: Я потратил последние 5 лет на создание платформы для студенческой карьеры в Индии. В настоящее время я изучаю программу магистра наук в области бизнес-аналитики в Калифорнийском университете в Дэвисе, чтобы расширить свое понимание бизнеса за счет опыта работы с данными. Я закончу учебу в августе 2018 года, и в настоящее время я накапливаю навыки и знания, чтобы повлиять на более чем миллиард человек в течение следующих 5 лет. Не стесняйтесь писать мне на [email protected] или связаться со мной в LinkedIn.