Поскольку финансирование стартапов в 2021 году достигнет рекордно высокого уровня, здесь мы собираемся использовать методы машинного обучения, чтобы предсказать, будет ли стартап успешным на основе нескольких финансовых и рыночных атрибутов.

В этом проекте используются такие технологии, как Jupyter Notebook, Python и его библиотеки Pandas, Scikit Learn и Streamlit. Готовое веб-приложение можно найти здесь: https://startup-predictr.herokuapp.com/

  1. Очистка набора данных.

Набор данных, используемый для этого проекта, взят из Kaggle и основан на финансовых данных, предоставленных Crunchbase. Полный набор данных можно найти здесь: https://www.kaggle.com/arindam235/startup-investments-crunchbase.

Мы будем основывать наш классификатор машинного обучения на следующих атрибутах. Рынок, общая сумма финансирования (долл. США), страна основания и год основания. Эти атрибуты будут использоваться для прогнозирования того, является ли компания «закрытой» или «приобретенной».

2. Прогнозирование статуса стартапа с помощью машинного обучения.

Для нашего прогноза мы будем использовать классификатор случайный лес, предоставленный библиотекой scikitlearn. Классификатор случайного леса состоит из большого количества отдельных деревьев решений, которые работают как ансамбль. Каждое отдельное дерево в случайном лесу выдает прогноз класса, и класс с наибольшим количеством голосов становится прогнозом нашей модели.

После того, как мы разделили наши данные на данные обучения и тестирования и внедрили нашу модель классификации случайного леса. Мы можем начать вводить тестовые примеры в виде массива numpy, как показано ниже.

3. Создание веб-приложения

Для создания нашего веб-приложения мы будем использовать фреймворк веб-приложений Streamlit. Мы можем установить несколько полей выбора и ползунков для хранения наших значений для реализации в соответствии с нашей моделью классификации.

Мы также можем реализовать страницу «исследование», чтобы просмотреть некоторые интересные тенденции в нашем наборе данных, такие как среднее финансирование в зависимости от страны или рынка.

Затем мы можем разместить наше приложение с помощью Heroku через Github. Веб-приложение можно найти здесь: https://startup-predictr.herokuapp.com/

Полную разбивку кода можно найти на моем github здесь.