Как вы объединяете более 160 000 стартапов в значимые кластеры?

В базе данных Funderbeam более 160 000 стартапов. Это удивительно, но это также отчасти проблематично, поскольку навигация среди множества стартапов становится очень сложной, если нет последовательной классификации стартапов, помогающей фильтровать их по схожим отраслям. Понимая это, одним из наших приоритетов является максимальное удобство поиска информации о стартапах. Вот как мы этого добиваемся.

Мы начали с извлечения данных из различных источников, где определенные теги применялись к стартапам базами данных или самими стартапами. Сделав это, мы сгенерировали тысячи различных тегов для большинства из 160 000 стартапов. Некоторые теги были слишком общими, например программное обеспечение, в то время как другие были слишком конкретными и не часто появлялись независимо друг от друга. Например, похожие теги, такие как музыкальное видео, потоковая передача музыки, музыкальный чарт, музыкальные развлечения, музыка, музыкальный лейбл, музыкальные центры и независимая музыка (их еще сотни подобных) связаны между собой, поэтому мы объединяем их вместе как музыка и аудио. С другой стороны, были некоторые широкие теги, которые были слишком тривиальными, т. е. реклама, приложения, покупки и т. д. Кроме того, некоторые теги часто не описывали реальный бизнес компании, а некоторые просто имели проблему единственного и множественного числа, например дизайнер против дизайнеры.

Чтобы преодолеть эти ограничения, мы использовали процесс, называемый «иерархической кластеризацией», для группировки тегов со схожими характеристиками в кластеры. Что помогло нам вычислить сходство между тегами, так это использование информации о ключевых словах в Википедии. В частности, мы сравнили сходство содержания статей Википедии между разными тегами. Если наш алгоритм обнаруживал часто встречающиеся ключевые слова (термины, которые являются специфическими и репрезентативными для данной отрасли) между двумя статьями Википедии, теги считались похожими, и таким образом рождалась приведенная ниже дендрограмма:

Полученные кластеры, изображенные на массивной дендрограмме выше, немного больше, поэтому ниже мы подробно рассмотрели, как был объединен вышеупомянутый кластер музыка и аудио и каковы его ближайшие «компаньоны».

Результатом всего процесса кластеризации и очистки данных стал организованный набор из 45 различных кластеров тегов. Учитывая, что в настоящее время в нашей базе данных есть тысячи различных тегов, это довольно сужение, и оно значительно облегчило поиск стартапов. Например, вы можете искать от автомобильной до индустрии здоровья и фитнеса. И вы можете фильтровать свои поиски по оценке, последнему размеру финансирования, штаб-квартире, дате основания и многим другим функциям, и все это на Данные Funderbeam.

Мы использовали этот метод для классификации с тех пор, как начали кластеризовать, и он продвинул нас далеко вперед. Однако мы также увидели некоторые ограничения метода, которые мы обсудим в следующем посте этой серии (наряду с тем, как мы улучшаем его с помощью нейронных сетей).

Мы хотели предоставить некоторые полезные знания нашим более технически подкованным подписчикам, поэтому решили подготовить серию статей, в которых сосредоточимся на объяснении того, как мы собираем и сортируем информацию, в частности, помечая стартапы и логически группируя их.

Пожалуйста, оставьте комментарий, если у вас есть какие-либо предложения, и не забудьте подписаться, чтобы получать уведомления о нашем следующем посте!

Другие статьи из этой серии:

Есть потребности в данных?

Funderbeam обновил данные о более чем 160 000 стартапов и 20 000 инвесторов. Мы работаем вместе с рядом стартапов, акселераторов, венчурных капиталистов и т. д., чтобы предоставлять услуги по обработке данных. Если вы хотите узнать больше, свяжитесь с Ником, нашим руководителем отдела данных, по электронной почте [email protected] или в Твиттере: @nsvandrey.