Дважды подумай, один раз напиши, или Как изящно поворачивать

Когда-то у меня была блестящая идея для моего завершающего проекта по науке о данных на Генеральной ассамблее. Я бы создал модель машинного обучения, которая могла бы предсказать следующую прорывную технологию. Отслеживая, как различные технологии развиваются от исследовательских лабораторий (упоминания в академической литературе) до широкой известности (упоминания в блогах и новостных статьях), чтобы, наконец, стать основными для бизнеса/мейнстрима (финансирование стартапов и упоминания о вакансиях), я мог бы создать профиль того, что разделяет технический герой из технического нуля.

Я знаю, о чем вы думаете: «Вау, это звучит потрясающе, эпично и очень по-научному. Компании могут использовать вашу модель, чтобы предсказать, кого нанять в следующий раз. Ямогу использовать вашу модель, чтобы выяснить, какой следующий важный навык нужно освоить». На это я говорю: «Икнорите! Давайте прыгать и исследовать!»

Или, может быть, вы думаете: «Подождите, что представляет собой технический успех? Что вы собираетесь использовать в качестве технологий сравнения? Как Blu-Ray против HD-DVD? Как вы собираетесь судить о неудачной технологии?» На это я говорю: «Что случилось с допросом третьей степени? Давайте просто прыгнем и исследуем!» (шутка, у вас есть действительные точки, о которых я расскажу через секунду.)

Первый набег

Шаг 1. Соберите данные. Шаг 2. Визуальная проверка данных

Я искал 1) академические журналы, 2) популярные СМИ, 3) финансирование стартапов и 4) объявления о вакансиях. И для начала я решил сосредоточиться на «Искусственном интеллекте и машинном обучении» в качестве своего технологического предмета (потому что это успешно, верно?)

Академические журналы — arXiv API. Этот замечательный ресурс дал мне легкий и бесплатный доступ к десяткам тысяч научных работ за последние 20 с лишним лет. Все, что потребовалось, это немного разобрать XML, и у меня был хорошо организованный Pandas DataFrame/CSV с датой и идентификатором статьи.

Популярные СМИ — Reddit Pushshift API, Просмотры страниц Википедии, Google Тренды. Pushshift — действительно полезный API данных Reddit. Вы можете искать и объединять все комментарии и сообщения (и многое другое) по заданному ключевому слову. Было относительно легко запросить контент, связанный с ИИ.

Для следующих двух индикаторов общественного интереса я просто зашел на страницу «Просмотры страниц Википедии» и «Тренды Google», ввел условия поиска и загрузил CSV-файлы. Вот как данные выглядят на графике:

Ох, ахх. Все идет нормально! Мы находимся на пути к созданию Tech Maven (моё любимое имя для моей модели машинного обучения). Хорошо, что дальше?

Финансирование стартапов — CrunchBase API. О, парень! Вся эта информация о финансировании стартапов доступна в хорошо поддерживаемом API?! Сладкий. Ой, подождите… 95% функций доступны по подписке Enterprise (которая является индивидуальной по цене годового соглашения)? Думаю, я не делаю ЭТО. (Если подумать, может быть, я мог бы связаться с хорошими людьми из CB из-за того, что был студентом… хм). Что я нашел, так это полезную информацию, касающуюся интересующей меня темы, через crunchbase news:

Объявления о вакансиях — Kaggle… О, это было тяжело, и это начало привносить экзистенциальные сомнения относительно этого проекта. Лучший набор данных, который я нашел, был с Naukri.com (доска объявлений № 1 в Индии). Я также попробовал группу новостей Yahoo Job Newsgroup, которая была жалкой (только 3 результата из тысяч, в которых упоминались AI или ML). Другие, которые я нашел, были либо слишком короткими (охватывающими 6 месяцев назад), либо не имели даты. В любом случае, несмотря на множество отсутствующих значений в наборе данных Naukri, я заметил, что, рассматривая публикации AI/ML как процент от общего числа объявлений, за последние два года наблюдался некоторый рост.

Так вообще что у меня есть?

Ну, да, вещи (как и ожидалось) растут в геометрической прогрессии. Думаю, это проверка здравомыслия. Но у нас должен быть серьезный сидячий разговор:

Объем данных растет в геометрической прогрессии, естественно. Как я могу гарантировать, что эти тенденции не являются побочным продуктом растущего использования Reddit и увеличения количества публикаций в академических журналах?
Поскольку объявления о вакансиях мизерны (если только я не просматриваю сайты вакансий. Но даже в этом случае, как далеко они зайдут?), а хорошая информация о финансировании стартапов находится за платным доступом, что я могу установить в качестве критериев успешной технологии?
Что я могу изучить после того, как я займусь AI/ML? Большие данные? Облачные вычисления? Интернет вещей? Это все модные словечки… но что я вообще пытаюсь предсказать? Считается ли IOT успешным в настоящее время? Является ли виртуальная/дополненная реальность «успешной», несмотря на то, что о ней много говорят? ¯\_(ツ)_/¯.

И вот где мы находимся… сломя голову бросаемся в EDA, не задумываясь о последствиях. Что ж, я не жалею: я хотел увидеть эти экспоненциальные линии :). Теперь, когда я их увидел и понял, что наткнулся на своего рода стену, я могу более четко обдумать следующий вариант. *подсказка* Я разговаривал со своими превосходными инструкторами, и они предложили путь вперед, сосредоточившись на тематическом моделировании. Следите за моим следующим сообщением, чтобы обновить прогресс.

Дважды подумай, один раз напиши, или Как изящно поворачивать

Первый набег

Вопросы по теме