В науке о данных модели решают все. Мы, специалисты по данным, создаем их прототипы, делаем наброски. (Хорошие) модели изображают и изображают мир, людей, здания, взаимодействия и даже любовь — см. ниже.
Но как построить хорошую модель? Как мы узнаем, полезно ли это? Как мы узнаем, является ли он представителем мира?
Один из вопросов класса Профессор Гэри Кинг, который не дает мне покоя до сих пор, заключался в том, как мы будем моделировать человека.
Например, это хорошая модель?
Смотря — не нужно много времени, чтобы понять, что на картинке изображен человек. Конечно, если бы мы были на уроке анатомии, было бы гораздо полезнее иметь такую модель:
И, конечно же, если бы мы хотели поближе взглянуть на нашу мышечную систему, вам понадобилась бы такая диаграмма.
Конечно, теперь в нем есть все мельчайшие детали, но если бы мы изображали психологический или социологический феномен, нам не понадобилось бы (или не захотелось) бродить вокруг куча анатомических фигур. На самом деле нам не обязательно рисовать людей.
Один из моих любимых романов — «Скотный двор» Джорджа Оруэлла. Это сатирический шедевр, который предупреждает нас об ужасных последствиях коммунизма, но делает это, не вводя ни одного человеческого персонажа (кроме недолговечного мистера Джонса).
С легионом моделей, разрабатываемых в науке о данных (от простых регрессий до машинного обучения), легко разработать модель всего за пару строк кода — и столь же легко разработать модель, которую вы понятия не имеете, зачем вы разработали. в первую очередь.
Вот несколько моментов, которые могут помочь в разработке хорошей модели.
- Несмотря на то, что мир становится все более сложным, нам не нужны сложные модели, чтобы зарисовывать мир — на самом деле, чем проще, тем лучше.
Мы переполнены информацией каждый день, каждый час и даже каждую секунду. Чем больше информации, тем труднее разработать связную, убедительную историю. Попробуйте составить историю из моделей — у ученых данных есть миссия — двигать людей, показывая, как они видят мир с помощью данных. Нам нужны хорошие истории, а не изощренность.
- Постарайтесь (особенно качественно) понять, какую проблему вы решаете в первую очередь.
Самая сложная часть презентации на семинаре – рассказать аудитории (i) какие проблемы мы решаем и (ii) почему мы их решаем. Методологическая изощренность (например, использование нейронной сети вместо регрессии) не так важна, как думают люди. Существуют соревнования Kaggle, в которых люди побеждали с помощью, казалось бы, простых регрессионных моделей.
- Изучите мир (или явления, которые вы изучаете) вдоль и поперек, а затем попытайтесь придумать простейшую модель, которая может его представить.
«Если вы не можете сформулировать проблему, которую решаете, значит, вы недостаточно понимаете проблему», — советовали мне мои наставники. Чтобы заинтересовать аудиторию нашими моделями науки о данных, нам необходимо хорошо понимать мир или явления, которые мы изучаем. Частично это может повлечь за собой исследовательский анализ, но — что, возможно, более важно — я узнал, что общение с разными людьми и проведение (качественных) исследований помогли мне построить гораздо лучшие модели, чем добавление менее необходимого уровня сложности к моим существующим моделям.