Наука о данных - это модная новая область, которую преподают в большинстве университетов, по крайней мере, в научных и инженерных. Но все же в 2018 году его не всегда рассматривают и понимают как полноценный и надежный подход к решению проблем по всем основным направлениям. Я считаю, что так и должно быть!

Data Science охватывает очень много разных вещей: управление данными, статистику, визуализацию данных, машинное обучение и так далее. Люди утверждают, что только компьютерщики достаточно квалифицированы, чтобы справиться с этим. Почему? Потому что для этого часто требуются навыки программирования, которым еще не учат всех в старших классах (и раньше) в качестве базовых знаний. Таким образом, это вызывает страх у людей, потому что они просто не знают о программировании.

Давайте будем честными, Data Science требует, чтобы уметь работать с некоторыми компьютерными вещами. Например, манипулирование данными (файлами, базами данных) и работа с ними (программирование или использование высокоуровневого программного обеспечения). Но Data Science может помочь вам во многих видах работы. В настоящее время данные повсюду. Тогда вам не следует игнорировать такой способ решения собственных проблем только потому, что вам не хватает навыков программирования. Не в этом дело.

Теперь забудьте о препятствиях и сосредоточьтесь на преимуществах. Я приведу несколько конкретных примеров, показывающих, почему вам следует начать думать с помощью данных, кем бы вы ни были. Студентам, от химической до машиностроительной специальности, нет причин оставаться в стороне от нее.

Как решить проблему с помощью Data Science

Наука о данных - это набор статистических инструментов, которые можно применить к набору данных для извлечения интересной ценности (решение проблемы, обнаружение закономерностей и неожиданных правил и т. Д.).

Данные могут быть числами, текстом, изображениями, звуком. Обычно он хранится в файлах или базах данных. Набор данных с одинаковыми переменными называется набором данных. Наборы данных иногда являются частными, иногда общедоступными. Все больше и больше учреждений размещают свои данные в Интернете. Эти общедоступные онлайн-наборы данных называются открытыми, потому что каждый может загрузить и изучить их. Например, в Париже есть отличная онлайн-платформа, на которой публикуются многие открытые наборы данных. Речь идет об экономике, социальной статистике, архитектуре, дорожном движении, коммунальных услугах и т. Д.

Давайте посмотрим на этот набор данных. Он состоит из городских данных об улицах Парижа. Он описывает, как улицы разделяются дорогами внутри Парижа. Вы можете подумать: Меня это просто не волнует. Подожди секунду. Недавно мне пришлось использовать этот набор данных.

Я работал над решением для улучшения системы сбора мусора в Париже. Идея заключалась в том, чтобы спрогнозировать прибытие мусоровоза на улицу с помощью машинного обучения, а затем за несколько минут до этого предупредить смотрителей, чтобы они могли поставить свои урны на улицу. Конечная цель - уменьшить количество мусорных баков на улицах Парижа.

Одним из шагов было группирование улиц, объединение каждого адреса в городе в небольшие группы. Кластер должен был иметь адреса, которые были расположены близко друг к другу и в то же время собирались грузовиком. Даже если два номера на одной улице расположены близко, они могут быть разделены дорогой, поэтому мусоровоз не сможет забрать их одновременно. Мне пришлось сгруппировать номера улиц, которые не разделены дорогами. Так что этот набор данных был именно тем, что мне было нужно! Я использовал так называемые алгоритмы кластеризации, и вот результат.

Вместо разработки сложного алгоритма, который потребовал бы немного городских знаний, я использовал подход машинного обучения, и он сработал. Таким образом, кем бы вы ни были, например, людьми, работающими в области городского планирования, у вас могут быть причины использовать Data Science, потому что это очень помогает.

Примеры решенных задач в разных областях науки

Что ж, примеров масса. Быстрый визит в Kaggle (самый известный объект в сети, посвященный соревнованиям по Data Science) и его разнообразие наборов данных, по которым люди постоянно соревнуются, дает очень широкий спектр идей.

Химическая инженерия. Типы молекулярных структур и свойств как-то безграничны. Для ученых-химиков, работающих в области фармацевтики, очень сложно предсказать биологический ответ для данной молекулы. На практике это подразумевает множество клинических экспериментов, прежде чем оценивать полезность и безопасность новой молекулы. Этот набор данных предоставляет ряд различных молекул, каждая из которых характеризуется 1776 молекулярными дескрипторами. Хотя для фармацевтов практически невозможно предсказать биологический ответ аналитическим способом, учитывая 1776 деталей молекулярных дескрипторов, метод науки о данных сделал это возможным.

Промышленное проектирование. Представьте, что вы отвечаете за сокращение производственных затрат на очень большом заводе по производству автомобилей. Бьюсь об заклад, первая идея, которая возникла у вас в голове, была о самой части здания. Но на обязательные автомобильные испытания в качестве финального шага на самом деле тратятся большие деньги. Производители автомобилей должны обеспечивать безопасность и надежность каждой новенькой машины. Mercedes-Benz выпустил набор данных, содержащий 377 дескрипторов тестируемых автомобилей с соответствующим ответом пройден тест или нет. Им нужен был алгоритм, который научился бы предсказывать, выдержит ли автомобиль испытание или нет. Они говорят, что окончательный алгоритм будет способствовать более быстрому тестированию, что приведет к более низким выбросам углекислого газа (во время тестирования), как они говорят, но, во-первых, это будет способствовать повышению производительности и рентабельности.

Городское строительство. Много лет назад Вашингтон, округ Колумбия, столкнулся с проблемой. Они хотели лучше понять, как использовалась их система обмена велосипедами: часы пик, наиболее активные доки отправления и прибытия и т. Д. Они превратили эту проблему в задачу Data Science, где попросили участников Kaggle предсказать количество велосипедов, находящихся в наличии. используется в указанную дату и время. Дескрипторы в наборе данных обычно относятся к информации, связанной с погодой и датой (сезон, день недели, месяц и т. Д.). Люди сделали отличные визуализации, которые дали визуальное представление о том, как использовалась услуга (см. Следующую диаграмму). С помощью системы прогнозирования общего спроса на велосипеды они предоставили своим сотрудникам логистики отличный инструмент, помогающий им распределять свой велосипедный парк в городе.

Все три предыдущих примера на самом деле касаются статистического прогнозирования выходных данных с учетом контекста. В зависимости от модели машинного обучения иногда можно получить объяснение того, почему был сделан прогноз. Мы часто используем термины «Белый ящик» и «Черный ящик». Модели черного ящика трудно понять (обычно нейронные сети), но модели белого ящика предлагают варианты (например, деревья решений). Внутри белого ящика иногда можно обнаружить странные причины, которых совершенно не ожидаешь!

С самого начала этой истории мы обсуждали причины, по которым инженеры и ученые используют Data Science. Более того, гораздо больше вариантов использования существует в других областях. Знаете ли вы, что Uber прогнозирует спрос? Затем компания может отправлять больше водителей в очень активные районы или предлагать маршруты, по которым им будет проще находить клиентов. Но также бары могут использовать свои данные о продажах, чтобы точно предсказать, сколько сортов пива они могут рассчитывать продать в указанную дату и время года! На самом деле Data Science определенно предназначена не только для ученых. Каждый человек, производитель, продавец или любая другая организация сможет создать новую ценность, используя данные.

Как мы продвигаем Data Science и AI для всех в DataVenture

DataVenture - студенческая организация, создающая сообщество людей в области науки о данных и искусственного интеллекта. С 2017 года мы продвигаем эти области в нашем университете, Технологическом университете Компьеня (UTC), Франция.

Организуя технические переговоры каждые две недели, конференции (исследователи, компании) и семинары, мы стремимся продвигать науку о данных для всех. Мы хотим, чтобы будущие инженеры знали, что, с одной стороны, Data Science может решить их проблемы, а с другой стороны, им не нужно быть компьютерными специалистами. Мы предлагаем широкий спектр тем, связанных с наукой о данных, которые представлены и обсуждаются во время переговоров. С помощью отличных конференций (Academics, Facebook, Microsoft и т. Д.) Мы показываем, как далеко может их завести эта область. Кроме того, с нашей точки зрения, также важно наделить их нужными инструментами во время семинаров. Важны не только технические знания, но и такие темы, как право и этика, с которыми нужно считаться. Вместе с нашими друзьями из Picasoft мы проводим юридические выступления.

Один из самых активных сотрудников DataVenture, который изучал машиностроение и всегда был в восторге от этого, сейчас проходит стажировку в области Data Science в Dassault Aviation. На самом деле он использует методы машинного обучения для решения своих механических проблем: смешивая свое понимание механики и статистики, чтобы выбрать правильные функции и правильную понятную модель, чтобы предсказать ответ на сложную проблему, которую практически невозможно решить с помощью чисто аналитического исследования.

Итак, удалось ли нам выполнить свою миссию? Я в это верю!

Хотите присоединиться к нашему сообществу DataVenture? Вы можете подписаться на нас в Twitter, присоединиться к нашей группе в Facebook, прочитать наш Средний блог и следить за нашими последними событиями на нашем сайте! Особая благодарность специалистам Matt и DataVenture за их обзор!