Начнем с самого начала. «Начало?» - спросите вы? Что ж, это не имеет значения. Я мог бы иметь в виду начало сегодняшнего дня, или начало вашей карьеры, или начало самой вашей жизни.

Физика - это круто!

Я собираюсь начать с физики, черт возьми. Физика - это фундаментальная отрасль науки, которая развивалась на основе изучения природы и философии, известной в соответствии с определением Википедии. Позвольте мне выделить слово учеба. Учеба в основном относится к получению знаний в любой форме и их применению.

Как маленький ребенок учится ходить, говорить, читать и писать? Наш разум обладает этой удивительной способностью понимать мир, просто взглянув на него и реализовав его при наличии достаточного количества времени. Как вы думаете, понимает ли ребенок механику ходьбы, прежде чем сделать первый шаг? Как вы думаете, понимает ли ребенок, что при ходьбе ваши ступни зависят от трения, которое удерживает их на месте, и нога, которой вы отталкиваетесь от земли, поддерживает ваш вес, и что для того, чтобы двигать остальную часть тела вперед, ваша ступня лодыжки пытаются отвести ноги назад. Однако трение о землю не дает вам упасть лицом вниз, противодействуя силе, действующей на вашу лодыжку. Поскольку ваша лодыжка все еще отталкивается назад, но ваша ступня не двигается, она толкает остальную часть вашего тела вперед, а другая ступня соприкасается с землей, поддерживая вес вашего тела.

Хорошо, если вы не пропустили это определение о ходьбе, с сожалением вынужден сказать, что вы, вероятно, ботаник. Довольно интуитивно можно сделать вывод, что это сложное обследование, вероятно, не проводится ребенком, но он учится довольно быстро ходить, не так ли? Ребенок наблюдает за тем, как люди вокруг него ходят, бегают трусцой и бегают, и благодаря наблюдению, практике и паре десятков падений (опыт) ребенок учится ходить. В наше время опыт и неудачи сильно недооцениваются. Сегодня я видел, как шестилетний ребенок платит владельцу магазина 10 фунтов стерлингов, отсканировав код Paytm в окне покупателя и завершив транзакцию полностью в цифровом виде. Это не что иное, как чудо.

Вернемся к фундаментальной науке - физике. Все концепции и теории, разработанные печально известным Аристотелем в Древней Греции практически 2300 лет назад до открытия новой субатомной частицы, очень напоминающей бозон Хиггса Питером Хиггсом 5 лет назад, рудиментарные исследования в первую очередь включают наблюдение и анализ концепций для экстраполяции. и примените их.

Большинство задач, которые вы выполняете в среднем за день, не требуют от вас понимания задачи с нуля для ее реализации. Было бы кошмаром, если бы каждый из нас должен был понять функцию двигателя внутреннего сгорания для управления автомобилем, воспламенение и сгорание топлива, происходящие в двигателе, который состоит из неподвижного цилиндра и движущегося поршня, который частично преобразует энергию сгорания в работу; Расширяющиеся газы сгорания толкают поршень, который, в свою очередь, вращает коленчатый вал, и, в конечном итоге, через систему шестерен трансмиссии это движение приводит в движение колеса автомобиля, хотя это может решить проблемы дорожного движения, с которыми мы сталкиваемся сегодня в повседневных поездках.

В нашем черепе есть это красивое, странно выглядящее вещество, которое позволяет нам наблюдать и применять.

Слава богу, яблоко упало Ньютону на голову.

Наука о данных!

Почему все это важно? Потому что это наука о данных. По сути, с точки зрения непрофессионала, специалисты по обработке данных собирают данные из различных источников, очищают их (что в основном состоит в систематизации данных, которые обычно являются непоследовательными и неправильными, и систематическим их формированием) для их анализа, разделения их на обучающие и тестовые тесты, чтобы оцените и поэкспериментируйте с алгоритмом или моделью, разработанными с использованием статистики (в машинное обучение вовлечено много математики), и примените их к любой области или сектору, которые они сочтут подходящими. Это работает намного лучше, чем конкретное установление правил и положений для каждой проблемы, и может быть довольно хорошо обобщено.

Задавать правильные вопросы

Чрезвычайно важно задавать правильные вопросы, и, следовательно, для специалистов по анализу данных необходимы умные коммуникативные навыки. Было бы странно, если бы Ньютон подумал: «Почему атмосфера толкнуло яблоко на землю?» Или комично: «Кто бросил в меня это яблоко?»

Данные всегда были доступны или, по крайней мере, всегда существовал способ сбора данных, но проверка нашей интерпретации и статистических моделей для анализа и экстраполяции данных ранее заняла бы так много времени, что это было бы невозможно. С появлением электроники, технологий и Интернета теперь у нас есть мгновенный доступ к данным и технологиям для проверки нашей интерпретации, чтобы быстро и оперативно принимать решения в этом стремительном и постоянно меняющемся мире.

Наука о данных - относительно новая область, и точное определение отвечает потребностям сектора, к которому оно применяется, и, следовательно, на данный момент оно нечетко определено.

Математика

Однако математика, в частности линейная алгебра, вероятность, статистика и исчисление, незаменимы в науке о данных. Вот тут-то и возникает машинное обучение. Они позволяют создавать сложные модели, которые можно обобщить для принятия решений по новым данным, которые могут существовать, а могут и не существовать.

Например, таксомоторные компании могут начать направлять больше водителей в определенные регионы в разное время дня на основе нескольких тысяч факторов, таких как загруженность дорог, рабочие дни или выходные, события, недавно построенные офисы или предыдущие тенденции. Без использования математики все эти выводы становятся довольно запутанными.

Компьютеры

Вся эта визуализация и экстраполяция для одной проблемы может занять пару месяцев, лет или даже десятилетий для одной проблемы. Компьютеры конвертируют это время в количество часов. Именно здесь на помощь приходит программирование. Python и R - предпочтительные языки программирования, в которых есть пакеты и библиотеки, созданные специально для науки о данных, которые позволяют вам немного изучить программирование и начать применять их, а библиотеки постоянно растут. Я начал с Python, и среди других базовых библиотек я использовал pandas и matplotlib.

Очистка данных

Вы, должно быть, читали, что 80% работы специалистов по обработке данных - это очистка данных. Иногда данные доступны в предпочтительных форматах, таких как csv и xlsx, но вы найдете очень мало данных, непосредственно доступных для выполнения с помощью программирования. На помощь приходят API, парсинг веб-страниц и SQL. Они позволяют вам получать нужные данные из различных источников, будь то офлайн или онлайн. Spark и Map-Reduce используются для очистки и анализа больших и распределенных наборов данных.

Базовая реализация командной строки и система контроля версий для координации и сортировки работы между вашими коллегами позволяют легко управлять довольно сложной работой, которая требуется.

Это везде!

В последние несколько лет компании все чаще используют практики, основанные на данных, и неудивительно, что Data Scientist считается «самой сексуальной работой 21 века». Вы можете быть уверены в своих решениях, особенно когда речь идет о бизнесе, когда у вас есть данные для их резервного копирования, а не просто принимать решения интуитивно.

Это не означает, что решения на основе данных должны использоваться всеми. Иногда, когда переменные не зафиксированы или когда концепция новая, а данные недоступны, трудно свести решения к простым методам, основанным на данных. Однако использование данных недооценивается. Вы почти без сомнения можете использовать его для оценки нескольких показателей или устранения нескольких.

Решения на основе данных используются повсюду: от определения выживаемости онкологических больных до психологии, веб-сайтов электронной коммерции, социальных сетей, финансовой визуализации и интерпретации, которые могут быть обновлены с использованием данных в реальном времени, беспилотных автомобилей (где переменные исчисляются миллионами и программировать его без использования машинного обучения было бы невозможно), искусственный интеллект, креативность и даже модные тенденции. Это довольно прибыльная работа, и с учетом всплеска больших объемов данных спрос на нее будет только расти.

А. круто!

Возможно, вы читали, как автомобили Tesla учатся водить самостоятельно. Нет людей, которые сидят где-нибудь за столом и дистанционно управляют машинами. Каждая машина изучает и передает эти данные в электронном виде на все другие машины, точно так же, как преподаватель в классе преподает новые концепции своим ученикам, разница в том, что ученики (машины) на самом деле слушают и не дремлют в классе.

Фактически, было бы трудно найти сектор, в котором наука о данных не могла бы использоваться для принятия лучших решений, и компании постепенно осознают это и принимают его. Однако степень, в которой он помогает, является эталоном, используемым для проверки того, существует ли он в этом сегменте.

Me!

Я изучаю его всего 2 месяца, так что я новичок в науке о данных. У меня есть степень бакалавра в области электроники и коммуникаций, и после нескольких месяцев пробуждения от варианта карьеры к варианту карьеры и осознания того, что мне нужна гибкость, чтобы время от времени работать над различными проблемами, не относящимися к одной отрасли, я наткнулся на науку о данных и решил это было подходящее для меня. Мы создаем машины, которые по сути являются людьми 2.0.

Надеюсь, я немного прояснил, что такое наука о данных, открыл вам глаза на то, как это можно применить к тому, что вы делаете в настоящее время, и, возможно, убедил вас подумать о карьере в этой области, которая является относительно новой и пока не имеет определенного пути. .

Хотите узнать это?

Изучать науку о данных очень легко и удобно, так как большое количество MOOC и книг доступны бесплатно в Интернете. Вы будете удивлены, как быстро вы сможете перейти от абсолютно ничего не знания к тому, чтобы начать практиковать это.

Я призываю вас подумать о том, как это можно применить к вам, является ли это ваш бизнес, где вы можете собирать данные в виде отзывов и мнений клиентов, чтобы принимать более обоснованные решения, использовать данные с сайтов обзора фильмов, чтобы выбрать свой следующий фильм, обратитесь на такие сайты, как Quora или Reddit, чтобы получить полную информацию по любой теме, или используйте Trivago, чтобы забронировать следующий отель. Мы все уже используем его в той или иной форме, будь то исследование перед проектом, или опрос опытных людей по вашей желаемой теме, или упоминание чего-то, когда вы пытаетесь объяснить концепцию кому-то еще.

Все эти данные в вашем телефоне, компьютере, учетных записях, используемые в бизнесе, которые большую часть времени кажутся довольно бесполезными, могут действительно помочь вам в некотором роде. Например, вы можете принимать более обоснованные решения, связанные со здоровьем, ежедневно отслеживая потребление пищи и упражнения, или повышать свою продуктивность, отслеживая, как вы проводите свое время каждый день. То единственное понимание, которое вы получите в результате анализа и экстраполяции, может стать ключом к свержению вашей карьеры, чтобы набрать обороты или получить то небольшое преимущество над конкурентами, которое создает огромную разницу.

Если вам нужно решать проблемы, наука о данных - для вас.