Я считаю, что будет много людей, работающих с данными поколения Y, которые, как я, плывут в одной лодке и продолжают изучать, что делать дальше в области технологий, могут иметь отношение к этой статье. Пожалуйста, прокричите в комментариях, если вы тоже один из них.

Роль данных 1.0

Я начал свой карьерный путь как разработчик баз данных Oracle, программирование на SQL, написание хранимых процедур, проектирование баз данных с дополнительными знаниями администратора баз данных. Большая часть бизнес-логики написана в хранимых процедурах и активно используется в таких продуктах, как Oracle Forms, Oracle Apps, Compiere ERP, банковская система и т. Д.

ВЫБРАТЬ мое первое слово утром и работа лорд АскТом

После долгого перерыва я пишу в блоге сообщение о моем личном опыте. Прошу прощения, если это скучно или плохо написано. Я обещаю улучшить его в будущих публикациях.

Роль данных 1.1

Парадигма хранилища данных расширила процессы архитектуры данных и бизнес-требования для хранения исторических данных в системах DWH для создания описательной аналитики и аналитических отчетов. За это время я превратился в инженера Business Intelligence (сокращенно BI Engineer), который раньше занимался разработкой без кода, используя популярные инструменты, такие как Informatica, DataStage и т. Д., Для построения конвейеров данных и загрузки их в базы данных MPP, такие как Teradata, Oracle Exadata, и т.п.

Да, я использую программирование для некоторой автоматизации и создания сценариев, но не использую широко для создания веб-приложений, как это делают разработчики серверной части. Роль данных 1.1, необходимая для запуска SQL внутри инструментов или работы с перетаскиванием.

Роль данных 2.0

Примерно в 2006 году мир больших данных познакомил нас с парадигмой Hadoop и MapReduce. Большинство этих фреймворков или библиотек построено с использованием Java.

Все эти дни Java-разработчики ждали, чтобы нас покорить: P. Несмотря на то, что есть и другие проекты, такие как Hive, Pig помогает выполнять тяжелые задачи, такие как написание программ сокращения карты в фоновом режиме из сценариев SQL. Тем не менее, BI Engineer должен хорошо разбираться в Java в качестве основного языка и в Python. В тот момент мы (я) начали называть нас (меня) инженером данных в целом или инженером больших данных при подаче заявки на классные профили вакансий. (я могу читать мысли других инженеров по бизнес-аналитике :))

Роль данных 3.0

За последние несколько лет произошли огромные изменения в дизайне и архитектуре конвейера данных. Создание масштабируемой платформы данных, оптимизация, внедрение облака, бессерверное кодирование функций, пакетная обработка, потоковая передача в реальном времени и т. Д. И т. Д.

Что теперь ?? Я начал использовать Spark или аналогичный фреймворк для обработки данных для создания этих причудливых конвейеров данных с использованием API-интерфейсов и развертывания в облаке. Параллельно функциональное программирование снова начало набирать обороты и стало популярным в разработке программного обеспечения. Итак, я начал изучать функциональный стиль программирования с использованием scala. В какой-то момент у большинства из нас («тех, кто занимается собственными данными») может возникнуть ощущение, что Spark примет кодирование в стиле SQL, как Hive для Hadoop. У меня тоже было это. Неудивительно, что Spark перешел с RDD на Dataframe. Теперь Spark в первую очередь рекомендует использовать фрейм данных / набор данных. Я не менял название своей роли и по-прежнему работаю инженером по обработке данных, но я знаю нескольких людей, которые перешли на другие роли, например, разработчик Spark, инженер по платформе, но в конечном итоге и в основном все выполняли одну и ту же работу.

Данные X.Y

X - вход, а Y - цель

Несколько лет назад (примерно в конце 2015 года) я начал изучать область науки о данных и машинного обучения. Я купил курс у Удеми (Data Science от А до Я Кирилла Еременко). Честно говоря, я сделал правильный выбор, купив этот курс, где я изучал основы науки о данных и основные алгоритмы, просто используя Excel. У меня также была возможность поучиться у коллег из команды продвинутых аналитиков.

Ссылка на курс: https://www.udemy.com/course/datascience/

Я быстро освоил методы науки о данных, потому что…

многолетней работы в области очистки данных, ETL, аналитики, визуализации, метрик, вывода атрибутов и т. д., что покрывает 60% усилий по проектам в области науки о данных. Мне нужно иметь опыт и сосредоточиться на этих трех вещах:

  1. Моделирование с использованием различных алгоритмов машинного обучения.

2. Методы улучшения модели, такие как перекрестная проверка, градиентный спуск, настройка гиперпараметров.

3. Наконец, самое важное - это основы - математика и статистика, чтобы понять, что я делаю или как внутренне работает с этими абстрактными кодами / библиотеками.

Хм, я чувствовал, что это не должно быть большой проблемой, потому что я изучал степень бакалавра компьютерных наук, которая охватывала предметы инженерной математики. Все, что мне нужно сделать, это прочитать эти книги и освежить темы.

Что меня вдохновило, узнав больше о машинном обучении и глубоком обучении

Область машинного обучения открыла новый мир для многих разработчиков, таких как я, чтобы заинтересоваться исследованиями, реализовать упущенную возможность академического обучения, не имея более высокой степени или доктора философии. и использовать наши академические знания в работе (я понятия не имею, почему я изучал мало математических концепций в инженерии, пока не начал изучать машинное обучение).

Итак, я перешел к новой сложной роли и построил конвейеры моделей, реализовал проекты машинного обучения, стратегический подход к поиску возможностей машинного обучения с бизнес-проблемами, готовые к производству модели машинного обучения (по крайней мере, с использованием существующих алгоритмов и методов) и способность к развертывание и обслуживание производственных систем.

Вот где спроектирован инженер по машинному обучению.

Заключение

Я стал человеком в форме буквы Е, увлеченным технологиями и постоянно осваивающим новые навыки, постепенно углубляя знания в каждой области.

Вам не нужно ничье подтверждение, чтобы определить, кто вы и на какую роль способны. Поднимитесь на следующий уровень, когда будете к этому готовы.

Всегда сравнивайте с самим собой, определяйте свой путь, работайте в этом направлении, поднимайте планку и старайтесь сделать хотя бы 1% лучше, чем накануне.

Я люблю предпринимательство и наставничество.

Я заинтересован предоставить одну бесплатную консультацию по проектированию данных, аналитике продуктов и машинному обучению для любых стартапов или желающих предпринимателей и «ИИ для общественных благ».

Свяжитесь с нами через https://www.linkedin.com/in/kannandreams/.

Спасибо, что дочитали до конца. Дайте аплодисменты и поделитесь им, если вам понравился пост. :)