Что читает специалист по данным? Мои чтения за январь-март 2022 г.

Есть секретная формула? Делюсь своим чтением за январь-март 2022 года

Наука о данных не склонна стоять на месте. Я помню, когда я только начинал, выбранный язык программирования менялся в течение года по мере того, как писались новые пакеты, превосходившие конкурентов. Действительно, в то время не было никаких аккредитованных курсов университетской подготовки для этого. Вы должны были пройти любое обучение, которое вы могли получить, и надеяться, что кто-то рискнет на вас. Я бы не сказал, что было бы редкостью чувствовать синдром самозванца и огромное давление, которое может быть оказано на кого-то, чтобы он переутомлялся и продолжал учиться в случае, если он узнал, что он никуда не годится.

Кстати, я склонен считать, что люди, у которых нет этого чувства время от времени, являются самозванцами, они еще недостаточно знают о науке о данных, чтобы понять, что они действительно не знают всего.

В наши дни, несмотря на преобладание курсов по науке о данных и университетских курсов, я бы сказал, что необходимость учиться все еще существует. Люди часто ожидают, что мы все должны знать все алгоритмы вдоль и поперек (вы этого не знаете), и я часто встречал специалистов по данным, которые поздно читали документы в офисе, пропускали домашнюю жизнь и постепенно теряли любовь к работе.

Итак, что вы должны читать? Проще говоря, все, что вызывает у вас страсть и интерес. Хотите прочитать 20-страничную статью по чистой математике?

Действуй.

Хотите прочитать статью о том, как кто-то сделал кораблик в бутылке?

Действуй.

Это может показаться странным, но это то, чем я занимаюсь, и, по крайней мере, я больше всего узнаю, когда иду по кроличьей норе (вики или как-то иначе), в которой заблудился.

Как я уже говорил ранее, работая специалистом по данным, люди, кажется, думают, что мы всегда читаем бумаги, занимаемся математикой, рисуем на доске и т. д. в течение всего доступного нам времени. Но я обнаружил, что если я делаю это, я становлюсь узким в отношении того, как делать что-то «сейчас», а не в том, что может произойти. Это также, как правило, выходной для автобуса, и мне нужно время после работы, чтобы заняться чем-то другим, иначе я сойду с ума.

Мой первый совет: если вы чувствуете себя утомленным и усталым от науки о данных, НЕ ЗАНИМАЙТЕСЬ ЭТИМ ВСЕ ВРЕМЯ! риск ненавидеть то, что вы любите, и пропустить другие вещи, которые вы хотели бы делать. Это было то, что многие люди испытали, работая над диссертацией. Я помню, как одним из моих первых опытов, когда я начал свою работу, было то, что я пришел в офис, и к концу недели один человек постоянно плакал к концу дня. Они потратили так много времени, пытаясь решить проблему, что уже не могли отвлечься, занимаясь чем-то другим или видя ее по-другому.

Какое это имеет отношение к чтению, Пол?

Ладно, может ты и прав, и я отвлекся. Но я хотел сказать, что не думайте, что все, что вы должны прочитать, чтобы продвинуться в науке о данных, должно быть наукой о данных. Часто просмотр других интересных вещей может установить связи и вдохновить вас, о которых вы даже не подозревали.

Для меня это произошло на недавней работе, где они так усердно пытались решить проблему определенным образом, но я мог видеть, что это связано с решением, которое уже существовало в мире инженеров надежности (одна из моих прошлых жизней и что-то в этом роде). до сих пор слежу).

Мой список для чтения

На работе меня часто спрашивают, что я читаю или чем сейчас интересуюсь; Я ежемесячно публикую список прочитанного (или увиденного), который показался мне захватывающим. Многим это понравилось, и я подумал, почему бы не поделиться?

Итак, вот для вашего удовольствия последние три месяца того, что я читал (я даже включил свой комментарий, а не голые ссылки). Наслаждаться! Если вы нашли это полезным, пожалуйста, дайте мне знать, и я буду продолжать делиться!

январь 2022 г.

Эндрю Нг: Unbiggen AI

Это была статья, присланная мне коллегой, в которой Эндрю Нг (один из самых известных специалистов по данным) отвечает на некоторые вопросы о том, что он считает следующими тенденциями в области ИИ. Он делает хорошее замечание о наличии фундаментальных моделей (расширенных общих моделей, которые люди используют в качестве основы и корректируют), а также о наличии более ориентированного на данные ИИ, когда мы стремимся к хорошим данным, а не к большим данным для достижения целей в областях. где большие наборы данных не могут или не будут существовать.

Интересное чтение за чашечкой кофе.

Автоматизируем ли мы расизм?

Это тема, которая периодически поднимается, и люди должны больше думать о ней, особенно в тех областях, где машинные решения используются для принятия решений, которые могут несправедливо судить людей. Между машинами, которые плохо справляются с определенными задачами, и теми, которые плохо работают с определенными группами, есть небольшая разница, даже если частота ошибок одинакова. Например, если плохое решение в отношении члена группы может быть более разрушительным, чем плохое решение в отношении другой группы, то такая же частота неудач может быть крайне нежелательной. Действительно интересный взгляд на причины и на то, что можно сделать, чтобы «сбросить» предубеждения, которые у вас могут быть.

Первый пример, который они используют, очень шокирует, но также представляет собой интересную технику, о которой я не подумал, — это определение областей интереса на изображениях с помощью Saliency. Это приводит к шокирующему поведению обрезанных миниатюрных изображений в Твиттере, когда система машинного обучения ищет лица на изображении, чтобы обрезать его, и в 60+% случаев выбирает белые лица, а не лица других национальностей. Причиной здесь было то, что в тренировочных данных было мало примеров небелых лиц, но также возникает вопрос, нужно ли такому инструменту вообще машинное обучение.

Еще одним интересным примером были медицинские вмешательства, когда они обнаружили, что люди, которые не были белыми, должны были быть намного более больны, чтобы вмешательства были вызваны. Причина заключалась в том, что тренировочные данные были помечены таким образом, что это оказалось необъективным.

Самый быстрый путь к ближайшей точке

Я думаю, что у всех нас была проблема с кодированием при поиске значения, наиболее близкого к другому. Иногда мы просто идем простым путем и загружаем все точки в список, перебираем их все и затем возвращаем ближайшую. Это может быть хорошо для небольшого количества точек, но как только вы доберетесь до миллионов или даже миллиардов, это может занять невероятно много времени.

В этом видео Computerphile рассматривает определенный способ сделать этот поиск более быстрым и эффективным, используя деревья K-d. Это позволяет быстро выполнять поиск в многомерной области (k измерений). Если вам интересно, почему это проблема, они приводят пример навигации LIDAR в роботах, которая возвращает тысячи точек за сканирование, и им нужно быстро связать их со своей картой предыдущих сканирований. Если вы не можете сделать это достаточно быстро, то навигация может стать неуклюжей и медленной, так как им придется ждать обновления своих карт.

Превращение сооружений в аттракционы

Это не видео о науке о данных или машинном обучении», но здесь Том Скотт» (он снимает много интересных видео) рассказывает о Hill House в Шотландии. Революционный дом был построен в начале 1900-х годов, но из-за своей продвинутости он буквально растворяется в шотландской погоде.

Проблема в том, что его нельзя полностью покрыть, или он не высохнет должным образом (слишком быстро или вообще не высохнет), поэтому они использовали инновационную сетчатую систему из кольчуги, чтобы он оставался сухим и позволял ему дышать.

Проблема здесь в том, что если туристы не могут увидеть дом, то они могут забыть о нем и перестать ходить в гости. Установив специальные проходы внутри коробки, они вместо этого позволили туристам увидеть дом, который был невозможен до того, как он превратился в уникальную достопримечательность.

Интересный пример превращения проблемы в совершенно новую возможность привлечь туристов на сайт и помочь оплатить расходы. Что-то, о чем мы всегда должны думать, когда приближаемся к проблемам.

февраль 2022 г.

Иногда простое все еще лучше

Кажется, я уже указывал людям на видео Тома Скотта на YouTube, но это показалось мне интересным. В Шотландии камнепады могут вызвать опасные условия на дорожной сети.

«В этом видео они смотрят, как до сих пор используется викторианская система оповещения, потому что другие современные решения так же не работают.

Отслеживание нескольких объектов

Эта проблема возникла во время недавнего мозгового штурма по проекту. Конкретным желаемым решением, в конце концов, была необходимость отслеживать объекты от одной сцены к другой или отслеживать несколько объектов одновременно. Эта статья представляет собой введение и содержит ссылки на ресурсы для дальнейшего чтения для всех, кто заинтересован.

SQL: система баз данных, которая отказывается умирать

Не так много лет назад SQL рекламировался как уходящий, а многие неструктурированные версии рекламировались как путь вперед. Тем не менее, он по-прежнему активно используется, поскольку его структура означает, что в некоторых случаях людям может быть проще использовать и поддерживать его. Конечно, он также все еще используется в ситуациях, когда должны быть другие решения, но это не главное здесь (я просто хотел указать на это, пока это не сделал кто-то другой).

Кроме того, если вы следовали каким-либо прогнозам ведущих специалистов по данным, таких как Эндрю Нг. вы, должно быть, видели, что теперь они предпочитают высококачественные наборы данных огромным для обучающих моделей (особенно если базовые модели станут более распространенными), поэтому SQL может существовать еще некоторое время.

Если вы когда-нибудь пытались изучить PySpark, вы обнаружите, что большая часть структуры операторов PySpark похожа на SQL. Имея это в виду, я добавил ссылку на статью здесь, а также ссылки на Академию Хана, где проводится бесплатный курс обучения SQL, который полностью выполняется в браузере.

Расстояние — Хэмминга, Евклида или Манхэттена?

Если вы никогда не работали с какими-либо географическими данными или данными о расстоянии, вы, вероятно, никогда не задумывались о том, что иногда измерение расстояния по прямой не соответствует задаче, которую вы пытаетесь решить. Введите различные меры расстояния. Возможно, они вам и не понадобятся, но все же полезно знать.

Маршировать

Тенденции данных

Эта статья интересна тем, что излагает, какие тренды, по их мнению, появятся в ближайшие три года. Я даже узнал новую вещь, голосовой фишинг, когда вместо использования глубоких фейков для создания видео они использовали его для имитации голосов людей (и это уже использовалось в криминальной афере).

Интересно читать в любом случае.

Скоро мы сможем смотреть телевизор в путешествиях

Ну, по крайней мере, в большем количестве мест.

Дорожный кодекс: будет разрешено смотреть телевизор в автомобилях с автоматическим управлением
Людям, использующим автомобили с автоматическим управлением, будет разрешено смотреть телевизор на встроенных экранах в соответствии с предлагаемыми обновлениями …www.bbc.co.uk

Эта новостная статья от BBC рассказывает о том, что Правила дорожного движения меняются, чтобы водители автономных автомобилей могли смотреть телевизор. Однако использование телефона по-прежнему является незаконным.

Другое замечание заключается в том, что пользователи беспилотных автомобилей не будут нести ответственность за аварии (страховые компании будут нести ответственность). Конечно, это спорный вопрос, поскольку производители беспилотных автомобилей будут более нерешительно относиться к выпуску своей продукции, поскольку в конечном итоге они не хотят, чтобы это стоило им больше денег (т. высокая стоимость ответственности). Об этом даже есть целая статья в Википедии, если вы хотите копнуть глубже.

P.S. Если вы думали, что мы находимся в мире беспилотных автомобилей, это не так. Существует полная система классификации, и все современные автомобили относятся к уровню SAE 2, который является последним рейтингом (чем выше, тем более автоматизирован), где система может помочь вам, но в конечном итоге водитель несет ответственность за контроль и сохранение контроля.

Примерами систем уровня 1 могут быть системы помощи при движении по полосе, адаптивный круиз-контроль и системы автоматического торможения (управление рулевым управлением или ускорением/торможением, уровень 2 выполняет и то, и другое). Оба предназначены для того, чтобы направлять вас и быть последним отказоустойчивым, но вы должны контролировать или игнорировать их.

Системы помощи при удержании полосы движения

В моей машине есть это, и я всегда предполагал, что она использует камеру для обнаружения белых линий дороги, а затем делает что-то необычное, чтобы удерживать ее в полосе движения (или предупреждать меня, если я этого не делаю). Итак, я немного покопался, есть интересная исследовательская статья с использованием SVM для этого, а затем я нашел более хобби-подход к тому, чтобы сделать это с помощью OpenCV. (есть специализация Курсера, если кому суперинтересно, хотя сам не смотрел).

Как видите, в этом месяце я заблудился в кроличьей норе.

Краткое содержание

Я изложил кое-что из того, что показалось мне интересным за последние три месяца, и надеюсь, что вам они тоже понравились.

Желаю хорошей недели!