Еженедельное обновление Exploratory Vol. 11

Важность интерпретируемости ИИ, культуры, основанной на данных, статистики и машинного обучения и т. Д.

Всем привет!

Это Кан из исследовательского центра.

Я всегда думал, что эти американские каникулы под названием «Лыжная неделя» - это такая крутая идея. В основном школы не работают всю неделю, чтобы семьи с детьми могли покататься на лыжах. До прошлой недели я не осознавал, что это также означало, что у меня должен был быть ребенок, плачущий с левой стороны, и мальчик дошкольного возраста, умоляющий играть с правой стороны, в то время как я пытался работать над Exploratory. ;)

В любом случае, перед тем, как начать обновление на этой неделе, запись на наш курс Data Science Booster все еще открыта. У нас есть студенческая скидка (скидка 50%). Если вы заинтересованы в изучении науки о данных без программирования, зарегистрируйтесь сегодня!

Обучение анализу данных
Наука о данных предназначена не только для специалистов по анализу данных. Это для всех. Начните изучать науку о данных без программирования! exploratory.io

А теперь новости на этой неделе!

Что мы читаем

Машинное обучение не сможет раскрыть свой потенциал без человеческого фактора

Машинное обучение не сможет раскрыть свой потенциал без человеческого фактора
Беседа с Сарой Катандзаро из Amplify Partners machinelearnings.co

Объяснимость / интерпретируемость моделей машинного обучения - одно из самых сложных препятствий на пути к тому, чтобы машинное обучение было полезным для многих. Мы, как потребители приложений, не знаем, создано ли то, что мы читаем, видим, слушаем и т. Д., Искусственным интеллектом, и мы даже не знаем, как они создаются. И оказалось, что те, кто их создают, также не до конца понимают ограничения используемого ими алгоритма и предвзятость их обучающих данных.

Это в большей степени причина, по которой нам нужно уделять больше внимания анализу данных в машинном обучении (или статистическом обучении), которое может помочь нам понять взаимосвязи и закономерности в данных, а не просто получить результат прогноза. Это не «крутое» сообщение, которое многие из нас хотят слышать, когда мы хотим, чтобы все проблемы решались автоматически с помощью ИИ, но оно очень важно. ;)

Однако как только мы выйдем за рамки этой шумихи об автоматизации ИИ, люди поймут, что ИИ - это просто расширение нашего набора инструментов. Это больше похоже на дополненный интеллект, чем на искусственный интеллект. И дискуссия будет больше похожа на то, как мы можем использовать ИИ, чтобы повысить свою продуктивность или улучшить процесс принятия решений, вместо того, чтобы беспокоиться о том, возьмет ли ИИ на себя наши рабочие места, чтобы повысить нашу продуктивность.

Крупные компании переходят на аналитику, но у большинства все еще нет культуры, основанной на данных

Крупные компании внедряют аналитику, но у большинства все еще нет культуры, основанной на данных
Краткое содержание В течение шести лет подряд NewVantage Partners проводила ежегодный опрос о том, как руководители … hbr.org

Технологические компании, разбирающиеся в данных, такие как Google, Amazon, Facebook и т. Д., Становятся все более серьезной угрозой для многих предприятий. И это побуждает многие компании создавать собственную культуру, основанную на данных. Проблема в том, что эти первые технологические компании с ИИ не стали разбираться в данных в одночасье, они начали свой путь с самого начала. Вот почему это называется «культура».

Но это могло быть проблемой. Эта недавняя шумиха вокруг искусственного интеллекта может в конечном итоге сделать проекты Data Science просто еще одним из проектов, ориентированных на ИТ, а не бизнес-проектом, который изменит способ принятия бизнес-решений с использованием данных. Создание таких должностей, как директор по данным, директор по аналитике и т. Д., Заставляет людей чувствовать себя хорошо в краткосрочной перспективе. Но культурные изменения требуют времени, и это то, что нужно большинству компаний в долгосрочной перспективе.

Но мы также можем утверждать, что, если только компании, разбирающиеся в данных, могут быть конкурентоспособными, тогда все компании в конечном итоге будут иметь культуру, основанную на данных, благодаря «выживанию сильнейших». Компании без такой культуры умрут, если все будет на рынке.

Машинное обучение против статистики

Машинное обучение против статистики - Наука о данных в Кремниевой долине
Смертельная схватка техасской науки о данных | 10 августа 2017 г. На протяжении всей своей истории машинное обучение (ML) сосуществовало… www.svds.com

Если кто-то хочет знать, в чем разница между машинным обучением и статистикой, то вот оно. Это не новый пост в блоге с прошлой недели, но я только что нашел его на прошлой неделе и хотел бы поделиться.

Другое

Как реформировать политику обучения и адаптации рабочих в эпоху технологических изменений - Link
Мы находимся в кризисе разнообразия: соучредитель Black in AI о том, какие алгоритмы отравления в нашей жизни - Link
Что такое GDPR (Общий регламент по защите данных)? Понимание и соблюдение требований GDPR по защите данных. - "Ссылка"

Цитата недели

Крипто децентрализуется, ИИ централизуется. Или, если вы хотите сформулировать это более идеологически, криптовалюта - это либертарианец, а ИИ - коммунистический.

Питер Тиль, основатель Paypal, венчурный капиталист.

Питер Тиль (основатель Paypal, венчурный капиталист) и Рид Хоффман (основатель LinkedIn, венчурный капиталист) обсуждали технологии, политику и т. Д. Одной из тем был искусственный интеллект. У них обоих очень интересные взгляды, но они отличаются как либертарианцы и либералы. Настоятельно рекомендую посмотреть эту запись. Ссылка

Интересные данные

США Данные об экономических санкциях

Управление по контролю за иностранными активами министерства финансов публикует списки организаций и лиц, против которых наложены экономические санкции США.

Особо обозначенные граждане и заблокированные лица (SDN) - Ссылка
Сводный санкционный список - Ссылка

(Вводится словом Data is Plural.)

Смерть журналистов во всем мире - Ссылка

Комитет защиты журналистов собирает и публикует данные о журналистах, которые были убиты по всему миру с 1992 года. Он содержит подробные данные, такие как их национальность, место убийства, средства массовой информации, на которые они работали и т. Д.

(Введено Data World.)

Что мы пишем

В линейной регрессии нет ничего нового и ничего необычного в наши дни, но это по-прежнему один из наиболее часто используемых алгоритмов статистического обучения (или машинного обучения) среди специалистов по данным / статистиков для анализа данных благодаря своей простоте, что упрощает работать с различными проблемами, а также упрощает интерпретацию полученных результатов. Однако этот мощный и полезный алгоритм все еще остается загадкой для тех, кто плохо знаком с миром науки о данных, поэтому я начинаю серию под названием «Практическое руководство по исследовательскому анализу данных с помощью линейной регрессии», и вот первый пост.

Практическое руководство по исследовательскому анализу данных с помощью линейной регрессии - Часть 1
Линейная регрессия - это алгоритм, который помогает нам прогнозировать неизвестный числовой результат в будущем. Обычно это первый… blog.exploratory.io

Надеюсь, это поможет большему количеству людей использовать линейную регрессию для ежедневного анализа данных и получить больше значений из своих данных.

Над чем мы работаем

Как я упоминал на прошлой неделе, мы добавляем дополнительные возможности статистического тестирования в Analytics View. Один из них - это тест на нормальность, который оценивает, нормально ли распределены данные данной переменной. Некоторые статистические алгоритмы, такие как T-Test, Pearson Correlation и т. Д., Предполагают, что базовые данные распределены нормально. Теперь вы можете просто выбрать набор переменных и быстро определить, какие переменные имеют нормальное распределение, а какие нет.

Например, у меня есть следующие 8 переменных, распределение данных которых можно отобразить в виде гистограммы.

Тест нормальности (тест Шапиро-Уилка) подскажет нам, какие переменные, скорее всего, нормально распределены, а какие нет.

Мы также можем использовать что-то, называемое графиком QQ, чтобы визуализировать, насколько базовые данные близки или далеки от идеальной формы нормального распределения.

Обучение бустеру Data Science Booster

Как упоминалось в начале, набор на наш курс Обучение Data Science Booster все еще открыт. У нас есть студенческая скидка (скидка 50%). Если вы заинтересованы в изучении науки о данных без программирования, зарегистрируйтесь сегодня!

На этой неделе все.

Удачной вам недели!

Кан
Генеральный директор / Исследовательский

Еженедельное обновление Exploratory Vol. 11