Еженедельное обновление Exploratory Vol. 11
Важность интерпретируемости ИИ, культуры, основанной на данных, статистики и машинного обучения и т. Д.
Всем привет!
Это Кан из исследовательского центра.
Я всегда думал, что эти американские каникулы под названием «Лыжная неделя» - это такая крутая идея. В основном школы не работают всю неделю, чтобы семьи с детьми могли покататься на лыжах. До прошлой недели я не осознавал, что это также означало, что у меня должен был быть ребенок, плачущий с левой стороны, и мальчик дошкольного возраста, умоляющий играть с правой стороны, в то время как я пытался работать над Exploratory. ;)
В любом случае, перед тем, как начать обновление на этой неделе, запись на наш курс Data Science Booster все еще открыта. У нас есть студенческая скидка (скидка 50%). Если вы заинтересованы в изучении науки о данных без программирования, зарегистрируйтесь сегодня!
А теперь новости на этой неделе!
Что мы читаем
Машинное обучение не сможет раскрыть свой потенциал без человеческого фактора
Объяснимость / интерпретируемость моделей машинного обучения - одно из самых сложных препятствий на пути к тому, чтобы машинное обучение было полезным для многих. Мы, как потребители приложений, не знаем, создано ли то, что мы читаем, видим, слушаем и т. Д., Искусственным интеллектом, и мы даже не знаем, как они создаются. И оказалось, что те, кто их создают, также не до конца понимают ограничения используемого ими алгоритма и предвзятость их обучающих данных.
Это в большей степени причина, по которой нам нужно уделять больше внимания анализу данных в машинном обучении (или статистическом обучении), которое может помочь нам понять взаимосвязи и закономерности в данных, а не просто получить результат прогноза. Это не «крутое» сообщение, которое многие из нас хотят слышать, когда мы хотим, чтобы все проблемы решались автоматически с помощью ИИ, но оно очень важно. ;)
Однако как только мы выйдем за рамки этой шумихи об автоматизации ИИ, люди поймут, что ИИ - это просто расширение нашего набора инструментов. Это больше похоже на дополненный интеллект, чем на искусственный интеллект. И дискуссия будет больше похожа на то, как мы можем использовать ИИ, чтобы повысить свою продуктивность или улучшить процесс принятия решений, вместо того, чтобы беспокоиться о том, возьмет ли ИИ на себя наши рабочие места, чтобы повысить нашу продуктивность.
Крупные компании переходят на аналитику, но у большинства все еще нет культуры, основанной на данных
Технологические компании, разбирающиеся в данных, такие как Google, Amazon, Facebook и т. Д., Становятся все более серьезной угрозой для многих предприятий. И это побуждает многие компании создавать собственную культуру, основанную на данных. Проблема в том, что эти первые технологические компании с ИИ не стали разбираться в данных в одночасье, они начали свой путь с самого начала. Вот почему это называется «культура».
Но это могло быть проблемой. Эта недавняя шумиха вокруг искусственного интеллекта может в конечном итоге сделать проекты Data Science просто еще одним из проектов, ориентированных на ИТ, а не бизнес-проектом, который изменит способ принятия бизнес-решений с использованием данных. Создание таких должностей, как директор по данным, директор по аналитике и т. Д., Заставляет людей чувствовать себя хорошо в краткосрочной перспективе. Но культурные изменения требуют времени, и это то, что нужно большинству компаний в долгосрочной перспективе.
Но мы также можем утверждать, что, если только компании, разбирающиеся в данных, могут быть конкурентоспособными, тогда все компании в конечном итоге будут иметь культуру, основанную на данных, благодаря «выживанию сильнейших». Компании без такой культуры умрут, если все будет на рынке.
Машинное обучение против статистики
Если кто-то хочет знать, в чем разница между машинным обучением и статистикой, то вот оно. Это не новый пост в блоге с прошлой недели, но я только что нашел его на прошлой неделе и хотел бы поделиться.
Другое
- Как реформировать политику обучения и адаптации рабочих в эпоху технологических изменений - Link
- Мы находимся в кризисе разнообразия: соучредитель Black in AI о том, какие алгоритмы отравления в нашей жизни - Link
- Что такое GDPR (Общий регламент по защите данных)? Понимание и соблюдение требований GDPR по защите данных. - "Ссылка"
Цитата недели
Крипто децентрализуется, ИИ централизуется. Или, если вы хотите сформулировать это более идеологически, криптовалюта - это либертарианец, а ИИ - коммунистический.
Питер Тиль, основатель Paypal, венчурный капиталист.
Питер Тиль (основатель Paypal, венчурный капиталист) и Рид Хоффман (основатель LinkedIn, венчурный капиталист) обсуждали технологии, политику и т. Д. Одной из тем был искусственный интеллект. У них обоих очень интересные взгляды, но они отличаются как либертарианцы и либералы. Настоятельно рекомендую посмотреть эту запись. Ссылка
Интересные данные
США Данные об экономических санкциях
Управление по контролю за иностранными активами министерства финансов публикует списки организаций и лиц, против которых наложены экономические санкции США.
- Особо обозначенные граждане и заблокированные лица (SDN) - Ссылка
- Сводный санкционный список - Ссылка
(Вводится словом Data is Plural.)
Смерть журналистов во всем мире - Ссылка
Комитет защиты журналистов собирает и публикует данные о журналистах, которые были убиты по всему миру с 1992 года. Он содержит подробные данные, такие как их национальность, место убийства, средства массовой информации, на которые они работали и т. Д.
(Введено Data World.)
Что мы пишем
В линейной регрессии нет ничего нового и ничего необычного в наши дни, но это по-прежнему один из наиболее часто используемых алгоритмов статистического обучения (или машинного обучения) среди специалистов по данным / статистиков для анализа данных благодаря своей простоте, что упрощает работать с различными проблемами, а также упрощает интерпретацию полученных результатов. Однако этот мощный и полезный алгоритм все еще остается загадкой для тех, кто плохо знаком с миром науки о данных, поэтому я начинаю серию под названием «Практическое руководство по исследовательскому анализу данных с помощью линейной регрессии», и вот первый пост.
Надеюсь, это поможет большему количеству людей использовать линейную регрессию для ежедневного анализа данных и получить больше значений из своих данных.
Над чем мы работаем
Как я упоминал на прошлой неделе, мы добавляем дополнительные возможности статистического тестирования в Analytics View. Один из них - это тест на нормальность, который оценивает, нормально ли распределены данные данной переменной. Некоторые статистические алгоритмы, такие как T-Test, Pearson Correlation и т. Д., Предполагают, что базовые данные распределены нормально. Теперь вы можете просто выбрать набор переменных и быстро определить, какие переменные имеют нормальное распределение, а какие нет.
Например, у меня есть следующие 8 переменных, распределение данных которых можно отобразить в виде гистограммы.
Тест нормальности (тест Шапиро-Уилка) подскажет нам, какие переменные, скорее всего, нормально распределены, а какие нет.
Мы также можем использовать что-то, называемое графиком QQ, чтобы визуализировать, насколько базовые данные близки или далеки от идеальной формы нормального распределения.
Обучение бустеру Data Science Booster
Как упоминалось в начале, набор на наш курс Обучение Data Science Booster все еще открыт. У нас есть студенческая скидка (скидка 50%). Если вы заинтересованы в изучении науки о данных без программирования, зарегистрируйтесь сегодня!
На этой неделе все.
Удачной вам недели!
Кан
Генеральный директор / Исследовательский