В тренде на этой неделе: библиотека EvalML для AutoML; Показатель схожести текста на основе графа, использующий информацию об именованном объекте; Почему ИИ с трудом понимает причину и следствие.

Каждую неделю мы анализируем самые обсуждаемые темы в Твиттере от влиятельных лиц в области науки о данных и искусственного интеллекта.

Следующие темы, URL-адреса, ресурсы и твиты были автоматически извлечены с использованием метода моделирования тем, основанного на предложении BERT, который мы улучшили, чтобы он соответствовал нашему варианту использования.

Хотите узнать больше об используемой методологии? Ознакомьтесь с этой статьей для получения более подробной информации и найдите коды в этом репозитории Github!

Обзор

На этой неделе влиятельные лица Data Science и AI в Твиттере говорили о:

  • Обновления машинного обучения
  • Обсуждения ИИ
  • Будущее рабочих мест в науке о данных

В следующих разделах представлены все подробности по каждой теме.

Обновления машинного обучения

На этой неделе влиятельные лица поделились некоторыми новостями о машинном обучении.

Вот некоторые обновления, которыми поделился KDnuggets:

Пост, представляющий EvalML, библиотеку для автоматического машинного обучения (AutoML) и понимания моделей, написанную на Python. Этот новый проект с открытым исходным кодом присоединился к экосистеме с открытым исходным кодом Alteryx. EvalML может уменьшить объем усилий, необходимых для получения точной модели, экономя время и сложность, поскольку он: выполняет проверки данных, чтобы выявить распространенные проблемы с вашими данными до моделирования; выполняет предварительную обработку данных и этапы разработки функций без дополнительной настройки; предоставляет доступ к различным моделям и инструментам для понимания моделей. Также предоставляются ссылки на репозиторий EvalML Github и документацию.

Статья, в которой обобщается исследовательская работа, опубликованная в 2017 году, под названием «Измерение схожести текста на основе графа, использующее информацию об именованных объектах». В этом посте объясняется новая методика вычисления схожести текстов, основанная на графическом представлении текстовых документов с использованием именованных объектов. Этот новый подход сочетает в себе 3 основных шага: извлечение именованных сущностей и высокопоставленных терминов в текстах; графическое представление извлеченной информации; вычисление специфических мер графа для измерения сходства между двумя графами.

Доктор. Ганапати Пулипака поделился:

В статье говорится о системе машинного обучения, которая объединяет мультиомные данные для прогнозирования связанных с раком длинных некодирующих РНК (LncRNAs). LncRNA была новым биомаркером-кандидатом в диагностике и прогнозировании рака. В этом посте предлагается новый подход к машинному обучению, а именно LGDLDA (сети ассоциации LncRNA-Gene-Disease, основанные на прогнозировании ассоциации LncRNA-Disease), для прогнозирования ассоциации lncRNAs, связанных с болезнью, на основе мультиомных данных, методов машинного обучения и информации о соседстве нейронной сети. агрегация.

Обсуждения ИИ

На этой неделе влиятельные лица поделились некоторым контентом о дискуссиях об искусственном интеллекте.

Ipfconline поделился статьей на тему Почему ИИ изо всех сил пытается понять причину и следствие. В этом посте объясняется, как алгоритмы машинного обучения, которым удалось превзойти людей в сложных задачах, таких как игра в го и шахматы, изо всех сил пытаются сделать простые выводы о причинно-следственных связях. Это объясняет, что причинно-следственная связь остается проблемой для алгоритмов машинного обучения, особенно для глубоких нейронных сетей.

Со своей стороны, Саймон Портер поделился исследованием, проведенным для определения стратегий и барьеров внедрения технологий ИИ в широком спектре отраслей. Это исследование, проводившееся в течение пяти лет, включает в себя серию опросов и интервью с руководителями высшего и высшего звена, а также углубленные исследования пяти ведущих организаций. Это привело к парадоксальному ключевому выводу: конкуренция в эпоху ИИ не связана с технологиями как таковыми — это вопрос новых организационных структур, которые используют технологии, чтобы выявить лучшее в людях. Они узнали, что секрет этой работы заключается в самой бизнес-модели, в которой машины и люди интегрированы, чтобы дополнять друг друга.

Наконец, Тамара Макклири поделилась постом на тему Чего еще не умеет искусственный интеллект. В этом посте объясняется, что сегодняшний ИИ по-прежнему имеет фундаментальные ограничения. По сравнению с тем, что мы ожидаем от действительно умного агента, ИИ предстоит пройти долгий путь. Сегодня основной искусственный интеллект по-прежнему не может: использовать здравый смысл, постоянно учиться и адаптироваться на лету, понимать причину и следствие и рассуждать этично. Но эти ограничения следует воспринимать как проблемы, которые важно решить, чтобы продвинуться вперед в области искусственного интеллекта.

Будущее профессии Data Science

На этой неделе влиятельные лица, занимающиеся наукой о данных и ИИ, поделились информацией о различных формах, которые могут принять текущие рабочие места в области науки о данных, и о ресурсах для повышения квалификации для специалистов по данным.

Carla Gentry поделилась учебным пособием Введение в статистику для науки о данных. Учебник проведет вас через основы статистики и распутает все модные словечки. Она также поделилась статьей о 10 лучших проектах по науке о данных для начинающих.

Вин Вашишта упоминает, что существует разрыв в навыках между теми способностями, которые пользуются большим спросом, и теми, которые есть у большинства специалистов по данным. Он поделился видео, в котором подробно рассказывается о пробелах в навыках и о том, как их использовать, чтобы получить работу в полевых условиях.

Рональд ван Лун поделился чек-листом, чтобы отследить ваш прогресс в науке о данных. Контрольный список содержит список навыков в трех категориях — начальный уровень, средний и продвинутый.

Наконец, KDnuggets поделился статьей под названием Наука о данных не вымрет через 10 лет, но ваши навыки могут. В статье рассказывается об истории науки о данных и о том, как реальные проекты по науке о данных нуждаются в итеративной разработке. И как оставаться в игре по науке о данных.

Они также поделились статьей о лучших навыках работы с данными в 2021 году. И еще одной статьей объяснение карьеры специалиста по данным, инженера данных и других специалистов по данным.