Учебные курсы по машинному обучению MehtA+ (2020)

Прошлым летом 40 старшеклассников со всего мира приняли участие в MehtA+ Machine Learning Bootcamp, где они изучили теорию и применение искусственного интеллекта/машинного обучения. Студенты работали в группах над передовыми приложениями ИИ в финальном проекте по своему выбору. Они выполнили свои проекты в различных областях, таких как музыка, медицина, история, лингвистика, обнаружение мошенничества и т. д. Вот что они придумали!

Распознавание рукописного текста с помощью сверточной нейронной сети на произведениях Джорджа Вашингтона

Команда SeaMLless StAIrwells: Райан Б., Дев Д., Питер Т., Джейдев З.

Аннотация: Почерк — это характеристика, уникальная для каждого человека, и поэтому он является важным идентификатором, позволяющим отличить письмо одного человека от письма другого. Эта способность различать стили почерка особенно важна для археологов и историков при идентификации рукописных исторических документов. Однако стили почерка сложны, со многими особенностями, характерными для писателя, что побуждает нас задаться вопросом, может ли машинное обучение хорошо работать при определении того, был ли документ написан какой-либо исторической личностью. В этом проекте проверки авторства реализована сверточная нейронная сеть (CNN) в сочетании с нормализацией двоичных пикселей и случайным кадрированием изображения для решения проблемы определения того, является ли конкретная историческая личность автором письменного документа. Модель была обучена отличать почерк Джорджа Вашингтона от уникальных и разнообразных почерков 657 неизвестных людей. Предполагаемое использование модели состояло в том, чтобы различать почерк Вашингтона и кого-либо еще. Таким образом, модель показала хорошие результаты с точностью тестирования 99,7% и доказала, что CNN можно использовать для бинарного сопоставления образцов почерка с авторством.

Ссылка на сайт

Раннее выявление болезни Альцгеймера с помощью сверточных нейронных сетей

Команда AI-zheimer: Мехар Б., Майя С., Эбигейл Т., Мира С.

Резюме: Болезнь Альцгеймера — это прогрессирующее заболевание головного мозга, которое нарушает память и нормальную функцию мозга и является шестой по значимости причиной смерти в Соединенных Штатах. Ключом к борьбе с этим заболеванием является раннее обнаружение. Этот проект применяет алгоритмы машинного обучения к набору данных из 6400 МРТ-сканирований мозга для обучения высокоточных моделей предсказанию стадии заболевания. Эти модели могут помочь выявить ранние стадии болезни Альцгеймера и направить пациентов на путь выздоровления, что может помочь в борьбе с этой широко распространенной проблемой.

Ссылка на сайт

Анализ настроений в твитах, связанных с COVID-19

Мнение команды Deep Learning COVID-19: Арианна С., Доминик С., Харшини М., Клэр З.

Аннотация: Недавняя пандемия COVID-19 резко изменила жизнь в глобальном масштабе. Власти полагаются на точные отчеты о подтвержденных случаях для принятия решений о благополучии граждан. В это время граждане, находящиеся на карантине, также все больше полагаются на социальные сети, чтобы делиться своими мнениями и чувствами по поводу их текущей ситуации. В этом проекте применяются такие модели, как логистическая регрессия, машина опорных векторов, наивный байесовский метод и стохастический градиентный спуск, для классификации твитов, связанных с COVID-19, с тональностью -1, 0, 1, что означает отрицательное, нейтральное и положительное соответственно. При этом мы обнаружили обратную зависимость между средними настроениями пользователей Twitter в определенном месте и количеством случаев в этом районе на определенную дату.

Ссылка на сайт

Методы глубокого обучения для классификации меланомы

Команда MLnoma: Прити Г., Изабель Х., Минни Л., Мохаммад С

Резюме: Наиболее распространенным видом рака в мире является рак кожи. Раннее обнаружение рака кожи может резко увеличить выживаемость пациентов; поэтому компьютеризированная система классификации изображений кожных поражений может сэкономить время и, соответственно, продлить человеческую жизнь. В этой статье мы поднимаем традиционную одномодальную модель, которая вводит только изображения в CNN, в современную мультимодальную модель, которая объединяет модель изображения CNN с функциями метаданных. Наши результаты показывают, что наша мультимодальная модель превосходит одномодальную модель с увеличением точности на 9,5%. Мы дополнительно улучшаем нашу модель, исследуя различные архитектуры CNN, в частности ResNet-18 и VGG16. Наша точность увеличивается при использовании ResNet-18, и мы подтверждаем эти результаты, применяя алгоритм Grad-CAM к нашим изображениям поражений кожи.

Ссылка на сайт

Игра в имитацию: генеративные состязательные сети передачи стиля для не-гроссмейстеров

Команда GANMasters: Мэттью М., Ноа Р., Густаво С., Джеффри В.

Аннотация: STGAN (Style Transfer Generative Adversarial Network) ранее применялась к профессиональным шахматистам в попытке имитировать их стиль. Однако вместо этого мы попытались применить STGAN к случайным игрокам, чтобы увидеть, могут ли STGAN успешно имитировать случайных игроков, поскольку случайные шахматисты принимают более разнообразные и сложные решения. Мы использовали одну из шахматных игр друга автора для обучения модели STGAN, и автор оценивал эффективность модели в шахматном матче на основе того, насколько стиль был похож на стиль друга автора. Мы обнаружили, что когда проигрыш увеличивался, он начинал более точно подражать другу, а также улучшался в шахматах в целом. Однако, когда потери стали слишком большими, модель начала копировать ходы из своего обучения.

Ссылка на сайт

Анализ настроений и прогнозирование цен на акции: исследование набора данных на основе твитов

Команда NYSE:TMS: Srijan D, Tanusri M, Michelle Z

Аннотация: анализ движений фондового рынка стал популярной областью исследований, и, несмотря на прежние убеждения, было доказано, что общественное мнение оказывает влияние на движение фондового рынка. В этой статье мы применяем анализ настроений к набору данных на основе твитов, чтобы исследовать, как общественные настроения можно использовать для прогнозирования движений фондового рынка. Используя наивный байесовский классификатор и модель линейной регрессии, мы предсказали цену акций открытия на следующий день. В среднем мы добились точности 52,2% в предсказании направления цен акций десяти различных компаний при открытии на следующий день.

Ссылка на сайт

Анализ авторства оспариваемых статей федералистов с помощью неконтролируемого машинного обучения

Команда Fresh Pages: Ишита А., Сушант К., Элис Л., Саатвик С

Аннотация: Одной из наиболее важных тем в области обработки естественного языка является атрибуция авторства, которая имеет дело с текстами, авторство которых неизвестно. В основном он фокусируется на стиле письма, а не на теме. Мы используем вычислительную стилометрию для преобразования заданных наборов текста в числовые значения, которые затем можно обрабатывать и анализировать с использованием различных моделей. Эти числовые значения обычно представляют собой лексические, синтаксические и/или семантические признаки. В этой статье обсуждается наш подход к разрешению разногласий по поводу авторства нескольких статей The Federalists Papers путем использования неконтролируемого алгоритма машинного обучения для атрибуции авторства. После предварительной подготовки каждой статьи мы извлекли из статей две характеристики — TF-IDF и частоты подсчета пунктуации. Затем мы обучили модель кластеризации KMeans на матрице, состоящей из признаков из статей с известным авторством. Точность этой модели составила 81,82%. Чтобы предсказать авторов оспариваемых статей, мы прогнали их собранные признаки через нашу модель KMeans и сопоставили полученные метки с метками наших известных статей. В результате мы обнаружили, что автором большинства документов был Гамильтон.

Ссылка на сайт

Создание музыки

Team Music Gen: Бен К. и Лили Б

Аннотация: Для этого проекта мы решили генерировать музыку с помощью машинного обучения. Мы поместили несколько песен в наш код, чтобы получить конечный продукт мэшапа, который мы искали. У нас было две разные модели, одна для правого уха и одна для левого. В этом проекте вы увидите, как мы сделали мэшап из трех песен.

Ссылка на сайт

Обнаружение поддельных новостей с помощью машин опорных векторов

Team Real vs Fake News: Брэдли А., Рэйчел К., Рэйчел С., Джонатан С

Аннотация: В последние годы фальшивые новости стали угрозой достоверным и надежным новостям. Недавние улучшения в возможностях ИИ по созданию фальшивых новостей упростили создание реалистичных, но фальшивых новостных статей, которые могут дезинформировать общественность. Чтобы помочь отличить настоящие новостные статьи от поддельных, в этой статье предлагается модель SVM, которая классифицирует статьи с точностью 89 %, основываясь только на заголовке, и с точностью 98 % на основе заголовка и первых 1000 символов. Такой высокий уровень точности может позволить системам, сканирующим социальные сети или другие платформы, быстро отмечать подозрительные статьи.

Ссылка на сайт

Анализ контролируемых методов обучения для обнаружения мошенничества с кредитными картами

Команда MasterFraud Discovery: Дженнифер Г., Карен С., Грейс Т.

Аннотация: Мошенничество с кредитными картами становится все более серьезной проблемой как в Соединенных Штатах, так и во всем мире. К сожалению, бесчисленные убытки, вызванные мошенническими транзакциями, обычно оплачиваются торговыми компаниями и компаниями, выпускающими кредитные карты. В этом проекте анализируются контролируемые модели машинного обучения для выявления мошеннических транзакций на основе информации о транзакциях. При этом мы работали с тремя моделями: дерево решений, KNN и случайный лес, анализируя как отдельные модели, так и все возможные комбинации моделей. Окончательная оценка мошенничества рассчитывается как вероятность мошенничества на основе всех моделей, которые достигли отзыва 82% с точностью 84%. Наша окончательная модель представляет собой вероятность, а не абсолютное решение о мошенничестве, что может позволить компаниям, выпускающим кредитные карты, учитывать личные опасения при принятии решения о своих действиях в ответ на возможные будущие мошенничества.

Ссылка на сайт

Перевод на латынь с помощью машинного обучения

Команда переводчиков Linguae Latinae: Сьюзен С., Саммер З., Зои З.

Аннотация: В этой статье представлена нейронная модель перевода для латыни. Учитывая отсутствие точных переводов и ресурсов в доступных корпусах, латынь, возможно, является одним из самых сложных языков для реализации точной модели автоматического перевода. Однако, самостоятельно находя словарь, фразы и предложения разного уровня сложности и очищая их как вручную, так и с помощью программирования, наша модель достигла 96% точности латинского перевода. Наши экспериментальные результаты показывают, что предложенная модель лучше работает со словарным запасом и короткими фразами, но не так хорошо с длинными сложными предложениями, и, таким образом, достигается заметное улучшение оценки BLEU в задачах перевода с латинского на английский по сравнению с нейронным машинным переводом на основе фраз Google. модель.

Ссылка на сайт

Летом 2021 года MehtA+ проведет Учебный курс по цифровому гуманитарному машинному обучению, где студенты получат возможность применить машинное обучение в гуманитарных науках под руководством профессоров гуманитарных наук из престижных университетов мира. Прием заявок открыт до 9 мая 2021 года.

Учебные курсы по машинному обучению MehtA+ (2020)

Вопросы по теме