Хроники GSoC’23: восьмая неделя кодирования (8)

Базовые модели с моделями Automl

Добро пожаловать в мой последний пост в блоге, где я очень рад поделиться прогрессом, достигнутым за восьмую неделю программы Google Summer of Code (GSOC). Я прошу прощения за то, что не сообщил вам об этом на 7-й неделе; Я был под погодой. Не волнуйтесь, я расскажу обо всех обновлениях за обе недели в этом посте.

В моем предыдущем сообщении в блоге за неделю 6 я упомянул, что сосредоточился на создании базовых моделей для двух наборов данных и работе над классом InMemoryDataset для набора данных о раке молочной железы. Хотя эти задачи начались на 7-й неделе, я рад сообщить, что они были выполнены на 8-й неделе! Давайте погрузимся в прогресс, которого я добился за эти две недели.

Мой прогресс на 8 неделе

В течение этой недели мое основное внимание было сосредоточено на двух важных задачах: создании класса InMemoryDataset для набора данных о раке молочной железы и построении базовых моделей с использованием autokeras и FLAML.

Для начала я изучил FLAML для построения базовой модели. Мой наставник предложил эту облегченную библиотеку Python для эффективной автоматизации машинного обучения и операций ИИ, включая выбор модели и настройку гиперпараметров. Используя flaml.AutoML, ориентированный на задачи класс AutoML, я включил его в свой проект и обнаружил, что он превосходит как autokeras, так и базовую модель GNN. Производительность тестового набора была особенно впечатляющей. Используемые параметры показаны ниже:

Производительность на тестовом наборе показана ниже:

Двигаясь дальше, я занялся созданием класса InMemoryDataset для набора данных о раке молочной железы. Следуя той же процедуре, которую я использовал для набора данных ACC, я обернул набор данных рака молочной железы в этот класс. Реализовав четыре основные функции, как я объяснял в отчете за неделю 6, я смог легко создать класс. Я использовал существующие функции из класса набора данных ACC, внеся лишь незначительные изменения, чтобы обеспечить загрузку правильного набора данных.

Резюме достигнутого прогресса

За эту неделю я добился значительных успехов в своем проекте:

  1. Создал надежную базовую модель для набора данных ACC с использованием FLAML. Производительность модели была замечательной: прогнозная mse составила 694, что превзошло результаты других методов моделирования.
  2. Успешно разработан класс InMemoryDataset для набора данных о раке молочной железы. В результате я получил исчерпывающий список объектов данных как для набора поездов, так и для тестового набора данных о раке молочной железы.

Проблемы, с которыми столкнулись

В течение недели я столкнулся с минимальными проблемами. Единственным небольшим препятствием, с которым я столкнулся, было первоначальное понимание того, как использовать FLAML для построения моделей. К счастью, хорошо документированные и информативные учебные пособия на странице GitHub предоставили четкое руководство, позволившее мне быстро преодолеть это препятствие.

Мои планы на следующую неделю

После продуктивного еженедельного общения с моими наставниками мы наметили следующие шаги для завершения отправки набора данных в PyG:

  1. Усовершенствуйте класс InMemoryDataset для набора данных о раке молочной железы: я сосредоточусь на использовании только основных функций и меток, а не на включении отдельных обучающих и тестовых наборов, разделенных с соотношением 80:20. Это обеспечивает единый формат набора данных, предоставляя пользователям возможность разбивать набор данных в соответствии со своими предпочтениями. Это также необходимо для обеспечения согласованности с другими наборами данных в PyTorch Geometric.
  2. Создайте проверочный набор и переобучите модели для набора данных о раке молочной железы, используя широко распространенное соотношение 60:20:20 для обучения, проверки и разделения тестов. Этот подход исследует альтернативные методы повышения производительности модели. При значительном размере набора данных наличие трех разбиений позволяет проводить надежные эксперименты без ущерба для размера данных.

В целом, эти последние недели были невероятно продуктивными, и результаты были многообещающими. Я с нетерпением жду возможности поделиться новыми новостями и идеями в ближайшие недели. Спасибо, что дочитали до конца.

Я очень рад поделиться своим прогрессом со всеми вами, и я приглашаю вас присоединиться ко мне для моего следующего сообщения в блоге. Я углублюсь в последние этапы подготовки набора данных для отправки в PyTorch Geometric. Ваша поддержка и участие были неоценимы на протяжении всего этого захватывающего приключения!

(P.S. Если вам интересно узнать больше о моем проекте, не стесняйтесь проверить его на GitHub. github.com/cannin/gsoc_2023_pytorch_pathway..

Первоначально опубликовано на https://jamesfav.hashnode.dev.