ChatGPT отвечает на вопросы интервью

Я пробовал ChatGPT в течение нескольких дней, и я впечатлен тем, что он может сделать на данный момент. Да, написание немного юношеское, и иногда код, который он выдает, выглядит так, как будто он был взят из Stack Overflow. Тот факт, что он понимает, о чем вы просите, и дает вам что-то последовательное и не совсем не относящееся к делу, говорит о его способностях и потенциале.

Недавно я ходил на собеседование на должность разработчика машинного обучения в берлинском стартапе медицинской визуализации (имя не разглашается, чтобы защитить невиновных). Как только я ступил на место, HR-леди дала мне тест из 17 вопросов с несколькими вариантами ответов и 25 минут, чтобы закончить его. Тест читался как пустяки, и я подумал, что они действительно пытались убедить меня, как много они знают. Оглядываясь назад, я должен просто спросить у этих бозо, где дверь…

Короче говоря, я подумал, что было бы забавно посмотреть, что ChatGPT подумает об этих вопросах. У меня есть C+P’d отрывок из вопросов. Затем я показываю, какие ответы выбрал ChatGPT и обоснование. Мне было бы интересно, что вы думаете об этих ответах.

Вопросы:

Вопрос 1:

Вам даны наблюдения за расположением планет, предполагающие плоские (2D) орбиты (эллипсы) вокруг неизвестного происхождения (x, y, z) (3D). Каждая выборка состоит из 10 различных наблюдений. Коллега предлагает найти последнее представление для захвата различных орбит, чтобы сжать выборки. Как бы вы это сделали? (узкое место = размер скрытого пространства):

Использование вариантного автоэнкодера (VAE) с узким местом 4
Использование вариантного автоэнкодера (VAE) с узким местом 8
Использование автоэнкодера (AE) с узким местом 4
Использование автоэнкодера (AE) с узким местом 8

Вопрос 2:

Вы хотите обучить модель задаче сегментации изображения. Каждый пиксель может быть 1 из 3 классов. Существует известная априорная информация о гистограмме (нормализованной) классов пикселей во входных выборках. Как вы можете использовать это до:

Используя прямую дивергенцию KL в функции потерь, «сравнивая» гистограмму прогноза (нормализованную) и априорную
Наложение штрафа на разницу энтропии предыдущего и прогнозируемого количества выборки
Использование регуляризации IOU, сравнивающее пересечение гистограммы с объединением для 3 классов
Обучите 3 учеников, по одному для каждого класса, и примите голосование большинства в качестве окончательного прогноза.

Вопрос 3:

Вам дан некоторый набор данных изображения с целью найти семантическую сегментацию изображений с использованием CNN. Кроме того, вы замечаете, что правильная сегментация пикселя в среднем является функцией «дальних» пикселей. Как бы вы лучше всего использовали это наблюдение в своем дизайне?

Используйте «большие» ядра свертки с глубокой сетью
Убедитесь, что эффективное соответствующее поле достаточно
Разделите изображение на небольшие участки и тренируйтесь решать для каждого
Убедитесь, что цель учитывает глобальное поведение

Вопрос 4:

Вы заметили, что в вашей задаче основная истина инвариантна к некоторому преобразованию ваших входных данных. Какой метод может помочь вам использовать это?

Повышение
Снижение размерности
Увеличение данных
Симметричная архитектура

Вопрос 5:

Вы пытаетесь выучить наилучшую последовательность действий, чтобы выиграть какую-то игру (одиночную игру). Вначале вы ничего не знаете о цели игры, но вы можете наблюдать за счетом, который вы получите, когда закончите игру. Вы можете настроить уровень стохастичности в ваших действиях (по сравнению с жадным выбором). Как бы вы установили эту ручку?

Если игра детерминирована, установите значение 0, иначе со временем уменьшайтесь
Начните с высокого уровня и уменьшайте его по мере того, как вы обретете больше уверенности в прогнозах.
Начните с малого и увеличивайте по мере того, как вы обретете больше уверенности в прогнозах.
Вводите его случайным образом, чтобы поощрять эксплуатацию

Вопрос 6:

Как бы вы не использовали автоэнкодер?

Чтобы уменьшить размерность данных
Используйте кодировщик в качестве генеративной модели для создания большего количества образцов в скрытом пространстве.
Чтобы предсказать метки входных данных, используя скрытые представления
Чтобы создать больше выборок из закодированного скрытого вектора

Вопрос 7:

Вы хотите смоделировать дискретное преобразование Фурье (ДПФ). Предложить базовую архитектуру?

Реснет
Зарождение
Полностью подключенный слой
Архитектура на основе трансформатора

Вопрос 8:

Вы хотите смоделировать дискретное преобразование Фурье (ДПФ), линейное преобразование. Как бы вы приблизили достаточное количество слоев для модели?

достаточно одного слоя
Добавляйте слои до тех пор, пока ошибка по обучающим данным не станет достаточно низкой.
Вычислите размерность VC в соответствии с задачей и используйте теоретическую оценку
Оптимизация гиперпараметров

А СЕЙЧАС… Ответы ChatGPT:

Вопрос 1: (1) или (2)

Использование вариантного автоэнкодера (VAE) с узким местом 4 или 8 было бы хорошим подходом для поиска скрытого представления для захвата различных орбит и сжатия выборок. VAE — это тип автоэнкодера, специально разработанный для генерации новых данных, что делает его подходящим для поиска сжатого представления входных данных, которое можно использовать для создания новых выборок. Размер узкого места (размер скрытого пространства) можно настроить для управления уровнем сжатия, при этом меньший размер узкого места приводит к большему сжатию, но потенциально может привести к потере части исходной информации.

Вопрос 2: (1) или (2)

Использование прямой дивергенции KL в функции потерь, «сравнивающей» гистограмму предсказания (нормализованную) и априорную, является хорошим способом использовать известное априорное значение гистограммы классов пикселей во входных выборках. Дивергенция KL — это мера разницы между двумя распределениями вероятностей, поэтому ее использование в функции потерь будет способствовать тому, чтобы модель давала прогнозы, аналогичные известному априорному распределению.
Штраф за разницу в энтропии априорных значений и предсказания партии выборки также является способом использовать известное априорное значение, поскольку энтропия является мерой беспорядка или случайности распределения вероятностей. Штрафуя разницу в энтропии между прогнозом и априорным значением, модель будет поощряться к получению прогнозов, аналогичных априорным.
Использование регуляризации IOU, сравнивающей пересечение гистограммы с объединением для 3 классов, не является хорошим способом использовать известное априорное значение, поскольку IOU является мерой перекрытия между двумя наборами и не относится к распределению вероятностей.
Обучите 3 учащихся, по одному для каждого класса, и проголосуйте большинством, поскольку окончательный прогноз не является хорошим способом использовать известное априорное, поскольку он обучает 3 независимые модели и не принимает во внимание априорную информацию.

Вопрос 3: (4)

Использование «больших» ядер свертки с глубокой сетью может оказаться невыгодным, поскольку более крупные ядра могут быть чувствительны к шуму, а глубокие сети могут быть трудны для обучения и склонны к переобучению.
Убедиться, что эффективное рецептивное поле достаточно, может быть полезно, но этого недостаточно.
Разделение изображения на небольшие фрагменты и обучение решению для каждого из них не является хорошим подходом, так как он не будет учитывать взаимосвязь между пикселями в изображении.
Убедитесь, что цель учитывает глобальное поведение — это лучший подход для использования наблюдения о том, что правильная сегментация пикселя в среднем является функцией «дальних» пикселей. Один из способов сделать это — использовать глобальную функцию потери контекста, такую как полносвязный CRF или нелокальный блок, который учитывает взаимодействие между всеми пикселями изображения. Это поможет модели учитывать отношения между удаленными пикселями при прогнозировании сегментации. Другой подход, который следует учитывать, заключается в использовании многомасштабной архитектуры, которая сочетает в себе функции из разных масштабов. Этого можно достичь, используя пропущенные соединения или добавив в архитектуру модуль, который обрабатывает различные масштабы (например, модуль объединения пирамиды).

Вопрос 4: (3)

Повышение — это метод ансамбля, который можно использовать для повышения производительности модели, но он не решает проблему инвариантности данных.
Уменьшение размерности может быть полезно для снижения сложности данных, но не решает проблему неизменности данных.
Data Augmentation — это метод, который может помочь использовать наблюдение, что основная истина инвариантна к некоторому преобразованию ваших входных данных. Увеличение данных включает в себя применение различных операций, таких как вращение, масштабирование, переворачивание и перевод к входным данным, чтобы искусственно увеличить размер набора данных. Это может помочь повысить надежность модели, подвергая ее различным вариантам входных данных и делая ее инвариантной к определенным преобразованиям.
Симметричная архитектура — это метод, при котором архитектура идентична как для ввода, так и для вывода. Может быть полезно улучшить производительность модели, но это не решает проблему инвариантности данных.

Вопрос 5: (3)

Если игра является детерминированной, установленной на 0, в противном случае снижение с течением времени может быть не очень хорошим подходом, поскольку он не принимает во внимание уверенность модели в своих прогнозах.
Начните с высокого уровня и уменьшайте его по мере того, как вы обретаете больше уверенности в прогнозах, это может привести к слишком долгому исследованию, и агент может не быстро изучить наилучшую стратегию.
Начните с малого и увеличивайте его по мере того, как вы обретете больше уверенности в прогнозах, — это хороший подход для установки ручки уровня стохастичности в предпринимаемых действиях. Начиная с низкого уровня стохастичности, модель может изучить различные варианты и лучше понять игру, прежде чем делать более уверенный и жадный выбор. По мере того, как модель становится более уверенной в своих прогнозах, уровень стохастичности может быть увеличен, чтобы стимулировать эксплуатацию и уточнить изученную стратегию.
Внедрение его случайным образом для поощрения эксплуатации может привести к тому, что модель не усвоит последовательную стратегию.

Вопрос 6: (3)

Прогнозирование меток входных данных с использованием скрытых представлений — это тот случай, когда автоэнкодер — не лучший подход. Автоэнкодер — это тип нейронной сети, которая обучена восстанавливать входные данные, она не предназначена для прогнозирования меток или выполнения задач классификации. Существуют и другие типы нейронных сетей, такие как контролируемые нейронные сети с прямой связью, которые лучше подходят для этой задачи и могут быть обучены с использованием помеченных данных для прогнозирования меток входных данных.

Вопрос 7: (3)

ResNet — это архитектура сверточной нейронной сети, предназначенная для задач классификации изображений, она плохо подходит для моделирования DFT.
Inception — это архитектура сверточной нейронной сети, предназначенная для задач классификации изображений, она плохо подходит для моделирования DFT.
Полносвязный слой — это базовая архитектура для моделирования дискретного преобразования Фурье (ДПФ). ДПФ — это линейное преобразование, которое может быть представлено умножением матриц, полносвязный слой может использоваться для представления этой матрицы и выполнения ДПФ для входного сигнала. Полностью связанный слой можно обучить с помощью подходящей функции потерь, чтобы аппроксимировать матрицу ДПФ.
Архитектуры на основе преобразователя используются для задач моделирования последовательностей и плохо подходят для моделирования DFT.

Вопрос 8: (2)

Одного слоя не всегда достаточно, так как ДПФ представляет собой сложное линейное преобразование, и один слой может не отразить всю сложность проблемы.
Добавляйте слои до тех пор, пока ошибка по обучающим данным не станет достаточно низкой, - это практический подход для аппроксимации достаточного количества слоев для модели DFT. ДПФ — это линейное преобразование, поэтому его можно представить умножением матриц, которое может быть аппроксимировано нейронной сетью с достаточным количеством слоев. Обучая модель с подходящей функцией потерь и отслеживая ошибку по обучающим данным, вы можете увеличивать количество слоев до тех пор, пока ошибка не станет достаточно низкой, что указывает на то, что модель способна хорошо аппроксимировать матрицу ДПФ.
Вычисление размерности VC в соответствии с задачей и использование теоретической оценки является теоретическим подходом, он не всегда может быть практичным.
Гиперпараметрическая оптимизация — полезный метод, но его следует использовать в сочетании с другими методами, такими как отслеживание ошибок в обучающих данных, чтобы определить достаточное количество слоев для модели.

ChatGPT отвечает на вопросы интервью