Самый важный шаг в создании ИИ - получение данных для его обучения. На таких сайтах, как Kaggle, есть много общедоступных наборов данных, которые могут быть полезны. Однако иногда вы не можете найти нужный набор данных на этих веб-сайтах. Например, если вы хотите получить данные из определенного места или для очень конкретной проблемы, на этих веб-сайтах может не быть нужного набора данных. Если это так, вам нужно получить данные по-другому.

Вот что случилось с нами. Мы изучали проблему стресса в средней школе. Поскольку большинство онлайн-наборов данных посвящено стрессу взрослых, они не очень помогли в решении нашей проблемы. Поэтому мы собрали наши данные, отправив опрос, а также создав некоторые синтетические данные. Сбор наших собственных данных был очень долгим и утомительным процессом, и это его сокращенная версия. Мы надеемся, что это поможет другим детям, которые ищут данные для проектов ИИ.

Обзор

Первый метод, который мы использовали для сбора данных, - это опрос вопросов. При использовании опроса для сбора данных задаваемые вопросы чрезвычайно важны. Очень важно задавать правильные вопросы и быть уверенным, что ответы помогут обучить ваш ИИ. Например, когда мы искали вопросы, которые помогли бы предсказать стресс, мы задавали такие вопросы, как «Какая ваша любимая еда?» оказались неуместными и ненужными. Однако такие вопросы, как «Сколько вы спали?» может иметь значение, так как сон - это фактор, который может повлиять на стресс. Чтобы создать вопросы, мы встретились с детским психологом, который помог нам задать правильные вопросы в нашем опросе.

Конфиденциальность и ответственное обращение с данными

Затем вы должны убедиться, что конфиденциальность пользователя сохраняется, что также имеет тенденцию получать серьезные ответы. В противном случае они с большей вероятностью ответят на ложное утверждение. Следовательно, данные будут смещенными, что сделает ИИ менее точным. Например, мы убедились, что в опросе не было реального «способа» идентифицировать человека по ответам. Мы заверили наших участников, что предоставленные ответы никому не передадутся. Если бы мы не соблюдали конфиденциальность, большая часть наших данных могла быть искажена людьми, дающими менее чем правдивые ответы. Мы также помещаем пометку в верхней части опроса, чтобы убедиться, что все знают, что их невозможно идентифицировать по их ответам.

Кроме того, поскольку наш опрос был посвящен стрессу, мы работали с нашими школьными учителями, чтобы в конце опроса поставить хорошее сообщение о том, как получить помощь в случае стресса.

Распространение

Затем мы придумали способы рассылки нашего опроса, чтобы получить нужные нам данные. Это будет означать, что у ИИ будет больше данных для тренировки. Так же, как люди, обладая большей информацией, ИИ склонен лучше учиться. У нас было два основных способа распространения нашего опроса. Во-первых, мы разработали плакат и добавили QR-код, который люди могли сканировать, чтобы получить доступ к нашему опросу. Вот созданный нами плакат:

Этот метод оказался наименее полезным для нас, но все же помог собрать данные. Мы также попросили нашего директора школы разрешить поделиться опросом с нашими сверстниками. Это произошло потому, что мы посчитали, что на опрос, проведенный в школе, ответит больше учеников, чем несколько шестиклассников. Этот шаг был одним из самых сложных в процессе, и поэтому на его выполнение потребовалось много времени. Но как только это было сделано - мы получили более 100 отзывов от 6 и 7 классов! Несмотря на то, что было очень сложно отправить опрос, нам удалось его пройти, и он оказался очень успешным.

Анализ

Мы получили более 100 отзывов. Мы проанализировали данные и создали следующие круговые диаграммы.

Эти круговые диаграммы помогли нам понять, что на самом деле вызывает стресс, и снижает его. Это было ключом к нашему приложению, потому что мы знали, что вызывает проблему, и как использовать различные решения, чтобы решить эту проблему. Например, мы выяснили, что дети, которые занимались спортом, испытывали немного меньший стресс, чем те, кто этого не делал, а дети, которые занимались исполнительским искусством, испытывали больший стресс, чем те, кто этого не делал. Кроме того, количество сна играет большую роль в стрессе. Мы узнали, что люди, которые спали менее 7 часов в день, испытывали больший стресс, чем дети, которые спали более 7 часов. Мы использовали эти круговые диаграммы, чтобы узнать больше и улучшить наше приложение.

Добавление синтетических данных

Большие наборы данных, как правило, генерируют более точный ИИ. Набор данных является источником вашего обучения, поэтому, если в нем будет больше деталей, не только повысится точность, но и будет больше фраз, которые ИИ может обнаружить с большими наборами данных. Из разосланного нами опроса мы получили хороший объем данных, но их недостаточно, поэтому нам пришлось создать собственные синтетические данные для использования. Мы создали файлы с разделителями-запятыми в Google Таблицах для вопросов в опросе. На открытые вопросы, например «Как прошел день?» или «Как ваши друзья?» мы создали столбец для введенного текста, а затем создали смежный столбец для «оценки стресса». Если в ответе указывалось на стресс, мы бы присвоили ему оценку стресса 1 или да. В противном случае оценка стресса была равна 0 или нет. Тогда как вопросы типа «Сколько вы спали?» были с множественным выбором, что значительно упростило создание набора данных, потому что было очень много вариантов. Для остальных открытых вопросов нам приходилось вручную заполнять каждую из колонок, и каждый из нас записывал около 30+ таких комбинаций. Это было для вопросов типа «Как твои друзья?». Мы изо всех сил старались правильно сопоставить ответы с тем, как, по нашему мнению, отреагировали наши друзья, поэтому мы получили удовольствие, создавая это. У нас было примерно одинаковое количество стрессовых и нестрессовых примеров, поэтому наши данные были хорошо сбалансированы.

(Это примеры созданных нами синтетических данных. Как видите, мы ожидали, что люди ответят «случайным образом», поэтому мы должны были убедиться, что ИИ не запутается с этим.)

Обучение искусственного интеллекта - насколько хорошо оно прошло?

После тщательного анализа данных мы обучили наш ИИ. Мы использовали два разных типа ИИ - один для текста, а другой для чисел и категориальных данных. По мере того, как для обучения ИИ использовалось все больше и больше ответов, точность и предсказания становились все лучше. Чтобы убедиться, что наш ИИ может правильно предсказывать стресс, нестресс и случайность, мы проверили матрицу путаницы. Матрица замешательства сообщила нам, что ИИ делал не так, или что он не изучил должным образом. На данный момент точность составляет около 80%, это довольно хороший уровень для данных, которые мы собрали, но мы пытаемся сделать его еще лучше.

В заключение…

Вы можете узнать больше о приложении, которое мы создали с помощью нашего ИИ - Calmzilla здесь.

Мы надеемся, что это поможет вам в создании наборов данных для обучения ИИ решению проблем. Если у вас есть вопросы, напишите нам по адресу [email protected].