Введение

В этом руководстве мы рассмотрим CAPTCHA и то, как они работают. Многие из вас могут быть знакомы или не знакомы с самим термином «CAPTCHA», но определенно сталкивались с ним в какой-то момент во время серфинга в Интернете. Позвольте мне напомнить вам.

Вы ДОЛЖНЫ видеть подобное изображение, когда пытаетесь создать учетную запись на веб-сайте, размещаете комментарий в блоге или совершаете покупку в Интернете. Тесты, подобные изображенному выше, называются CAPTCHA, что означает Полностью автоматизированные общедоступные тесты Тьюринга, позволяющие различать компьютеры и людей. Итак, в этом руководстве мы обсудим, что такое CAPTCHA, основные концепции, лежащие в основе этих тестов, и как они работают в целом. Мы поговорим о различных типах CAPTCHA, а также о некоторых применениях CAPTCHA, чрезвычайно важным из которых является сбор данных для проектов машинного обучения или искусственного интеллекта. . Итак, без лишних слов, приступим!

Что такое CAPTCHA и зачем она нужна?

По сути, CAPTCHA – это тест, который должен различать людей и компьютеры на основе признаков или характеристик, которыми обладают только люди, но не машины. При выполнении такого действия, как регистрация на веб-сайте, вам необходимо ввести последовательность символов, букв или цифр, которые даны, или выбрать определенный набор изображений, например, изображение кошек, чтобы доказать, что вы на самом деле человек, а не машина. Это связано с тем, что машины не могут разобрать искаженный или запутанный текст, в то время как люди могут. Для слабовидящих есть Аудио CAPTCHA, которое включает в себя искаженные произнесенные буквы, которые не могут быть идентифицированы или поняты машинами. Все это делается для предотвращения несанкционированного доступа ботов или автоматизированных компьютерных программ к приложению. CAPTCHA предотвращает добавление диапазонов и вредоносных URL-адресов в базу данных приложения, снижение производительности приложения или угрозу его безопасности каким-либо другим образом. Короче говоря, цель состоит в том, чтобы помешать кому-либо использовать какие-либо слабости или недостатки системы.

Различные типы CAPTCHA

Существует несколько различных типов CAPTCHA. Здесь мы представим шесть самых популярных из них.

1. Распознавание символов или текста

Это наиболее распространенный тип CAPTCHA, когда вам дается последовательность символов с небольшими вариациями или искажениями, и вы должны ввести их в заданное поле ввода.

2. Распознавание изображений

Распознавание изображений CAPTCHA состоит из различных форм тестов изображений, которые могут включать присвоение имен изображениям, различение изображений из набора различных изображений, а также идентификацию нечетного изображения из набора. Этот тип CAPTCHA использует слабые стороны ботов при решении проблем, связанных с распознаванием изображений, что является сильной стороной человека.

3. Аудио CAPTCHA

Как упоминалось ранее, этот тип CAPTCHA предназначен для слабовидящих. Он в основном состоит из звуков произнесенных букв или цифр, которые слегка искажены, чтобы сбить с толку бота, но легко понятны человеку.

4. Вход через социальные сети

При попытке зарегистрироваться или создать учетную запись на веб-сайте вас иногда просят зарегистрироваться, используя учетные записи социальных сетей, например, учетную запись Facebook, учетную запись Gmail и т. д. Это делается потому, что у ботов нет учетных записей в социальных сетях, поэтому этот метод предотвращает их от регистрации. Это также экономит время подлинного пользователя, поскольку ему не нужно создавать учетную запись с нуля, а вместо этого он может использовать уже созданную учетную запись в социальной сети. Поскольку учетные записи являются подлинными, этот метод регистрации помогает повысить безопасность сайта.

5. Математическая задача

Появится форма с простой математической задачей, требующей от вас решения. Большинство вопросов связаны с простой арифметикой, например. 8+2, 11–9 и т. д. Это может быть довольно сложно для роботов, потому что для решения задачи им приходится выполнять не только распознавание изображений, но и множественный семантический анализ чисел и символов.

6. CAPTCHA на основе времени

Запись количества времени, необходимого для решения формы, и различение бота и человека на основе этого времени — это еще один тип CAPTCHA. Боты обычно заполняют все поля в форме сразу, тогда как людям, естественно, требуется некоторое время, чтобы ввести информацию.

Как работает CAPTCHA?

CAPTCHA работает на основе анализа вариаций или различий между людьми и автоматизированными компьютерными программами. CAPTCHA должен состоять из трех вещей:

  1. Легко решить человеку
  2. Боту трудно решить или понять
  3. Легко для тестировщика создавать и оценивать

Различные типы CAPTCHA, упомянутые выше, задают задачи, которые сложны для компьютеров, но не для людей. Тест CAPTCHA использует сильные стороны людей в области распознавания инвариантов, сегментации и контекста. Все мы знаем, что люди могут идентифицировать символы, даже если они имеют разные формы или формы, расположены в другом порядке и т. д. Даже если один символ накладывается на другой, человек может сегментировать символы и понимать их в правильном контексте. что компьютеру довольно сложно выполнять одновременно.

Сбор данных и CAPTCHA

Помимо различия между человеком и компьютером, CAPTCHA также может помочь в сборе данных для обучения моделей машинного обучения. Вы вполне можете считать это методом краудсорсинга для сбора и аннотирования данных. Подумайте об этом, информация, собранная, например, из распознавание изображений CAPTCHA — это способ использования человеческого интеллекта для аннотирования набора данных. Когда пользователь выбирает все изображения, которые содержат или показывают кошку, он или она фактически помогает создать аннотированный набор изображений кошек. То же самое и с распознаванием текста. Таким образом, CAPTCHA не только эффективны для обеспечения безопасности веб-сайта, но также являются полезным методом создания полностью аннотированных наборов данных для моделей машинного обучения или искусственного интеллекта.

Другие типы методов сбора данных?

Для обучения алгоритмов отраслевого уровня компаниям необходим сбор и аннотирование данных, а это зачастую очень сложно. Кроме того, трудно контролировать качество внутри компании, особенно ваша компания является небольшой или средней компанией. Поэтому зачастую эффективнее найти другой сервис, который сделает за вас кропотливую работу. Мы могли бы быть вашим идеальным решением!

Здесь, в Selectstar, мы передаем наши задачи различным пользователям, находящимся по всему миру, чтобы обеспечить своевременное качество и количество. Более того, наши штатные менеджеры перепроверяют качество собираемых или обрабатываемых данных. Если вам нужны данные? Если вам нужны предварительно обработанные данные? Дайте нам знать!

Преимущества CAPTCHA

  1. Сбор данных и аннотирование для создания больших аннотированных наборов данных для моделей машинного обучения.
  2. Предотвращение поддельных регистраций на веб-сайте путем разрешения входа в социальные сети. Чтобы предотвратить поддельные регистрации, на крупных веб-сайтах, таких как Facebook и Gmail, используется CAPTCHA.
  3. Предотвращение спам-комментариев, позволяя оставлять комментарии только людям. Это делается для того, чтобы спамеры неправомерно повышали рейтинг своих веб-сайтов в поисковых системах, бомбардируя раздел комментариев своих веб-сайтов и оставляя поддельные обзоры продуктов.
  4. Повышение безопасности онлайн-покупок или покупок за счет того, что покупателями являются только люди. Иногда конкуренты бизнеса могут использовать недействительные имена, адреса электронной почты, адреса доставки для заказа ваших продуктов, чтобы вы тратили свое время и деньги на доставку этих продуктов.

Вывод

Подводя итог, мы начали это руководство с обсуждения того, что такое CAPTCHA на самом деле и почему они необходимы, т.е. чтобы отличить пользователя-человека от бота и, в двух словах, чтобы предотвратить от использования слабостей сайта или приложения и т. д. Мы говорили о том, как CAPTCHA играет с сильными сторонами человека и слабостями компьютера, затем мы коснулись различных типов CAPTCHA. таких как текст, звук, изображение и т. д. Мы также узнали, что помимо обеспечения безопасности сайта информация, собранная с помощью CAPTCHA, может быть эффективным способом привлечения человеческого интеллекта для создания полноценного набора данных для ИИ. или мл. Наконец, мы говорили о различных преимуществах или полезности CAPTCHA в целом.