Как отфильтровать поддельные имена с помощью TFLearn

Я пытаюсь обучить нейронную сеть со списком имен, а затем дать мне вероятность того, что имя, введенное пользователем, реально.

Пример: asldfkjbwlkj будет иметь очень низкую вероятность того, что это настоящее имя.

Мысли:

  1. Могу ли я обучить генеративную нейронную сеть и использовать какой-то тест на точность для одного имени пользователя?

  2. Я также мог бы передать список имен в глубокую нейронную сеть, а также некоторые случайно сгенерированные символы с [1,0] и [0,1] соответственно, но я не смог найти действительно хороших примеров того, как векторизовать список слов. Или если бы этот метод вообще работал.

Вот один пример, который я рассматривал: https://raw.githubusercontent.com/tflearn/tflearn/master/examples/nlp/lstm_generator_cityname.py


person Cameron Johnson    schedule 06.12.2016    source источник


Ответы (1)


Да, похоже, ты в правильном направлении. Вы можете обучить генеративную модель char-rnn.

Во время вывода (время тестирования) вы можете передать ему имя пользователя и оценить вероятность этого имени пользователя. Установив порог для оценки вероятности, вы можете выбирать между поддельными или настоящими именами пользователей.

Во время обучения вы должны тренировать свою модель с набором данных реальных имен пользователей.

person Yuval Atzmon    schedule 07.12.2016
comment
Так что тренируйте его с набором реальных имен пользователей. Я могу это сделать. Как именно вы тестируете генеративную модель, я просто тренирую ее, сохраняю. Затем загрузите его и снова подгоните под одно имя пользователя и получите его точность? В TFLearn нет доступных прогнозов для генеративных моделей. - person Cameron Johnson; 07.12.2016
comment
Концептуально да, в генеративных моделях. Я не знаю, как этот API работает в TFlearn. - person Yuval Atzmon; 07.12.2016
comment
@CameronJohnson, если вы нашли мой ответ полезным, пожалуйста, проголосуйте или примите его. Спасибо :) - person Yuval Atzmon; 08.12.2016
comment
Я собираюсь провести еще несколько тестов в AM и, вероятно, соглашусь. Я не уверен на 100%, что это сработает, но я понимаю, о чем вы думаете. Моя репутация все еще низкая, но я только что проголосовал. Спасибо за ваш вклад в любом случае. - person Cameron Johnson; 08.12.2016
comment
Это определенно проблема классификации. Некоторое время изучал это. Генерация просто не способ сделать это. Просто к вашему сведению. - person Cameron Johnson; 22.12.2016