Обработка естественного языка (NLP) Введение:

НЛП означает обработку естественного языка, которая помогает машинам понимать и анализировать естественные языки. Это автоматизированный процесс извлечения необходимой информации из данных с применением алгоритмов машинного обучения.

При подаче заявления на работу, связанную с обработкой естественного языка, соискателям часто неясно, какие вопросы может задать интервьюер. Помимо изучения основ НЛП, важно подготовиться именно к собеседованиям. Ознакомьтесь со списком часто задаваемых вопросов и ответов на интервью с НЛП с пояснениями, с которыми вы можете столкнуться.

10 лучших вопросов для интервью по НЛП для начинающих

  1. Каковы возможные особенности корпуса текстов?
  2. Что из нижеперечисленного относится к вариантам использования НЛП?
  3. TF-IDF помогает вам установить?
  4. Архитектура трансформатора впервые была представлена?
  5. Перечислите 10 вариантов использования, которые нужно решить с помощью методов НЛП?
  6. Какая из следующих моделей НЛП дает наибольшую точность?
  7. Перестановка языковых моделей является особенностью
  8. Что такое алгоритм наивного Байеса, когда мы можем использовать этот алгоритм в НЛП?
  9. Объяснить синтаксический анализ зависимостей в НЛП?
  10. Что такое реферирование текста?

НЛП-интервью Вопросы и ответы с пояснениями

1. Какой из следующих методов можно использовать для нормализации ключевых слов, процесса преобразования ключевого слова в его базовую форму?

а. Лемматизация
б. Саундекс
c. Косинусное сходство
d. N-грамм

Ответ: а)
Лемматизация помогает получить основную форму слова, например. играют -> играют, едят -> едят и т. д. Другие варианты предназначены для разных целей.

2. Какой из следующих методов можно использовать для вычисления расстояния между двумя векторами слов?

а. Лемматизация
б. Евклидово расстояние
c. Косинусное сходство
d. N-грамм

Ответ: b) и c)
Расстояние между двумя векторами слов можно вычислить с помощью косинусного сходства и евклидова расстояния. Косинусное сходство устанавливает угол косинуса между вектором двух слов. Угол косинуса, близкий друг к другу между двумя векторами слов, указывает на то, что слова похожи, и наоборот.
Например. Угол косинуса между двумя словами «Футбол» и «Крикет» будет ближе к 1 по сравнению с углом между словами «Футбол» и «Нью-Дели».

Код Python для реализации функции CosineSimlarity будет выглядеть так:
def cosine_similarity(x,y):
return np.dot(x,y)/( np.sqrt(np.dot(x,x)) * np.sqrt(np.dot(y,y)) )
q1 = wikipedia.page('Клубника')
q2 = wikipedia.page('Ананас')
q3 = wikipedia .page('Google')
q4 = wikipedia.page('Microsoft')
cv = CountVectorizer()
X = np.array(cv.fit_transform([q1.content, q2 .content, q3.content, q4.content]).todense())
print ("Клубнично-ананасовое косинусное расстояние", cosine_similarity(X[0],X[1]))
print (" Strawberry Google Cosine Distance”, cosine_similarity(X[0],X[2]))
print («Ананас Google Cosine Distance», cosine_similarity(X[1],X[2]))
print («Косинусное расстояние Google Microsoft», cosine_similarity(X[2],X[3]))
print («Косинусное расстояние Microsoft в ананасе», cosine_similarity(X[1],X[3]))
> Косинусное расстояние клубники и ананаса 0,8899200413701714
Косинусное расстояние клубники Google 0,7730935582847817 Pineapple Google Косинусное расстояние 0,789610214147025
Google Microsoft Косинусное расстояние 0,8110888282851575
Обычно сходство документа измеряется тем, насколько семантически близко содержимое (или слова) в документе друг к другу. Когда они близки, индекс сходства близок к 1, в противном случае - к 0.
Эвклидово расстояние между двумя точками – это длина кратчайшего пути, соединяющего их. Обычно вычисляется по теореме Пифагора для треугольника.

3. Каковы возможные функции корпуса текстов?

а. Количество слов в документе
b. Векторное обозначение слова
c. Часть речевого тега
d. Базовая грамматика зависимостей
e. Все вышеперечисленное

Ответ: д)
Все вышеперечисленное можно использовать как признаки корпуса текстов.

4. Вы создали матрицу терминов документа на основе входных данных 20 000 документов для модели машинного обучения. Что из следующего можно использовать для уменьшения размерности данных?

  1. Нормализация ключевых слов
  2. Скрытое семантическое индексирование
  3. Скрытое распределение Дирихле

а. только 1
б. 2, 3
в. 1, 3
д. 1, 2, 3

Ответ: г)

5. Какой из методов синтаксического анализа текста можно использовать для обнаружения именной фразы, глагольной фразы, определения субъекта и обнаружения объекта.

а. Тегирование части речи
b. Пропустить извлечение граммов и N-граммов
c. Непрерывный набор слов
d. Анализ зависимостей и анализ групп

Ответ: г)

6. Различие между словами, выраженное с помощью косинусного сходства, будет иметь значения, значительно превышающие 0,5

а. Верно
б. Ложь

Ответ: а)

7. Что из перечисленного относится к методам нормализации ключевых слов

а. Вывод
b. Часть речи
c. Распознавание именованных объектов
d. лемматизация

Ответ: а) и г)
Распознавание частей речи (POS) и распознавание именованных объектов (NER) не являются методами нормализации ключевых слов. Именованный объект поможет вам извлечь организацию, время, дату, город и т. д. из данного предложения, тогда как часть речи поможет вам извлечь существительное, глагол, местоимение, прилагательное и т. д. из заданных токенов предложения.

8. Что из нижеперечисленного относится к вариантам использования НЛП?

а. Обнаружение объектов на изображении
б. Распознавание лиц
c. Речевой биометрический
d. Обобщение текста

Ответ: г)
а) и б) – варианты использования компьютерного зрения, и в) – вариант использования "Речь".
Только г) "Обобщение текста" – это вариант использования НЛП.

9. В корпусе из N документов один случайно выбранный документ содержит в общей сложности T терминов, а термин «привет» встречается K раз.

Каково правильное значение произведения TF (частота терминов) и IDF (обратная частота документов), если термин «hello» встречается примерно в одной трети всех документов?
a. KT * Log(3)
b. T * Log(3) / K
c. K * Log(3) / T
d. Лог(3) / КТ

Ответ: ©
формула для TF — это K/T
формула для IDF — это log(общее количество документов / количество документов, содержащих «данные»)
= log(1 / (⅓))
= log (3)
Следовательно, правильный выбор Klog(3)/T

10. Алгоритм уменьшает вес часто используемых слов и увеличивает вес слов, которые редко используются в коллекции документов

а. Частота терминов (TF)
b. Обратная частота документа (IDF)
c. Word2Vec
д. Скрытое распределение Дирихле (LDA)

Ответ: б)

11. Процесс удаления таких слов, как «и», «есть», «а», «ан», «то» из предложения называется

а. Вывод
b. Лемматизация
c. Стоп-слово
d. Все вышеперечисленное

Ответ: c)
При лемматизации удаляются все стоп-слова, такие как a, an, the и т. д.. Можно также определить пользовательские стоп-слова для удаления.

12. Процесс преобразования предложения или абзаца в токены называется стеммингом.

а. Верно
б. Ложь

Ответ: б)
Утверждение описывает процесс токенизации, а не стемминга, поэтому оно ложно.

13. Токены конвертируются в числа перед передачей в какую-либо нейронную сеть

а. Верно
б. Ложь

Ответ: а)
В НЛП все слова преобразуются в число перед передачей в нейронную сеть.

14. определите лишнее

а. нлтк
б. научиться учиться
c. SpaCy
d. БЕРТ

Ответ: d)
Все упомянутые библиотеки являются библиотеками НЛП, за исключением BERT, который представляет собой встраивание слов.

15. TF-IDF поможет вам установить?

а. наиболее часто встречающееся слово в документе
б. самое важное слово в документе

Ответ: б)

TF-IDF помогает установить, насколько важным является конкретное слово в контексте корпуса документа. TF-IDF учитывает количество появлений слова в документе и компенсирует количество документов, которые появляются в корпусе.

  • TF — это частота терминов, деленная на общее количество терминов в документе.
  • IDF получается путем деления общего количества документов на количество документов, содержащих термин, а затем логарифмирования этого частного.
  • Тогда Tf.idf является произведением двух значений TF и ​​IDF.

Предположим, что у нас есть таблицы подсчета терминов корпуса, состоящего только из двух документов, перечисленных здесь.

Вычисление tf–idf для терма «этот» выполняется следующим образом:
для «этого»
— — — —
tf(«этот», d1) = 1/5 = 0,2
tf("это", d2) = 1/7 = 0,14
idf("это", D) = log (2/2) =0
следовательно, tf-idf
tfidf("это", d1, D) = 0,2* 0 = 0
tfidf("это", d2, D) = 0,14* 0 = 0
для "пример"
— — — —
tf(«пример», d1) = 0/5 = 0
tf(«пример», d2) = 3/7 = 0,43
idf(«пример», D) = log(2/1) = 0,301
tfidf("пример", d1, D) = tf("пример", d1) * idf("пример", D) = 0 * 0,301 = 0< br /> tfidf("пример", d2, D) = tf("пример", d2) * idf("пример", D) = 0,43 * 0,301 = 0,129 частота «это» для каждого документа. В каждом документе слово «этот» встречается один раз; но поскольку в документе 2 больше слов, его относительная частота меньше.
IDF постоянен для каждого корпуса и учитывает соотношение документов, содержащих слово «этот». В данном случае у нас есть корпус из двух документов, и все они содержат слово «этот». Таким образом, TF–IDF равен нулю для слова «этот», что означает, что это слово не очень информативно, поскольку оно встречается во всех документах.
Более интересно слово «пример» — оно встречается трижды, но только в второй документ.

16. Процесс выделения людей, организации из заданного предложения, абзаца называется

а. Вывод
b. Лемматизация
c. Удаление стоп-слов
d. Распознавание именованных объектов

Ответ: г)

17. Что из перечисленного не относится к методам предварительной обработки

а. Стемминг и лемматизация
б. преобразование в нижний регистр
c. удаление знаков препинания
d. удаление стоп-слов
e. Анализ настроений

Ответ: e)
Анализ тональности не является методом предварительной обработки. Это делается после предварительной обработки и является вариантом использования НЛП. Все остальные перечисленные используются как часть предварительной обработки операторов.

18. При анализе текста преобразование текста в токены, а затем преобразование их в целочисленные векторы или векторы с плавающей запятой можно выполнить с помощью

а. CountVectorizer
b. TF-IDF
c. Мешок слов
d. NER

Ответ: а)
CountVectorizer помогает сделать вышеперечисленное, в то время как другие не применимы.
text = [«Рахул — заядлый писатель, ему нравится учиться понимать и представлять. Он любит играть»]
vectorizer = CountVectorizer()
vectorizer.fit(text)
vector = vectorizer.transform(text)
print(vector.toarray())

результат
[[1 1 1 1 2 1 1 1 1 1 1 1 1 1]]
Второй раздел вопросов для интервью охватываетпродвинутые методы НЛП, такие как такие как встраивание слов Word2Vec, GloVe и расширенные модели, такие как вопросы и пояснения на основе GPT, ELMo, BERT, XLNET.

19. Слова, представленные в виде векторов, называются нейронными вложениями слов.

а. Верно
б. Ложь

Ответ: а)
Модели на основе Word2Vec и GloVe создают многомерные векторы встраивания слов.

20. Контекстное моделирование поддерживается с одним из следующих вложений слов

  1. а. Word2Vec
  2. б) ПЕРЧАТКА
  3. в) БЕРТ
  4. г) все вышеперечисленное

Ответ: c)
Только BERT (представления двунаправленного кодировщика от преобразователя) поддерживает контекстное моделирование, при котором учитывается контекст предыдущего и следующего предложения. В Word2Vec, GloVe учитываются только вложения слов, а контекст предыдущего и следующего предложения не учитывается.

21. Двунаправленный контекст поддерживается каким из следующих внедрений

а. Word2Vec
б. БЕРТ
c. ПЕРЧАТКА
d. Все выше

Ответ: б)
Только BERT обеспечивает двунаправленный контекст. Модель BERT использует предыдущее и следующее предложения для получения контекста. Word2Vec и GloVe представляют собой встраивания слов, они не предоставляют никакого контекста.

22. Какое из следующих вложений Word может быть специально обучено для определенной темы

а. Word2Vec
б. БЕРТ
c. ПЕРЧАТКА
d. Все выше

Ответ: б)
BERT позволяет трансформировать обучение на существующих предварительно обученных моделях и, следовательно, может быть специально обучен для данного конкретного предмета, в отличие от Word2Vec и GloVe, где можно использовать существующие вложения слов, перенос обучения по тексту невозможен.

23. Вложения Word охватывают несколько измерений данных и представляются в виде векторов

а. Верно
б. Ложь

Ответ: а)

24. Векторы встраивания слов помогают установить расстояние между двумя токенами

а. Верно
б. Ложь

Ответ: а)
Можно использовать косинусное сходство, чтобы установить расстояние между двумя векторами, представленными с помощью вложения Word.

25. Языковые предубеждения вводятся из-за исторических данных, используемых во время обучения встраиванию слов, которое из приведенных ниже не является примером предвзятости

а. Нью-Дели — в Индию, Пекин — в Китай
б. Мужчина для компьютера, женщина для домохозяйки

Ответ: а)
Утверждение б) является предвзятым, поскольку оно объединяет Женщину в домохозяйку, тогда как утверждение а) не является предвзятым утверждением.

26. что из следующего будет лучшим выбором для решения задач НЛП, таких как семантическое сходство, понимание прочитанного и рассуждение на основе здравого смысла

а. ЭЛМо
б. Откройте GPT AI
c. ULMFit

Ответ:b)
GPT Open AI может изучать сложные закономерности в данных с помощью механизма внимания моделей Transformer и, следовательно, больше подходит для сложных случаев использования, таких как семантическое сходство, понимание прочитанного, и рассуждения здравого смысла.

27. Впервые архитектура Transformer была представлена?

а. ПЕРЧАТКА
б. БЕРТ
c. Откройте GPT AI
d. ULMFit

Ответ:c)
ULMFit имеет архитектуру языкового моделирования на основе LSTM. Это было заменено архитектурой Transformer с GPT Open AI.

28. Какая из следующих архитектур может быть обучена быстрее и требует меньшего объема обучающих данных

а. Языковое моделирование на основе LSTM
b. Трансформаторная архитектура

Ответ: б)
Архитектуры-трансформеры поддерживались, начиная с GPT, быстрее обучались и требовали меньшего объема данных для обучения.

29. Одно и то же слово может иметь несколько вложений слов с помощью ____________?

а. ПЕРЧАТКА
б. Word2Vec
в. ЭЛМО
d. нлтк

Ответ:в)

Вложения слов EMLo поддерживают одно и то же слово с несколькими вложениями, это помогает использовать одно и то же слово в другом контексте и, таким образом, захватывает контекст, а не просто значение слова, в отличие от GloVe и Word2Vec. Nltk — это не встраивание слов.

30. Для данного токена его входное представление представляет собой сумму встраивания из токена, сегмента и позиции встраивания.

а. ЭЛМо
б. GPT
c. БЕРТ
d. ULMFit

Ответ: c)
BERT использует встраивание токенов, сегментов и позиций.

31. Обучает две независимые языковые модели LSTM слева направо и справа налево и неглубоко объединяет их

а. GPT
б. БЕРТ
c. ULMFit
d. ЭЛМО

Ответ: d)
ELMo пытается обучить две независимые языковые модели LSTM (слева направо и справа налево) и объединяет результаты для встраивания слов.

32. Использует однонаправленную языковую модель для встраивания слов

а. БЕРТ
б. GPT
c. ЭЛМО
d. Word2Vec

Ответ:b)
GPT — это однонаправленная модель, и встраивание слов производится путем обучения потоку информации слева направо. ELMo двунаправленный, но неглубокий. Word2Vec обеспечивает простое встраивание слов.

33. В этой архитектуре отношения между всеми словами в предложении моделируются независимо от их положения. Какая это архитектура?

а. OpenAI GPT
б. ЭЛМо
c. БЕРТ
d. ULMFit

Ответ: c)
Архитектура BERT Transformer моделирует взаимосвязь между каждым словом и всеми другими словами в предложении для получения оценок внимания. Эти оценки внимания позже используются в качестве весов для средневзвешенного значения всех представлений слов, которые передаются в полносвязную сеть для создания нового представления.

34. Перечислите 10 вариантов использования, которые нужно решить с помощью методов НЛП?

  • Анализ настроений
  • Языковой перевод (с английского на немецкий, с китайского на английский и т. д.)
  • Резюме документа
  • Вопрос Ответ
  • Завершение предложения
  • Извлечение атрибутов (извлечение ключевой информации из документов)
  • Взаимодействие с чат-ботом
  • Классификация тем
  • Извлечение намерений
  • Исправление грамматики или предложения
  • Подпись к изображению
  • Рейтинг документов
  • Вывод на естественном языке

35. Модель-трансформер обращает внимание на самое важное слово в предложении

а. Верно
б. Ложь

Ответ: а) Механизмы внимания в модели Transformer используются для моделирования взаимосвязи между всеми словами, а также придают вес самому важному слову.

36. Какая из следующих моделей НЛП обеспечивает наибольшую точность?

а. БЕРТ
б. XLNET
c. ГПТ-2
д. ЭЛМО

Ответ: б) XLNET
XLNET показала наилучшую точность среди всех моделей. Он превзошел BERT в 20 задачах и достиг самых современных результатов в 18 задачах, включая анализ настроений, ответы на вопросы, вывод на естественном языке и т. д.

37. Модели Permutation Language — это особенность

а. БЕРТ
б. EMMo
в. GPT
д. XLNET

Ответ: d)
XLNET обеспечивает моделирование языка на основе перестановок и является ключевым отличием от BERT. При моделировании языка перестановок токены предсказываются случайным образом, а не последовательно. Порядок предсказания не обязательно слева направо и может быть справа налево. Исходный порядок слов не меняется, но предсказание может быть случайным.
Концептуальную разницу между BERT и XLNET можно увидеть на следующей диаграмме.

38. Transformer XL использует относительное позиционное встраивание

а. Верно
б. Ложь

Ответ: а)
Вместо встраивания, которое должно представлять абсолютное положение слова, Transformer XL использует встраивание для кодирования относительного расстояния между словами. Это вложение используется для вычисления оценки внимания между любыми двумя словами, которые могут быть разделены n словами до или после.

39. Что такое алгоритм наивного Байеса, когда мы можем использовать этот алгоритм в НЛП?

Алгоритм наивного Байеса — это набор классификаторов, работающих на принципах теоремы Байеса. Эта серия моделей НЛП образует семейство алгоритмов, которые можно использовать для широкого круга задач классификации, включая прогнозирование настроений, фильтрацию спама, классификацию документов и многое другое.

Алгоритм наивного Байеса сходится быстрее и требует меньше обучающих данных. По сравнению с другими дискриминационными моделями, такими как логистическая регрессия, наивная байесовская модель требует меньше времени для обучения. Этот алгоритм идеально подходит для использования при работе с несколькими классами и текстовой классификацией, когда данные динамичны и часто меняются.

40. Объясните синтаксический анализ зависимостей в НЛП?

Анализ зависимостей, также известный как синтаксический анализ в НЛП, представляет собой процесс присвоения синтаксической структуры предложению и идентификации его разборов зависимостей. Этот процесс имеет решающее значение для понимания корреляции между «главными» словами в синтаксической структуре.
Процесс разбора зависимостей может быть немного сложным, учитывая, что любое предложение может иметь более одного разбора зависимостей. Множественные деревья синтаксического анализа известны как неоднозначности. Анализ зависимостей должен разрешить эти неоднозначности, чтобы эффективно присвоить синтаксическую структуру предложению.

Парсинг зависимостей можно использовать при семантическом анализе предложения помимо синтаксического структурирования.

41. Что такое суммирование текста?

Обобщение текста — это процесс сокращения длинного фрагмента текста с сохранением его смысла и эффекта. Обобщение текста предназначено для создания резюме любого данного фрагмента текста и обрисовывает в общих чертах основные моменты документа. Этот метод улучшился в последнее время и способен успешно резюмировать объемы текста.

Обобщение текста оказалось благом, поскольку машины могут обобщать большие объемы текста в кратчайшие сроки, на что в противном случае ушло бы очень много времени. Существует два типа реферирования текста:

  • Обобщение на основе извлечения
  • Обобщение на основе абстракций

42. Что такое НЛТК? Чем он отличается от Spacy?

NLTK или Natural Language Toolkit — это набор библиотек и программ, которые используются для символьной и статистической обработки естественного языка. Этот набор инструментов содержит некоторые из самых мощных библиотек, которые могут работать с различными методами машинного обучения, чтобы разбивать и понимать человеческий язык. NLTK используется для лемматизации, пунктуации, подсчета символов, токенизации и стемминга. Разница между NLTK и Спейси заключается в следующем:

  • В то время как у NLTK есть набор программ на выбор, Spacey содержит только наиболее подходящий алгоритм для решения проблемы в своем наборе инструментов.
  • NLTK поддерживает более широкий спектр языков по сравнению со Spacey (Spacey поддерживает только 7 языков).
  • В то время как у Спейси есть объектно-ориентированная библиотека, у NLTK есть библиотека обработки строк.
  • Спейси может поддерживать векторы слов, в то время как NLTK не может

43. Что такое извлечение информации?

Извлечение информации в контексте обработки естественного языка относится к методу автоматического извлечения структурированной информации из неструктурированных источников для придания ей значения. Это может включать извлечение информации об атрибутах сущностей, отношениях между различными сущностями и многом другом. Различные модели извлечения информации включают в себя:

  • Модуль тега
  • Модуль извлечения отношений
  • Модуль извлечения фактов
  • Модуль извлечения сущностей
  • Модуль анализа настроений
  • Модуль сетевого графика
  • Модуль классификации документов и языкового моделирования

44. Что такое мешок слов?

Bag of Words — это широко используемая модель, которая зависит от частотности слов или вхождений для обучения классификатора. Эта модель создает матрицу вхождений для документов или предложений независимо от их грамматической структуры или порядка слов.

45. Что такое прагматическая неоднозначность в НЛП?

Прагматическая двусмысленность относится к тем словам, которые имеют более одного значения, и их использование в любом предложении может полностью зависеть от контекста. Прагматическая двусмысленность может привести к множественным толкованиям одного и того же предложения. Чаще всего мы сталкиваемся с предложениями, в которых есть слова с несколькими значениями, что делает предложение открытым для интерпретации. Эта множественная интерпретация вызывает двусмысленность и известна как прагматическая двусмысленность в НЛП.

46. Что такое Маскированная языковая модель?

Маскированные языковые модели помогают учащимся понять глубокие представления в последующих задачах, получая вывод из искаженного ввода. Эта модель часто используется для предсказания слов, которые будут использоваться в предложении.

47. В чем разница между НЛП и КИ (диалоговый интерфейс)?

48. Каковы лучшие инструменты НЛП?

Некоторые из лучших инструментов НЛП из открытых источников:

  • SpaCy
  • TextBlob
  • Textacy
  • Инструментарий естественного языка
  • Ретекст
  • НЛП.js
  • Стэнфорд НЛП
  • CogcompNLP

49. Что такое POS-теги?

Теги частей речи, более известные как теги POS, относятся к процессу идентификации определенных слов в документе и группировки их как части речи в зависимости от контекста. Маркировка POS также известна как грамматическая маркировка, поскольку она включает в себя понимание грамматических структур и идентификацию соответствующего компонента.

Тегирование POS — сложный процесс, поскольку одно и то же слово может быть разными частями речи в зависимости от контекста. Тот же самый общий процесс, используемый для сопоставления слов, совершенно неэффективен для тегов POS по той же причине.

50. Что такое РЭШ?

Распознавание именных сущностей более известно как NER — это процесс идентификации конкретных сущностей в текстовом документе, которые являются более информативными и имеют уникальный контекст. Они часто обозначают места, людей, организации и многое другое. Несмотря на то, что кажется, что эти объекты являются именами собственными, процесс NER далек от идентификации только существительных. Фактически, NER включает в себя разбиение или извлечение сущностей, при этом сущности сегментируются для их классификации по разным предопределенным классам. Этот шаг также помогает в извлечении информации.

Вот и готовы все возможные вопросы для интервью по НЛП. А теперь иди, приложи все усилия. Ознакомьтесь с Курсом глубокого обучения от Great Learning, чтобы расширить свои знания в предметной области.