Я скачал Википедию полностью, посчитал все слова — и вот первая десятка.

Все началось с того, что на моем домашнем сервере осталось много места. Я хотел что-то с этим сделать. Мне всегда нравились Большие данные. Я быстро пришел к мысли, как здорово было бы иметь всю Википедию — в чистом виде.

Я начал искать в Википедии текстовые загрузки, но ничего не нашел. Есть несколько дампов, которые можно скачать здесь.
Проблема этих загрузок в том, что они включают исходный код, информацию заголовка, XML, уценку и скоро. Поскольку я не смог найти ни одного источника с текстовыми версиями, мне пришлось создать ее самостоятельно.

  1. Я скачал последний дамп из Википедии (20200201 | 1 февраля 2020 г.), который составляет 157 ГБ текста (распакованный).
  2. Я написал несколько скриптов, чтобы избавиться от всех метаданных и исходного кода.
  3. Я посчитал каждое слово и поместил их в список с количеством вхождений.

Обработка этих файлов занимала много времени, поэтому я всегда оставлял скрипты работать на ночь.
Я изо всех сил старался удалить весь исходный код, но некоторые вещи просто проскальзывают, так как я не могу проверить весь текст на правильность самостоятельно. . Поэтому, пожалуйста, простите меня, если вы найдете некоторые записи в полном списке, которых там быть не должно (случайные строки и т. д.), но число рядом со словами правильное.

Вот 10 самых популярных слов в английской Википедии:

  1. в
  2. to
  3. of
  4. и
  5. a
  6. in
  7. is
  8. универсальное глобальное время
  9. ты
  10. I

Полный список и сценарии, которые я использовал, доступны на GitHub здесь:

https://github.com/mjw-research/most-used-words-on-wikipedia

Этот список не впечатляет, но я думаю, что это интересно знать.

Что, на мой взгляд, более впечатляет, так это то, что вы можете посмотреть, сколько раз слово используется в Википедии, выполнив поиск по файлу (например, вы можете использовать CTRL+F для поиска в GitHub).

Мое имя («Марвин»), например, используется 33628 раз.