Я скачал Википедию полностью, посчитал все слова — и вот первая десятка.
Все началось с того, что на моем домашнем сервере осталось много места. Я хотел что-то с этим сделать. Мне всегда нравились Большие данные. Я быстро пришел к мысли, как здорово было бы иметь всю Википедию — в чистом виде.
Я начал искать в Википедии текстовые загрузки, но ничего не нашел. Есть несколько дампов, которые можно скачать здесь.
Проблема этих загрузок в том, что они включают исходный код, информацию заголовка, XML, уценку и скоро. Поскольку я не смог найти ни одного источника с текстовыми версиями, мне пришлось создать ее самостоятельно.
- Я скачал последний дамп из Википедии (20200201 | 1 февраля 2020 г.), который составляет 157 ГБ текста (распакованный).
- Я написал несколько скриптов, чтобы избавиться от всех метаданных и исходного кода.
- Я посчитал каждое слово и поместил их в список с количеством вхождений.
Обработка этих файлов занимала много времени, поэтому я всегда оставлял скрипты работать на ночь.
Я изо всех сил старался удалить весь исходный код, но некоторые вещи просто проскальзывают, так как я не могу проверить весь текст на правильность самостоятельно. . Поэтому, пожалуйста, простите меня, если вы найдете некоторые записи в полном списке, которых там быть не должно (случайные строки и т. д.), но число рядом со словами правильное.
Вот 10 самых популярных слов в английской Википедии:
- в
- to
- of
- и
- a
- in
- is
- универсальное глобальное время
- ты
- I
Полный список и сценарии, которые я использовал, доступны на GitHub здесь:
https://github.com/mjw-research/most-used-words-on-wikipedia
Этот список не впечатляет, но я думаю, что это интересно знать.
Что, на мой взгляд, более впечатляет, так это то, что вы можете посмотреть, сколько раз слово используется в Википедии, выполнив поиск по файлу (например, вы можете использовать CTRL+F для поиска в GitHub).
Мое имя («Марвин»), например, используется 33628 раз.