Я пытаюсь создать скрипт, который просматривает список строковых файлов и сообщает о наиболее распространенных между ними подстроках.
Например:
- Здравствуйте, я первая строка. Я люблю яблоки и апельсины. Мы все здесь струны.
- Здравствуйте, я вторая строка. Я люблю яблоки и апельсины. Мы все здесь струны.
- Здравствуйте, я третья строка. Я люблю яблоки и апельсины. Мы все здесь струны.
- Привет, я строка четыре. Я люблю яблоки и апельсины. Мне нравится выражать свою индивидуальность.
Я хочу, чтобы скрипт сообщал мне, какие общие элементы между строками выше определенного порога (например, 5 символов).
В идеале мне сказали бы
- «Я люблю яблоки и апельсины» встречается во всех файлах.
- «Привет, я строка» встречается во всех файлах
- «Мы все здесь строки» встречается в трех файлах.
Если существуют функции для этого в технологиях, с которыми я знаком - SQL, Javascript, PHP, Ruby или Bash - я буду очень рад...
Большое спасибо,
разъем