Предположим, моя длинная последовательность выглядит так:
5’-AGGGTTTCCC**TGACCT**TCACTGC**AGGTCA**TGCA-3
Две подпоследовательности, выделенные курсивом (здесь внутри двух звездочек) в этой длинной последовательности вместе называются перевернутым повторяющимся шаблоном. Длина и комбинация четырех букв, таких как A,T,G,C в этих двух подпоследовательностях, будут различаться. Но между этими двумя подпоследовательностями существует связь. Обратите внимание, что если вы рассматриваете первую подпоследовательность, то ее дополнительная подпоследовательность будет ACTGGA (в соответствии с комбинацией A с T и G с C), и когда вы инвертируете эту дополнительную подпоследовательность (т.е. последняя буква идет первой), она совпадает со второй подпоследовательностью.
В последовательности FASTA присутствует большое количество таких шаблонов (содержит 10 миллионов букв ATGC), и я хочу найти такие шаблоны, а также их начальное и конечное положения.