У меня есть файл файла tab delim, который содержит следующую информацию
>fasta
>ss_23_122_0_1
MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS
>ss_23_167_0_1
WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW
>ss_23_167_0_1
MAASDASDWEPWERIWERIWER
>ss_23_167_0_1
QWEKCKLSDOIEOWIOWEUWWEUWEZURZEWURZUWEUZUQZUWZUE
>ss_45_201_0_1
HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER
>ss_45_201_0_1
ZTTRASOIIDIFOSDIOFISDOFSDFQAWTZETQWE
>ss_89_10_0_2
NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP
Для таких идентификаторов, как ss_45_201_0_1
и ss_23_167_0_1
, было несколько записей, я хотел бы сохранить только те записи, которые имеют максимальную длину из всех. Я хотел бы получить вывод следующим образом:
>fasta
>ss_23_122_0_1
MJSDHWTEZTZEWUIASUDUAISDUASADIASDIAUSIDAUSIDCASDAS
>ss_23_167_0_1
WEIURIOWERWKLEJDSAJFASDGASZDTTQZWTEZQWTEZUQWEZQWTEZQTWEZTQW
>ss_45_201_0_1
HZTMKSKDIUWZUWEZTZWERWUEOIRUOEROOWEWERSDFSDFRRRETERTER
>ss_89_10_0_2
NJZTIWEIOIOIPIEPWIQPOEIQWIEPOQWIEPOQWIEPQIWEP
Я попробовал следующий код в R, но он не работает
Unique(fasta)
Может ли кто-нибудь направить меня. Как я могу получить только самую длинную последовательность для тех же идентификаторов, которые имеют несколько записей разной длины.