Protein

View in Explore

Genbank accession

UIS66071.1 [GenBank]

Protein name

long tail fiber

RBP type

Evidence GenBank

Probability 1,00

Evidence RBPdetect

Probability 0,63

Evidence RBPdetect2

Probability 0,68

Protein sequence

MADILKPAFRATSGLDAAGEKVINVAKADYSVLSDGVNVDFFIEENTVQQYDATRGYKKNFAVINDNRIWVAQRDIAAPAGAFTPQYWLATRTDPKWETVASPTRQLNSGEFIAVDSAASFTTFTLPPNPVDGDTIVIKDIGGNVGYNEIKIQSSNVPGAGNQKIVRFGNQYPEILITKPFSYNMLIFSNRLWQFWEAGNEERGIRVEPSTGRFHAQAGDFIMRRYTTGAPITFILPKYANQGDIVKSVDIDGMGPTFHLMVETFDTSSSLGKAGQHQMEFRTTGDGFFVYNAAEKLWYVWDGDNKTRLRVIRDSVKLLPNESIIVFGEDNSTPATINIDLPTNVLQGDIVKIALNYLRKSQTVNIRAAVGDKIASDIKLLQFPKRSEYPPDTTWVLVDSLTFNGNISYTPVIELSYAEDTVAGTSYWVVAQNVPTVERVDSLNDSTRARLGVIALANQTQANVDHENNPEKELAITPQTLANRVAKENQRGIARIATTAQVNQNSDFAFVDDVIISPKKLNERTATETRRGLAELATQQETDAGVDDTTIITPKKLQARQGSESLSGIVTYVSTTGTTPAASRELNGTNVYNKNTVNLVVSPKALDQYKATYTQQGAVILAVESEVIAGTSQSGWANAVVTPEMLHRKTALDSRIGLIEIATQVETDAGTDYTRAVTPKTLNDRKASETLTGIAEIATQSEFDTGTDDTRISTPLKIKNRFNNTARTSVNALSGLVETGTLWDHYSLNILEANETQRGTARLATQGEVNTGTDDKTIVTPLKLMSKKATENAEGIVRIATNAEATAGTSKVLAISPSALKYIAQTETTWEASETLRGFVRLSSGAATSAATTTTGAGFTYANGVYTPDPSKLVSYAKSGYAVSPYELNRVLQNFLPINAMAVNAEKLDNLDSTQFIRRDIAQTVEGALTLTKQTNISAPVVSTSTAVFTDVTAGTSTFGTVNVVNGTNKWKITAPSAGTTMTIGDTTNVLTLNTASGNVAVLNNLSAGNDVQAKNNYVLNGRTIATTTGEASGATLALGDNSQNLVLKTLDAGNIIANGGGAFKVLTEKNAVEIVDRNFVNQAGDTMSGVLRVNAPVRVFGTKPSLIAQAPTADTVGFWSVDINDEPTYSQFPGYWTMKLKRQVNIDTVQTKPAGVTDEVWNASGWLTENGTFASPAIRYRNDDGSLGDEVLSSSGQKLRGTWFDYSVRDKQIKYPGTLTQFGNTLDSCYQDWVCYPTGLNGGTIRYTRTWQKNKSAWTTFAMVYTADNPPSAEDVGALPADNTTMGNLTILDWLRIGNVRIIPDPTTKSVKFEWIE

Physico‐chemical properties

protein length:	1318 AA
molecular weight:	142977,17430 Da
isoelectric point:	5,25882
aromaticity:	0,07891
hydropathy:	-0,28263

Domains

Domains [InterPro]

DC_1986
ATT
12–126

DC_1986 DC_1209

IPR048391
ATT
1112–1145

IPR048391 IPR048391

UIS66071.1

1 1318

Architecture

ATT

STR

ATT

STR

ATT

STR

ATT 12-126 | STR 349-1111 | ATT 1112-1145 | STR 1146-1204 | ATT 1205-1266 | STR 1267-1300 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_1986	ATT	DC_1986	12	126	Novel HMM	DC_1986	N-terminal	Low	Positional only	693 proteins / 693 hits
DC_1209	STR	DC_1209	349	1300	Novel HMM	DC_1209	Central	Low	Positional only	904 proteins / 904 hits
IPR048391	ATT	DC_0875	1112	1145	InterPro cluster	Long-tail fiber proximal subunit domain	C-terminal	Medium	Text match	795 proteins / 796 hits
IPR048391	ATT	DC_0875	1205	1266	InterPro cluster	Long-tail fiber proximal subunit domain	C-terminal	Medium	Text match	795 proteins / 796 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Escherichia phage PSD2001 [NCBI]	2880889	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Escherichia coli [NCBI]	562	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Enterobacterales

Coding sequence (CDS)

Genbank protein accession

UIS66071.1 [NCBI]

Genbank nucleotide accession

OK254198.1 [NCBI]

CDS location

range 103697 -> 107653
strand +

CDS

ATGGCCGATATTTTAAAACCAGCATTCAGAGCAACATCCGGTCTCGATGCTGCTGGTGAGAAAGTCATTAATGTCGCAAAAGCTGATTACTCAGTTTTATCAGACGGCGTTAACGTAGATTTCTTTATAGAAGAAAACACAGTTCAACAATATGATGCAACACGCGGATACAAAAAGAACTTTGCAGTTATTAATGATAACCGTATTTGGGTTGCTCAACGTGATATCGCGGCTCCTGCGGGAGCATTTACCCCTCAGTATTGGTTAGCAACTCGTACTGACCCGAAATGGGAAACTGTTGCATCTCCAACTCGTCAGCTTAACTCGGGTGAATTTATCGCCGTCGACTCGGCTGCAAGCTTTACCACATTTACATTGCCTCCAAACCCGGTTGACGGTGATACCATCGTTATTAAAGATATCGGTGGGAACGTTGGTTACAATGAAATTAAAATCCAGTCAAGCAACGTACCAGGGGCAGGTAACCAAAAGATTGTTCGCTTTGGTAATCAGTATCCGGAAATTTTAATTACCAAACCATTCTCTTATAACATGCTTATCTTTTCAAACCGCTTATGGCAATTTTGGGAAGCTGGCAACGAAGAACGTGGCATCAGAGTAGAACCATCAACGGGTCGTTTCCATGCACAAGCTGGCGACTTTATTATGCGTCGTTATACAACTGGTGCACCGATTACTTTCATTCTTCCTAAGTATGCAAACCAGGGTGATATTGTCAAATCTGTTGATATCGATGGCATGGGACCAACGTTCCACCTGATGGTTGAAACTTTTGACACCAGTTCCAGTCTTGGAAAAGCTGGCCAGCATCAAATGGAATTCCGTACCACAGGTGATGGTTTCTTCGTTTATAATGCTGCCGAAAAACTCTGGTATGTTTGGGACGGTGATAATAAAACTCGTCTGCGCGTTATTCGTGACAGTGTTAAACTTTTACCAAACGAAAGCATCATTGTATTTGGCGAAGATAACTCAACTCCGGCAACGATTAATATCGATTTACCAACTAATGTTTTACAAGGTGACATTGTTAAAATTGCGCTGAACTATCTCCGCAAATCACAGACCGTTAATATAAGAGCTGCTGTTGGTGATAAGATTGCATCTGACATTAAATTGCTACAATTCCCTAAACGTTCCGAGTATCCACCGGATACAACTTGGGTGCTGGTTGATTCATTAACCTTTAATGGCAACATCAGTTATACTCCGGTTATTGAATTGTCATATGCAGAAGATACAGTGGCTGGAACAAGTTATTGGGTTGTCGCTCAGAACGTCCCGACTGTCGAACGAGTTGACTCATTAAATGATTCCACGCGCGCACGTCTTGGTGTTATTGCTCTGGCAAACCAGACTCAGGCAAACGTTGACCATGAAAATAATCCAGAGAAAGAACTTGCAATTACCCCTCAGACTTTAGCCAACCGTGTTGCTAAAGAGAACCAACGAGGCATTGCCAGAATCGCAACGACTGCTCAAGTAAATCAGAACAGTGATTTTGCATTTGTTGATGATGTAATTATTTCTCCGAAAAAACTCAATGAACGTACGGCAACAGAAACGAGACGTGGGCTCGCAGAACTCGCCACACAGCAAGAAACCGATGCAGGTGTAGATGATACCACAATTATCACTCCAAAGAAACTGCAAGCGCGTCAGGGCTCAGAATCGCTATCTGGTATTGTAACTTACGTTTCAACGACTGGTACAACTCCTGCTGCTTCACGTGAATTAAATGGTACAAACGTTTATAATAAAAATACGGTTAATCTGGTTGTTTCCCCGAAAGCTCTTGACCAGTACAAAGCTACTTACACTCAGCAAGGCGCGGTTATTCTTGCGGTTGAAAGTGAAGTAATTGCTGGTACTTCTCAATCTGGATGGGCAAACGCAGTCGTTACTCCAGAAATGTTACATCGCAAAACTGCTCTTGATTCCCGTATCGGTTTAATCGAGATTGCTACCCAGGTTGAAACAGATGCAGGAACCGATTATACCAGAGCTGTGACTCCCAAAACGTTAAATGACCGTAAAGCATCAGAAACGTTAACCGGCATAGCCGAGATTGCTACGCAATCAGAATTTGATACTGGAACTGATGATACTCGTATCTCAACCCCATTAAAAATTAAAAATAGATTTAATAATACTGCTCGTACTTCTGTTAATGCATTAAGTGGTTTAGTAGAAACAGGGACGCTCTGGGACCATTATAGCCTGAATATTCTTGAAGCAAATGAGACTCAGCGTGGCACAGCAAGATTAGCAACTCAGGGCGAAGTCAATACTGGCACTGACGATAAAACAATCGTTACTCCGCTTAAATTGATGTCGAAAAAAGCTACTGAAAATGCCGAAGGTATTGTTCGCATCGCGACAAACGCAGAAGCAACAGCAGGCACATCAAAAGTCTTGGCCATTAGTCCGTCTGCGCTGAAATATATTGCACAAACGGAAACAACCTGGGAAGCATCTGAAACACTGCGTGGATTTGTTCGTTTATCTTCTGGTGCAGCTACTTCGGCCGCAACTACAACGACTGGTGCAGGATTTACATATGCAAATGGTGTGTATACTCCGGACCCAAGTAAACTGGTTAGCTATGCAAAATCTGGATATGCAGTTTCGCCTTACGAATTAAACCGCGTATTGCAAAACTTCTTACCGATAAATGCAATGGCTGTTAATGCCGAAAAACTGGATAACCTCGATTCGACCCAGTTTATTCGTCGTGATATTGCTCAGACTGTTGAAGGTGCGTTAACTCTTACTAAACAGACAAATATCTCTGCTCCGGTTGTATCGACGAGCACTGCAGTGTTTACTGATGTAACGGCTGGCACTTCGACGTTCGGAACTGTGAATGTTGTTAACGGAACTAACAAGTGGAAAATCACTGCTCCTTCCGCCGGAACGACAATGACTATTGGCGATACGACTAACGTATTGACATTAAACACCGCCTCGGGTAATGTTGCTGTATTGAACAACCTCAGCGCCGGTAACGATGTTCAAGCCAAAAATAATTACGTTCTAAATGGTCGTACTATTGCAACCACGACGGGTGAAGCTTCTGGCGCAACTCTGGCTCTGGGTGATAACTCGCAGAATTTAGTGCTTAAAACTCTTGATGCTGGTAATATCATAGCAAACGGTGGCGGTGCATTTAAAGTCCTGACCGAGAAAAACGCTGTTGAGATTGTAGATAGAAACTTTGTTAACCAAGCCGGTGATACAATGTCTGGTGTGCTCCGTGTGAATGCTCCAGTCCGCGTATTCGGTACGAAACCAAGTCTTATCGCACAAGCCCCGACCGCAGATACTGTTGGCTTCTGGTCTGTCGATATCAATGATGAACCGACTTACAGCCAGTTCCCTGGCTACTGGACAATGAAGTTAAAACGTCAGGTAAACATTGATACAGTTCAAACTAAACCTGCTGGGGTAACTGATGAAGTTTGGAATGCTTCTGGTTGGTTAACTGAAAACGGAACTTTCGCCTCGCCTGCTATTCGTTATCGTAATGATGACGGCTCGCTCGGTGACGAAGTATTGAGTAGTTCTGGTCAGAAACTGCGCGGAACCTGGTTTGACTATTCAGTTCGTGATAAACAAATTAAATATCCTGGTACATTGACTCAGTTCGGTAATACGCTGGATTCGTGCTATCAAGATTGGGTTTGCTATCCAACTGGATTGAACGGTGGTACTATTCGTTATACCCGTACCTGGCAGAAAAATAAATCTGCATGGACGACTTTCGCAATGGTTTACACCGCGGATAACCCTCCATCTGCAGAGGATGTTGGTGCATTACCGGCTGACAACACAACGATGGGGAACTTAACCATTCTCGATTGGTTGCGTATCGGTAACGTGCGTATCATCCCAGACCCGACCACTAAATCCGTTAAGTTTGAATGGATTGAATAA

Genome Context

Tertiary structure

PDB ID

35d09f8fd59438a332b3e8cd498422962caebcbf0cf3f3371867203d09c307db

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,5451

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence