Protein

View in Explore

Genbank accession

XUK81932.1 [GenBank]

Protein name

central tail fiber J

RBP type

Evidence GenBank

Probability 1,00

TSP

Evidence RBPdetect

Probability 0,69

Evidence RBPdetect2

Probability 0,96

Protein sequence

MPIAMIDNIVASARSSSYDWNASKAALADSLNTVTTRTLDKIFEGNKSYRSQQDRQKLLRSSAAPCSVVYGKTRTSGLLAFLEQDRDRTLHCAIVLANHPLEGIEDILIDGNPISSYGDLVSWELHNDRKTSDPFMGTHCPSWSPDMIGRGISWLRASFKFDPNKFPFGLPNVTLVKVGKKCYDPRISKEVYTNNAALVILDYLRTYLKCPDETINWESFKEAANICDEAVKNADGTSERRYTINGEFDMDEAPASIMAEMLKACGADLSYVAGKYGLLVGAYYGPATMTLSEDCVCGEVKIYPEASFDKRSNTITGRFTSPAKGYSETDFPSVFVPEWIEKDGERKIIDIDYRFVTSPYQAQRVSAIFLRRARAGRIIEVTCNMRGFKFKPGRYVTMDLPSIGIVGQEMRVLEWEFTKKGGVKVKLRQDAKEWNDATGQLPDSGDVDIPISPSGVAQPQNFRYSVLQAGEVTHGVLAWDNVGTYAQNIVQVRKNGEIIWTAQTVEQFVRVEGLTKGSYTATVVATSYKGGVSPEAYCEFNIQAPEAPVSVEVKQGYFAITLIPHSRDLASVSTQYDFWTSGMTRLPDTSDATVTSKATRMGVGSTWTSEGLQNDKIYYWYIRTTNAFGSSQFIECAARCYTSIEDLMPQIDAEFKKTETYKELMSTLDSSIEEVENRVTELNRYMDGRVDEAFDHMEGEFSRVDKLYAQLGNRVGIFIQETHDNFQDVNGTLTTLDQKLVATQNKFADDLSKESGKLTSLIQTTNKATTDLLNQKTEALDEKIVSTRGELEDALAQESSELNSLIVSTNKTTTDLLNRKTEALDNKLTATKGELTNNLQNESAKLSSLIESTNKSTTDLLNKKTEALDEKLVAAQGELTEQIGDVEKGYLAGDKSLEGKLNTQRSELDASILSTNQATVDLLNRTSETLDQKISQTNATVSKNYTTLDGKINTAKSDLNTLISTTNKATTDLLNQKTAALTEQLTTAKGQITTNTNNINGLDNKLTQTKKELSANISETNKSTVDLINGTASAIRQELAVAKQEIIDDVGDVTELRAAVATTSKAVTDLEGKVNAQWGTKIQVDSAGNKYVAGIQLGMEGSGGQVQSYFMVSANNFAVYNPGNGTATLAFAIKNNQAFLKDAFIENGTISSAKIAQEISSNNYDGNGYHKYGWYINKNGHAQFMDVWVKGNINASAGNFTGAVNATSGTFRGDVYANNGSFRGTIDATGGTFRGRVEASVIRANQFEGAIVAHRTYGDCAPVYNSRQRVCRWRWRYVDNVSGQGKNVTFFFKLNGTLASSQLNAWIAGHQILAGKKYFNDNNGMCAVGITGLGEQTIDIVIEIYTPWSTSSVTGVTISCPTVIVSRSNSSFQGPWNESHD

Physico‐chemical properties

protein length:	1381 AA
molecular weight:	151797,00110 Da
isoelectric point:	5,37563
aromaticity:	0,08327
hydropathy:	-0,39877

Domains

Domains [InterPro]

DC_0187
STR
1–902

DC_0187 DC_1281

IPR053171
Unmapped
470–1221

IPR053171

IPR057587
ATT
547–651

IPR057587 IPR015406

XUK81932.1

1 1381

Architecture

STR

ATT

STR

RBD

STR 1-546 | ATT 547-651 | STR 652-902 | RBD 986-1374 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0187	STR	DC_0187	1	902	Novel HMM	DC_0187	Central	Low	Positional only	466 proteins / 466 hits
IPR053171	Unmapped	-	470	1221	InterPro	Viral Tip Attachment Protein	-	-	-	-
IPR057587	ATT	DC_0130	547	651	InterPro cluster	Tip attachment protein J, second Ig-like domain	Central	Medium	Text match	309 proteins / 309 hits
DC_1281	RBD	DC_1281	986	1374	Novel HMM	DC_1281	C-terminal	Low	Positional only	31 proteins / 31 hits
IPR015406	RBD	DC_0135	1059	1199	InterPro cluster	Tip attachment protein J, central straight fiber domain	C-terminal	High	Text match	1265 proteins / 1266 hits

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

XUK81932.1

1 1381

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	1207	1207	0,8335
Central domain	1208	1370	164	0,3560
C-terminal	1371	1381	10	0,9789

Note: Constraints were applied during segmentation.
C-terminal too short, adjusted boundary

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-1207

Central
1208-1370

C-terminal
1371-1381

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Escherichia phage NHEP1 [NCBI]	3420447	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Escherichia coli [NCBI]	562	cellular organisms > Bacteria > Pseudomonadati > Pseudomonadota > Gammaproteobacteria > Enterobacterales

Coding sequence (CDS)

Genbank protein accession

XUK81932.1 [NCBI]

Genbank nucleotide accession

PQ511146.1 [NCBI]

CDS location

range 115412 -> 119557
strand -

CDS

ATGCCAATTGCAATGATTGATAACATCGTTGCTTCTGCAAGATCTTCGAGCTATGACTGGAACGCATCCAAGGCAGCTCTGGCTGACAGCCTGAACACTGTTACCACCAGAACCCTTGATAAGATTTTCGAAGGCAACAAATCTTACAGAAGTCAACAAGATAGACAAAAACTTCTCAGATCTTCTGCTGCACCTTGCTCTGTAGTATATGGGAAGACACGCACATCTGGATTGCTTGCGTTTTTAGAGCAGGACAGGGACAGAACCCTTCATTGTGCTATTGTTCTTGCCAATCATCCCTTGGAAGGTATAGAAGATATACTTATCGACGGTAATCCTATTTCCTCGTATGGGGATTTGGTATCGTGGGAGTTGCATAACGACAGGAAAACCTCTGATCCTTTCATGGGCACACACTGCCCTTCGTGGTCACCAGACATGATAGGTAGAGGGATCAGTTGGCTACGTGCCAGCTTTAAGTTTGACCCTAACAAGTTTCCTTTTGGGTTGCCAAACGTTACACTCGTCAAGGTTGGTAAAAAATGTTATGATCCTCGTATCAGTAAAGAGGTGTATACCAACAACGCTGCCTTGGTGATTCTGGACTATCTAAGAACGTACCTTAAATGTCCTGACGAAACCATCAACTGGGAGTCCTTCAAGGAAGCTGCCAACATATGCGACGAGGCTGTAAAAAACGCGGACGGAACCAGTGAGCGCCGTTACACCATTAATGGCGAGTTCGACATGGATGAAGCACCAGCAAGCATTATGGCAGAGATGCTGAAAGCTTGTGGTGCAGACCTTAGCTATGTAGCTGGCAAATATGGTCTGCTGGTAGGTGCATACTATGGCCCGGCAACAATGACACTGAGTGAGGACTGTGTTTGCGGTGAGGTTAAGATCTATCCTGAAGCCTCCTTCGACAAAAGATCCAACACAATAACTGGCAGATTCACTAGTCCGGCTAAAGGATATTCTGAAACAGATTTTCCATCAGTGTTTGTCCCAGAGTGGATAGAGAAGGATGGAGAAAGAAAGATAATCGATATAGATTATCGCTTTGTTACCAGTCCTTATCAAGCTCAGCGTGTTTCTGCAATCTTCTTAAGACGTGCCAGAGCTGGTAGGATTATTGAAGTAACCTGCAATATGCGGGGTTTTAAATTTAAGCCTGGGCGTTACGTTACGATGGACCTTCCAAGTATTGGTATAGTGGGCCAAGAAATGAGGGTTCTTGAGTGGGAGTTCACCAAAAAGGGCGGTGTCAAGGTAAAACTCCGTCAAGATGCTAAAGAGTGGAATGATGCCACAGGGCAACTTCCGGATTCTGGCGATGTGGATATTCCGATATCCCCGTCCGGCGTAGCTCAACCGCAAAACTTCAGATACTCTGTTCTTCAAGCTGGGGAAGTAACTCATGGTGTTTTGGCTTGGGACAACGTTGGAACTTATGCTCAAAATATTGTGCAGGTAAGAAAGAACGGAGAAATTATTTGGACAGCACAAACAGTAGAGCAGTTTGTCCGTGTAGAAGGATTGACCAAAGGGTCATACACAGCAACCGTGGTTGCAACATCTTATAAAGGTGGTGTATCTCCAGAAGCGTACTGCGAGTTTAACATTCAGGCACCTGAAGCTCCGGTTTCTGTAGAAGTTAAGCAGGGATACTTTGCTATCACCTTGATTCCGCACAGCAGGGACTTAGCAAGTGTAAGCACCCAGTATGACTTTTGGACATCTGGTATGACAAGGTTGCCAGACACAAGTGATGCAACCGTTACTTCAAAAGCCACTCGTATGGGTGTTGGTTCAACTTGGACATCTGAAGGTCTGCAGAACGATAAGATCTATTATTGGTATATTCGAACCACAAACGCTTTTGGTAGTTCTCAGTTTATAGAATGCGCTGCACGCTGCTACACCTCTATTGAAGATTTGATGCCTCAGATAGATGCTGAATTTAAAAAGACAGAAACTTATAAAGAGTTGATGAGCACTTTAGATTCCTCTATTGAAGAGGTTGAAAATCGTGTCACAGAACTTAACAGGTACATGGATGGTAGAGTTGACGAGGCTTTTGACCACATGGAAGGTGAGTTCTCTAGAGTAGACAAGCTGTATGCTCAGTTGGGGAATAGGGTTGGAATATTCATCCAAGAAACCCACGACAACTTCCAGGACGTTAATGGAACGCTTACCACTCTAGACCAGAAACTGGTAGCCACTCAGAACAAGTTTGCAGATGATCTTTCTAAAGAAAGTGGTAAGCTGACTTCTCTAATACAGACCACTAACAAAGCTACAACCGATCTGTTAAATCAGAAAACTGAAGCTTTGGACGAGAAGATTGTTTCAACAAGGGGTGAATTGGAAGATGCTTTGGCACAGGAAAGCTCTGAGCTGAACTCTCTAATTGTTTCAACCAATAAAACGACTACAGATCTCCTTAATCGGAAAACTGAGGCTTTAGATAACAAGCTGACAGCAACGAAAGGTGAGTTGACCAACAACCTGCAAAATGAGAGTGCTAAACTATCATCCTTGATTGAGTCAACCAACAAATCCACCACTGATCTTCTTAATAAGAAAACAGAGGCGTTGGATGAAAAACTGGTTGCTGCACAGGGAGAGTTGACTGAGCAGATCGGAGATGTTGAAAAAGGCTATCTGGCTGGTGATAAGAGCCTAGAGGGCAAGTTGAATACTCAAAGATCTGAGTTGGATGCGAGCATTCTGAGCACTAACCAGGCCACTGTGGACTTGCTGAACAGAACTTCTGAGACTCTTGACCAGAAGATTAGCCAGACCAACGCCACAGTGTCCAAAAACTACACCACGCTTGATGGTAAGATAAACACCGCCAAGTCTGATCTTAATACGTTGATTTCTACCACCAACAAGGCCACAACTGACCTATTGAATCAGAAAACGGCAGCTTTGACTGAGCAGTTAACCACTGCTAAAGGGCAGATTACAACCAACACCAATAACATTAACGGGTTGGATAATAAGCTGACTCAGACTAAGAAAGAATTGTCTGCGAATATTTCTGAAACTAATAAGTCTACTGTTGACCTTATTAATGGCACAGCGTCAGCTATTCGTCAAGAACTTGCTGTTGCTAAGCAGGAGATTATTGATGATGTTGGAGATGTGACCGAACTCAGAGCTGCAGTGGCTACAACATCTAAGGCTGTGACCGACTTAGAGGGCAAAGTAAATGCTCAATGGGGCACAAAAATACAGGTAGACTCCGCAGGGAATAAGTATGTGGCAGGTATCCAGTTAGGCATGGAAGGCTCTGGAGGCCAAGTTCAGTCATATTTCATGGTTAGCGCAAACAACTTTGCGGTATACAACCCAGGCAATGGAACAGCAACCCTTGCTTTCGCAATCAAGAACAACCAAGCGTTCTTGAAAGACGCTTTTATAGAGAACGGCACGATCTCTTCTGCCAAGATCGCGCAAGAAATTTCGTCAAACAACTACGATGGCAACGGGTACCACAAATACGGTTGGTATATTAACAAGAACGGGCACGCCCAGTTTATGGATGTGTGGGTGAAAGGTAACATCAACGCTAGTGCAGGTAACTTCACAGGGGCAGTTAACGCTACCAGTGGCACCTTCCGTGGGGATGTTTATGCCAACAACGGTAGCTTTAGAGGAACCATAGATGCAACAGGAGGTACATTCCGTGGACGTGTAGAAGCTTCCGTTATCCGTGCTAACCAGTTCGAAGGTGCGATTGTTGCACACAGGACTTACGGAGATTGTGCTCCAGTATACAACTCCCGGCAAAGGGTTTGCCGTTGGAGGTGGAGATACGTAGATAACGTTTCAGGTCAGGGTAAGAACGTAACATTCTTCTTTAAACTGAATGGTACTCTTGCCAGCTCCCAGCTGAATGCATGGATAGCTGGTCATCAGATCCTTGCTGGCAAGAAGTATTTTAACGACAACAACGGCATGTGTGCGGTAGGGATAACAGGTCTGGGTGAACAAACTATAGACATTGTTATCGAGATTTACACACCGTGGTCAACGTCTAGCGTGACAGGTGTCACAATCTCCTGTCCCACTGTGATCGTTAGTCGTTCTAACTCAAGCTTCCAGGGACCTTGGAACGAGTCTCACGACTAA

Genome Context

Tertiary structure

PDB ID

de734dbdb60f440f0dab8a774d5612e9f9f334505afc1e6eeddddd56eac840f0

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6274

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence