Protein

View in Explore

Genbank accession

XHB26436.1 [GenBank]

Protein name

tail fibers protein

RBP type

Evidence GenBank

Probability 1,00

TSP

Evidence RBPdetect

Probability 0,56

Protein sequence

MPSGIITQLYLESFWGDSTVGKRDNNWAGMSGGAQTRPSGVKVTTGMARPANEGGTYMHYASVDDFLKDYTYLLAKQGIYNVVGKKNIADYTKGLFRAGGAKYDYAAAGYQSYTNLMTNIRNGINKVTGNILNTIDKLWQTPVKPITAVNVARRATKTIQAINEATKLKGRRIGSGQCYALSGWYAKKLDGAWIDSSIGGIRGRIGGGMAAALIGTDYNWGAYGWKVDKSPNAGNLKAGGIYNVRANRGAPFYTTGWGHTGIIKSVSKTRVTVLEQNYAGRMYVMENSYEINAFARGLQTVCYPREIAQGMAVNGATTQQVSGGTQISYEEVVQEAQTESYEEEQIIYIDNSIYKEWKDENGKVEYYLKNGFLYAPLSRDRYPSVLTGNETRDNWIRKDMEVETDSQEVLMSTGLKDLKAHAYPAITYEVDGYVDLELGDVVRIQDDGYEPPLILTARVVEQEISITNPSSNKTKFSNFVEKESQLASDLISDMLRLYDESIPYEIKLATSNGVAFKNGTGESVLTPSLQKNGKDYEAVYFYKNGDSLIDIGPSLIVKASDFNHVLNITVEAYLNEELVASTQISFTDTEDGADGKDGAPGPQGPPGVNGLQGPKGDQGIQGPAGADGKATYTHIAYALDENGSTGFSVSDNVGKTYIGMYVDDNIIDSNDPKKYKWNLIKGADGARGIQGPAGADGKTPYWHVAYANSSDGTVDFSVSDSANKRYIGQYTDYDAIDSSDPKKYRWTDMVGTVVVGTNNLIDGTKSFFGTDWFTSATLEDENLSNCPFTLKKWISGQKVSHAKDIMVEQGVTYTFSAYVKREVAGNLYFYLYDIADGFITSDTPRETIIKNVDSSLRRFEITFTPTKTGRIRPRFAMVSSEQGSFSSGGFMLVRGNKTGDWQESEADKASNLDSKADEAFTVEQLNALAERARIAEAELQSKATLDTVNDWVKALQDEIKAREGGQKLSEQKLIDFSNRMIAVQQTIGEMQIRTDFVNKFMSQSEDGLVIGQKDGTSSVRVDNDRISFYSSGKEVAYIAQSVLVIDSGIFTTKLQIGRYRIEQYELNADINVVRYVG

Physico‐chemical properties

protein length:	1077 AA
molecular weight:	118487,75960 Da
isoelectric point:	5,16589
aromaticity:	0,10121
hydropathy:	-0,44875

Domains

Domains [InterPro]

IPR002901
ENZ
1–111

IPR002901 IPR007921 G3DSA:2.60.120.260 Coil

IPR002901
ENZ
2–104

IPR002901 G3DSA:3.90.1720.60

DC_1027
STR
19–1077

DC_1027

IPR007921
ENZ
175–277

IPR007921

XHB26436.1

1 1077

Architecture

ENZ

STR

ENZ 1-18 | STR 19-1077

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
IPR002901	ENZ	DC_0048	1	111	InterPro cluster	Mannosyl-glycoprotein endo-beta-N-acetylglucosamidase-like domain	Central	High	Text match	76 proteins / 112 hits
IPR002901	ENZ	DC_0048	2	104	InterPro cluster	Mannosyl-glycoprotein endo-beta-N-acetylglucosamidase-like domain	Central	High	Text match	76 proteins / 112 hits
DC_1027	STR	DC_1027	19	1077	Novel HMM	DC_1027	Central	Low	Positional only	26 proteins / 26 hits
G3DSA:3.90.1720.60	STR	G3DSA:3.90.1720.60	106	303	Merged direct domain	G3DSA:3.90.1720.60	Central	Low	Positional only	18 proteins / 18 hits
IPR007921	ENZ	DC_0404	153	305	InterPro cluster	CHAP domain	C-terminal	High	Text match	2 proteins / 2 hits
IPR007921	ENZ	DC_0404	175	277	InterPro cluster	CHAP domain	C-terminal	High	Text match	2 proteins / 2 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	792	917	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits
Coil	Unmapped	-	922	942	Coils	Coil	-	-	-	-

Tail Spike Domain Segmentation

This protein has been segmented into three structural domains: N-terminal, central domain, and C-terminal.

Domain Layout

N-terminal

Central

C-terminal

XHB26436.1

1 1077

Domain	Start	End	Length (AA)	Confidence
N-terminal	1	10	10	0,0088
Central domain	11	209	200	0,6226
C-terminal	210	1077	867	0,0397

Note: Constraints were applied during segmentation.
Fixed 18 C-terminal predictions appearing before Central domain|Sequence started with non-N-terminal domain

Legend: N-terminal Central domain C-terminal

3D Structure with Domain Coloring

The structure is colored according to the domain segmentation: N-terminal (blue), Central (green), C-terminal (pink).

Domain Coloring

N-terminal
1-10

Central
11-209

C-terminal
210-1077

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage phiGBSVK-D_GBSInt4 [NCBI]	3345067	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus agalactiae [NCBI]	1311	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

XHB26436.1 [NCBI]

Genbank nucleotide accession

PP758854.1 [NCBI]

CDS location

range 35707 -> 38940
strand +

CDS

TTGCCAAGTGGCATCATTACACAGCTTTATTTAGAGAGTTTCTGGGGTGATTCGACAGTTGGTAAACGTGACAACAATTGGGCAGGTATGAGTGGAGGAGCACAGACACGTCCTAGCGGAGTAAAAGTCACTACTGGTATGGCTCGTCCTGCAAACGAGGGCGGAACGTACATGCACTATGCAAGTGTAGATGACTTTTTAAAAGATTACACTTATCTTTTAGCAAAACAAGGGATTTATAATGTCGTCGGCAAAAAGAATATAGCAGACTATACAAAAGGGCTTTTTAGAGCTGGTGGAGCTAAATATGACTATGCAGCAGCAGGATATCAAAGCTACACAAATTTGATGACTAATATCCGAAATGGTATCAATAAAGTAACTGGAAATATCCTCAATACGATTGATAAGCTGTGGCAGACTCCTGTAAAGCCCATAACCGCCGTAAACGTCGCTAGAAGAGCCACTAAAACAATACAAGCTATTAATGAGGCTACTAAGCTGAAAGGGCGCAGAATCGGTTCTGGACAGTGTTATGCGCTATCTGGGTGGTATGCAAAAAAATTGGATGGCGCTTGGATTGACAGCTCGATTGGTGGTATTAGAGGTCGTATCGGAGGCGGTATGGCTGCTGCCTTAATCGGCACTGATTATAACTGGGGTGCATATGGGTGGAAGGTAGATAAATCACCTAACGCTGGAAACTTAAAAGCTGGTGGTATTTATAATGTACGAGCAAATCGAGGCGCTCCTTTTTATACCACAGGCTGGGGGCATACAGGTATTATCAAGAGTGTGTCTAAAACAAGAGTCACTGTCTTAGAGCAGAATTACGCTGGACGCATGTATGTCATGGAAAACTCGTATGAGATTAACGCTTTTGCTAGAGGATTGCAGACAGTATGTTATCCACGTGAAATAGCGCAAGGAATGGCTGTTAACGGTGCAACAACACAGCAAGTAAGCGGTGGAACACAGATATCGTACGAAGAAGTCGTACAAGAGGCTCAGACAGAATCATACGAAGAAGAACAAATCATCTATATTGACAACTCTATCTACAAAGAGTGGAAAGATGAAAACGGTAAAGTAGAGTACTATCTCAAAAATGGATTTTTGTACGCACCACTTTCAAGAGACCGCTATCCATCTGTTTTAACCGGTAATGAGACACGAGACAACTGGATACGAAAAGACATGGAAGTCGAGACTGATAGTCAAGAAGTCTTGATGTCAACAGGTCTAAAAGACTTAAAAGCACACGCATATCCAGCAATTACATACGAAGTTGATGGCTATGTTGACTTAGAACTTGGTGATGTTGTGCGGATACAGGACGACGGATACGAGCCACCGCTGATTTTGACAGCACGAGTAGTTGAGCAAGAAATATCCATAACAAATCCCAGCTCTAACAAAACTAAATTCAGCAATTTTGTCGAAAAAGAAAGTCAGTTAGCTTCTGATTTAATCAGTGATATGTTGCGTCTATACGATGAGTCAATTCCATACGAAATCAAACTAGCTACTTCGAATGGTGTCGCTTTTAAAAATGGCACTGGTGAATCTGTCCTAACTCCTAGCTTGCAAAAGAACGGGAAAGACTATGAAGCAGTTTATTTTTATAAAAATGGTGACTCGCTAATTGATATCGGACCATCGCTAATCGTTAAAGCAAGCGACTTTAACCACGTTTTAAATATAACAGTTGAGGCATATTTAAATGAGGAACTTGTAGCAAGCACACAAATATCATTTACAGACACTGAAGACGGTGCTGACGGGAAAGATGGCGCACCGGGACCACAAGGACCTCCCGGTGTAAACGGACTGCAAGGTCCAAAAGGTGACCAAGGCATTCAAGGTCCAGCTGGTGCTGACGGTAAAGCGACTTATACGCATATAGCATACGCCCTTGACGAGAACGGATCAACTGGCTTTAGTGTATCTGATAACGTTGGCAAAACGTACATAGGTATGTATGTTGATGATAATATCATAGACTCAAACGACCCTAAAAAGTACAAGTGGAATTTGATAAAAGGCGCAGATGGTGCTAGAGGTATCCAAGGTCCAGCTGGTGCTGACGGTAAGACACCTTACTGGCATGTAGCGTATGCAAACAGCTCAGATGGGACAGTTGACTTTAGCGTGTCTGATAGTGCAAACAAGCGCTACATTGGGCAATATACTGACTACGATGCAATAGATTCAAGTGACCCTAAAAAATACCGCTGGACTGACATGGTTGGGACGGTTGTCGTCGGGACAAACAATCTGATTGATGGTACAAAATCATTTTTTGGGACTGATTGGTTTACTTCTGCAACGCTAGAAGACGAGAACCTCTCTAATTGTCCTTTCACGCTTAAAAAATGGATTAGTGGGCAAAAAGTGTCGCATGCAAAAGATATCATGGTCGAGCAAGGTGTAACGTACACTTTTAGTGCTTATGTTAAACGTGAGGTAGCTGGGAATTTATATTTTTATCTTTATGATATAGCAGATGGTTTTATTACTAGCGATACCCCACGAGAGACAATTATAAAAAACGTTGACTCTAGTCTCAGACGTTTTGAAATCACTTTTACACCAACTAAGACAGGTAGGATTAGACCAAGGTTCGCGATGGTGTCATCGGAGCAAGGTAGTTTCAGCTCTGGTGGGTTTATGCTCGTTAGGGGAAATAAAACAGGCGACTGGCAGGAATCAGAAGCTGATAAAGCAAGTAATCTTGATTCAAAAGCTGACGAAGCGTTTACAGTTGAGCAACTAAATGCACTCGCTGAACGTGCTCGCATCGCAGAAGCTGAATTGCAATCTAAAGCAACGTTAGACACAGTCAACGACTGGGTTAAAGCATTGCAAGACGAAATCAAAGCACGAGAGGGAGGACAAAAGTTATCAGAACAAAAACTGATAGACTTTTCTAATCGCATGATAGCAGTACAGCAAACAATTGGGGAGATGCAGATACGCACTGATTTTGTTAATAAATTTATGAGTCAGTCAGAGGACGGTCTTGTAATCGGACAAAAAGATGGAACGTCAAGCGTTAGAGTTGATAACGATCGCATCAGTTTTTACTCAAGTGGTAAAGAAGTAGCATATATAGCTCAGAGTGTGCTTGTTATTGATAGCGGTATTTTTACAACTAAACTGCAAATTGGACGTTATCGTATTGAGCAATACGAACTAAACGCTGATATTAACGTCGTAAGATATGTCGGGTAG

Genome Context

Tertiary structure

PDB ID

96c0aa27c3327ea02369f08a0569c1f261feb5f804b6a42a34781a73c7c5b5c1

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7393

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Tail Spike Domain Segmentation

Tail Spike Domain Segmentation

3D Structure with Domain Coloring

Domain Coloring

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence