Protein

View in Explore

Genbank accession

WNI00541.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence GenBank

Probability 1,00

Evidence RBPdetect

Probability 0,62

Evidence RBPdetect2

Probability 0,94

Protein sequence

MLLTIHDANLAQVGWIDNDKEDTLNFFNDTWTRYLETGASTFEFSVFKKAVQSDLPFAKSYMALNDRAFVSFVYKGEAFVFSLMELEEDEHTIRCVGENLNLELINEHANAYKATQAMTFKQYCEAMDLLSFSFLQIGTNEVSDKKLTLEWEGRETKLARLLSLAGRFSAEIDFQTFLNRDGTIKRFVVNVYRENDGESQGVGRVRADMVLEYGDEVQTITRHIDKRDVVNAIRPVGKDGLTIDGMSEWKQYTSEGVLEFYQSGSMLYAPLSMQMYPSAFTSKTTNDNWIRRDIDVDTEDKTVLRAAGIKELRRYAYPATTYKVKGFIDADIGDTLTIKDPGFEPMLLLTARVSEQKISFTNPDNNETEFSNFAALANRLSDGIQAALERAIEATKRYTIKPATSAGVIFKNGLGESIMTGTLYKGATPIAQDVTWVWFVNGAYRTTGANFTVRGSEVLDKLRVTMVAHLAGIEVAREDVDFVNVLDGAAGTIGPKGEDGRTTILHIAYANSADGSVNFSVDNPAGREYMGQYTDFEVMDSTDYRRYTWSKIKGEQGDQGPQGLNGLQGPKGDQGLPGPKGEDGKTSYTHVAYANSADGRSSFSTSDSNRTYIGVYVDNVSTDSADPTHYKWTLVKGADGAQGIPGPKGEDGRTPYLHIAYANNSSGTAGFSTTDSTGRTYIGQYTDHAAADSTNPASYKWTLIKGDKGDPGELGATGPQGPQGPQGLQGLQGVPGPKGTDGQTLYTWVKYADSPVSGMSDSPTGKTYMGIAYNKTTATESTTYSDYTWSLIKGDQGVQGPAGINGQTLYTWVKYADDDKGAGMSDSPAGKRYLGLAYNKTTANKSLNAAEYSWSPLFDNVQVGTDNLLLQSSNIRNYHIQNIAGGVASQVFSYDETDNSVVITAAGQTTNRWWGVSWDLSINKIIKGEKFAIRLPIYRDTSVPAEALAMNIKNHALNVAIFSYNLTKSKADAWEIHELVFEAPWDMNLDGYGFSVYVERNGKMKIGRPTLVRGNIVPREWLPSLQEQRAEINSKADAANTIQRLNELAEAQRIAEAELKAKATASELAAWVQAYRDFVSATGAQQKDAERKFAEISANVNKIVTDYGDSVTRWQYVNGYMDVGDQGLKLGRDGDSTSILIQNNRISMISAGREVMSISEGVIQIDNGVFTKTLRIGRFREEQYDGNPDINVIRYVGP

Physico‐chemical properties

protein length:	1198 AA
molecular weight:	131880,28020 Da
isoelectric point:	5,09047
aromaticity:	0,09933
hydropathy:	-0,44983

Domains

Domains [InterPro]

DC_0120
STR
1–574

DC_0120 G3DSA:1.20.5.320 DC_0921

IPR007119
Unmapped
79–371

IPR007119 IPR050149 Coil

IPR010572
ENZ
137–374

IPR010572 G3DSA:1.20.5.320 DC_1971

DC_1151
STR
563–719

DC_1151

WNI00541.1

1 1198

Architecture

STR

STR 1-1197 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0120	STR	DC_0120	1	574	Novel HMM	DC_0120	Central	Low	Positional only	28 proteins / 28 hits
IPR007119	Unmapped	-	79	371	InterPro	Phage tail spike protein, N-terminal domain	-	-	-	-
IPR010572	ENZ	DC_0675	137	374	InterPro cluster	Tail spike domain	Central	High	Text match	419 proteins / 419 hits
IPR050149	Unmapped	-	490	806	InterPro	Collagen superfamily	-	-	-	-
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	554	613	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_1151	STR	DC_1151	563	719	Novel HMM	DC_1151	Central	Low	Positional only	27 proteins / 27 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	715	769	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_1971	STR	DC_1971	725	797	Novel HMM	DC_1971	Central	Low	Positional only	95 proteins / 95 hits
DC_0921	STR	DC_0921	790	1197	Novel HMM	DC_0921	Central	Low	Positional only	77 proteins / 77 hits
Coil	Unmapped	-	1042	1062	Coils	Coil	-	-	-	-

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage vb_Spy_7 [NCBI]	3075865	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus pyogenes [NCBI]	1314	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

WNI00541.1 [NCBI]

Genbank nucleotide accession

OR387861.1 [NCBI]

CDS location

range 27867 -> 31463
strand +

CDS

ATGCTTTTGACCATACACGACGCGAACCTGGCACAGGTCGGGTGGATTGACAACGACAAGGAAGACACGCTGAACTTTTTCAACGACACATGGACCCGCTACCTGGAAACAGGGGCGTCCACGTTTGAGTTTTCAGTTTTCAAAAAAGCGGTACAGTCTGACTTGCCGTTTGCTAAGTCATACATGGCCCTAAACGACCGGGCTTTCGTTTCTTTCGTGTATAAGGGCGAGGCTTTCGTTTTCTCCCTTATGGAGCTAGAGGAGGACGAACACACGATCCGTTGCGTAGGCGAAAACCTAAACCTGGAGCTAATCAACGAGCACGCGAACGCCTACAAGGCAACGCAGGCTATGACCTTTAAGCAATACTGCGAGGCTATGGACTTACTATCGTTTAGCTTCCTACAAATCGGAACTAACGAGGTCAGCGACAAGAAACTGACGTTGGAGTGGGAGGGCCGAGAAACCAAGCTGGCCCGCTTGCTATCCCTGGCCGGCCGTTTTTCTGCCGAGATTGATTTTCAAACTTTCCTAAACCGTGACGGCACAATCAAGCGCTTTGTGGTCAACGTATACCGGGAAAACGACGGGGAAAGCCAGGGCGTCGGACGCGTCCGTGCCGACATGGTCCTGGAGTACGGCGACGAGGTGCAGACAATCACGCGCCACATCGACAAACGCGACGTGGTCAACGCTATCCGGCCAGTAGGCAAGGACGGCTTGACAATCGACGGTATGAGCGAGTGGAAGCAGTACACAAGCGAGGGCGTCCTAGAATTTTACCAGAGCGGGTCCATGTTATACGCGCCACTATCAATGCAAATGTACCCGTCAGCCTTTACCAGCAAGACGACAAACGACAACTGGATAAGACGAGACATTGACGTAGACACAGAAGATAAAACGGTCCTACGTGCTGCCGGTATTAAGGAACTACGCAGGTACGCCTACCCGGCCACAACTTACAAAGTCAAGGGCTTTATTGACGCGGACATCGGCGATACGCTGACAATCAAGGACCCTGGGTTTGAGCCAATGTTATTGCTGACAGCCAGGGTATCGGAGCAAAAAATCAGCTTTACCAATCCGGACAACAACGAGACCGAGTTTTCAAACTTTGCAGCCCTTGCTAACCGTTTGAGTGACGGCATACAAGCTGCCCTGGAGCGAGCTATCGAAGCAACCAAGCGCTACACAATCAAGCCGGCCACATCTGCCGGGGTAATCTTTAAGAACGGCCTAGGGGAAAGTATCATGACCGGCACGCTTTACAAGGGCGCAACACCAATCGCCCAAGACGTGACCTGGGTCTGGTTTGTCAACGGTGCCTACCGGACGACCGGGGCAAACTTTACCGTCCGAGGGTCAGAAGTGCTTGACAAGTTGCGCGTGACAATGGTAGCACATCTGGCCGGTATCGAGGTAGCGCGTGAGGACGTGGACTTTGTGAACGTCCTAGACGGTGCAGCCGGTACCATAGGCCCTAAAGGCGAAGACGGCCGGACTACTATTTTGCACATCGCATACGCTAACAGCGCGGACGGGTCCGTTAACTTTTCGGTTGACAATCCGGCCGGCCGGGAGTATATGGGCCAATATACCGACTTTGAGGTCATGGACAGCACAGACTACCGACGCTATACATGGAGCAAGATTAAGGGCGAACAAGGGGACCAAGGACCGCAAGGTCTAAACGGCCTCCAGGGTCCAAAAGGGGACCAAGGTTTGCCAGGTCCCAAGGGAGAGGACGGCAAAACCAGCTACACACACGTAGCATACGCCAACAGCGCAGACGGCCGGTCATCGTTTAGCACATCGGACAGCAACCGGACCTACATAGGCGTGTACGTTGACAATGTTTCCACAGACAGCGCGGACCCTACCCACTACAAGTGGACCCTGGTCAAGGGTGCAGACGGAGCGCAGGGAATACCAGGGCCCAAGGGAGAGGACGGACGCACCCCTTACCTCCACATCGCCTACGCGAACAACAGCAGCGGGACGGCTGGCTTTTCAACAACGGACAGCACAGGGAGGACATATATAGGCCAGTACACCGACCACGCAGCAGCAGATAGCACCAACCCCGCGTCTTACAAGTGGACCCTTATCAAGGGAGACAAGGGAGACCCTGGAGAGCTCGGAGCTACCGGGCCACAAGGTCCACAGGGACCGCAGGGCCTCCAAGGCTTGCAGGGCGTGCCTGGGCCAAAAGGTACGGACGGTCAAACGCTTTATACCTGGGTCAAGTACGCAGACAGCCCCGTGTCCGGTATGAGCGACAGCCCGACCGGAAAAACCTATATGGGTATCGCATACAACAAGACCACGGCCACAGAAAGCACCACCTATTCGGACTATACCTGGTCACTAATCAAGGGAGACCAGGGCGTCCAAGGTCCAGCTGGTATCAACGGACAAACGCTGTATACCTGGGTCAAGTACGCAGACGACGACAAGGGCGCAGGCATGAGCGACAGCCCCGCAGGCAAGCGCTACCTGGGCTTGGCCTACAACAAGACCACGGCCAACAAGTCGCTGAACGCTGCCGAGTACAGCTGGTCCCCGCTTTTTGACAACGTGCAGGTAGGCACAGACAACCTGCTTTTGCAATCGTCAAACATCAGAAACTACCACATTCAAAACATCGCCGGCGGGGTGGCGTCGCAGGTATTTTCTTACGACGAGACAGACAACAGCGTTGTCATAACAGCCGCGGGACAAACGACTAATAGGTGGTGGGGGGTATCTTGGGACCTTTCCATAAATAAAATTATTAAAGGCGAGAAATTCGCAATACGTCTGCCGATATACAGAGATACGTCCGTACCGGCCGAGGCCCTGGCAATGAACATAAAAAATCACGCTCTTAACGTCGCCATTTTCAGTTACAATCTGACAAAATCAAAAGCGGACGCTTGGGAAATTCACGAGCTAGTCTTTGAAGCGCCTTGGGACATGAACCTTGACGGCTACGGTTTTTCTGTCTACGTGGAAAGAAATGGAAAAATGAAGATAGGCCGGCCTACACTTGTCCGCGGCAATATCGTGCCGAGAGAGTGGCTGCCGTCACTACAAGAACAACGAGCCGAAATCAACAGCAAGGCAGACGCAGCCAACACAATCCAGCGGCTAAACGAACTAGCCGAGGCCCAACGGATAGCAGAAGCGGAACTGAAGGCCAAGGCCACAGCGTCCGAACTGGCCGCGTGGGTGCAAGCCTACCGGGACTTTGTGAGCGCAACCGGAGCGCAGCAGAAAGACGCGGAGCGGAAGTTTGCCGAGATAAGCGCGAACGTCAACAAGATAGTCACGGACTACGGCGACAGCGTGACACGTTGGCAGTACGTCAACGGCTACATGGACGTAGGGGACCAAGGCTTGAAACTTGGCCGGGACGGAGACAGTACGAGCATACTTATACAAAACAACCGTATCAGCATGATAAGCGCCGGTCGCGAGGTAATGAGTATCAGCGAGGGGGTTATCCAGATAGACAACGGGGTATTTACTAAGACGTTACGGATTGGACGTTTTCGTGAGGAGCAGTATGATGGCAACCCGGACATAAACGTTATCCGCTACGTCGGCCCGTAA

Genome Context

Tertiary structure

PDB ID

1184a8a31cbc117e79cfef48ab0ef73196f1684991e7d10c08a05fe64728dce7

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,7584

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence