Protein

View in Explore

Genbank accession

ARU14709.1 [GenBank]

Protein name

tail fiber protein and host specificity

RBP type

Evidence Phold

Probability 1,00

Evidence RBPdetect2

Probability 0,91

Protein sequence

MQIWIHDKSMRKVCALNNEIPGMLPYTNSQWHSYLEYSTSTFDFTIPKIVNGKLHDDLKHINDQMYVSFYYDNSYHVFYVSQLVENDFSFQVTCNNTNLELAAEIERPLASVDGAKTLEWYLQTLDLLGFAGLEVGFNEIPDRTRTITFESQNGTKLEQLHSLMNQFDAEFVFRTDLNRDGTLKKFVIDIYQRPDENHHGIGKVRGDVTLYYQTGLKGVQVTSDKTQLFNAGYFVGKDGLTLGSVVFEEKNELGQVEFYSFKDSPMVYAPLSADKYPSHMNTTNEDRWTRRDFQTEYSDVDSLKAYALRTIKQYAYPLMTYTVSVQSSFIENYKDINLGDTVKIIDNNFRGGLALEARVSEMIISFDNPTNNSVVFTNFRKLDNKPSIELQQRIDEIVSKSLPYHVEIRTTNGTVFKNGIGRSTVKPILKQGDKIVNATYRFVIDGTIKYSGMTYDMVASEINQPTTLTISAWVDNKEVASEEVTFVNVSDGKQGPKGDRGNDGLPGKDGIGLKTTTITYGLSDSDSTQPTDWTSQPPALVKGKYLWTKTVWTYTDSSSETGYQKTYIAKDGNDGTDGLPGKDGVGIKTTTITYAQGISGTVPPTNGWNSQVPNVPAGQYLWTKTIWDYTDNTSETGYSVAKMGEKGPKGDRGERGLQGPKGDQGIPGPKGADGRTQYTHIAYANSPDGNKDFSTSDSNREYIGIYVDFNIDDSNNPSDYSWTLVKGADGAQGVPGKPGADGKTPYFHTAWSYSADGTDGFTTVYPNLNLLEGTKYFSGDWWGRYGSQTDGTYKGLTVMKRTAQWVGISKTFTAPKDGTYTFSAYVKSSGNNVDIIRWININGVQDVEKAPMKSLGNNFDWFRDYFTLNLKAKETASVSYNISGSGSGTLWTAGHKWEEGPKATPWMPSASEVTTADYPSFIGQYTNYTQVDSPNPRDYTWSLIRGNDGKQGPQGIPGPKGADGRTQYTHIAYADTISGSGFSQTDVNKAYIGMYQDFNAEDSKNPQDYRWSKWKGSDGKDGIPGPKGADGRTPYVHFAYADSADGQKGFSLTQTGRKRYLGVLTNFFKEDSTNPSDYTWNDTAGSISVGGRNLLVKTNQGITNWNWQLSDGDQSVEEVKVDGIRAVKLIKGSTAANTGWNFIEYNGLLRELIQPKSKYVLSFDVKPSVDVTFYATLARGDFNEPLTDTVDMPKALANQWNKVSCVLTSKETLPNIAGQVVYLAGMPTTNGNWVIIKNIKLEEGDIPTQWTPAIEDIQDEIDSKADAAMTIEQINALNEMAGIIKAEMEAKASAEVLNNWIKNYQDFVKANETERAAAEKALVSSSQRVSTIAKELGELSDRWNFIDTYMSSSNDGLVIGKNDGSSSMMFNPNGRISMYSAGEEVMYISQGVIHIENGIFSKTIQVGRYREEQYHLNPDMNVIRYVGGF

Physico‐chemical properties

protein length:	1429 AA
molecular weight:	158852,52810 Da
isoelectric point:	5,16817
aromaticity:	0,11197
hydropathy:	-0,56858

Domains

Domains [InterPro]

DC_0002
STR
1–625

DC_0002 G3DSA:1.20.5.320 DC_1328 G3DSA:2.60.120.260

IPR010572
ENZ
141–381

IPR010572 IPR050149 IPR008979

DC_1151
STR
576–883

DC_1151 DC_0002

ARU14709.1

1 1429

Architecture

STR

STR 1-1429

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_0002	STR	DC_0002	1	625	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
IPR010572	ENZ	DC_0675	141	381	InterPro cluster	Tail spike domain	Central	High	Text match	419 proteins / 419 hits
IPR050149	Unmapped	-	492	1049	InterPro	Collagen superfamily	-	-	-	-
DC_1151	STR	DC_1151	576	883	Novel HMM	DC_1151	Central	Low	Positional only	27 proteins / 27 hits
G3DSA:1.20.5.320	STR	G3DSA:1.20.5.320	644	695	Merged direct domain	G3DSA:1.20.5.320	Central	Low	Positional only	67 proteins / 67 hits
DC_1328	STR	DC_1328	873	1017	Novel HMM	DC_1328	Central	Low	Positional only	136 proteins / 136 hits
DC_0002	STR	DC_0002	1014	1429	Novel HMM	DC_0002	Central	Low	Positional only	166 proteins / 166 hits
G3DSA:2.60.120.260	STR	G3DSA:2.60.120.260	1097	1242	Merged direct domain	G3DSA:2.60.120.260	Central	Low	Positional only	264 proteins / 264 hits
IPR008979	STR	IPR008979	1099	1243	Merged direct domain	Galactose-binding-like domain superfamily	Central	Low	Positional only	24 proteins / 24 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Streptococcus phage P9901 [NCBI]	1971447	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Streptococcus thermophilus [NCBI]	1308	cellular organisms > Bacteria > Bacillati > Bacillota > Bacilli > Lactobacillales

Coding sequence (CDS)

Genbank protein accession

ARU14709.1 [NCBI]

Genbank nucleotide accession

KY705288.1 [NCBI]

CDS location

range 14947 -> 19236
strand +

CDS

ATGCAAATTTGGATTCATGATAAAAGCATGCGCAAAGTGTGCGCATTGAATAATGAAATTCCCGGAATGTTGCCATATACGAACAGTCAATGGCATTCATATCTTGAATACTCAACAAGTACGTTTGACTTCACAATTCCTAAAATTGTAAATGGCAAGCTACACGATGATTTAAAACACATCAATGACCAAATGTATGTGTCGTTTTATTATGATAATTCCTACCACGTTTTCTATGTATCGCAACTCGTTGAAAATGATTTTAGTTTTCAAGTGACTTGTAACAATACCAACTTGGAACTAGCAGCAGAAATAGAGCGTCCGTTAGCTAGTGTTGACGGTGCTAAAACACTTGAGTGGTATCTTCAAACCCTTGATTTACTTGGTTTTGCTGGCCTTGAAGTTGGTTTCAATGAGATTCCTGATAGGACAAGAACTATCACGTTTGAATCACAAAATGGTACAAAACTAGAACAGCTTCATAGCTTGATGAATCAATTCGATGCAGAGTTTGTTTTTCGTACAGATTTAAACCGAGATGGTACTTTAAAAAAATTTGTCATTGACATTTACCAACGACCAGATGAAAACCATCACGGCATTGGAAAGGTTCGAGGGGATGTAACTCTTTACTATCAAACAGGTTTGAAAGGCGTTCAAGTTACTAGTGATAAAACGCAACTATTTAACGCTGGATATTTTGTTGGAAAAGACGGACTAACGCTAGGAAGCGTTGTGTTTGAGGAAAAGAATGAGCTAGGACAAGTAGAGTTCTACTCATTTAAAGACAGTCCGATGGTTTACGCACCTTTATCAGCAGATAAATATCCATCACACATGAATACTACCAATGAAGATAGATGGACACGTAGGGACTTTCAAACAGAATACAGTGATGTTGATTCCCTCAAAGCTTATGCCTTACGTACTATCAAGCAGTATGCTTATCCACTAATGACTTATACTGTCAGCGTTCAATCTAGTTTCATTGAAAACTACAAGGATATTAATCTAGGTGACACTGTTAAAATCATCGATAATAATTTTAGAGGTGGTTTAGCCCTCGAAGCGCGTGTATCTGAAATGATTATCAGCTTTGACAATCCTACAAACAATTCGGTCGTTTTTACTAATTTCAGAAAGTTAGATAATAAACCGTCTATCGAATTGCAACAACGTATCGACGAGATTGTTTCTAAATCATTGCCATATCATGTTGAGATAAGGACCACAAACGGTACAGTATTTAAGAATGGTATTGGTCGCTCTACTGTTAAACCAATTTTAAAGCAAGGCGATAAAATTGTTAATGCAACTTATCGATTTGTAATTGACGGTACTATTAAATACTCAGGTATGACCTATGATATGGTAGCATCAGAGATTAACCAACCAACCACGCTTACTATCTCAGCGTGGGTAGATAACAAAGAAGTAGCTTCAGAAGAAGTTACTTTTGTAAATGTATCAGATGGTAAACAAGGACCTAAGGGCGATAGAGGTAACGACGGACTACCAGGTAAGGACGGTATAGGATTAAAAACCACTACTATTACTTACGGTCTGAGTGATTCTGATTCTACTCAACCTACTGACTGGACTTCTCAACCACCAGCTTTGGTAAAAGGAAAATACCTTTGGACTAAGACGGTCTGGACATATACTGATTCATCTAGTGAGACTGGCTACCAAAAGACTTATATTGCTAAAGATGGAAACGACGGTACAGACGGGCTTCCTGGTAAAGATGGTGTTGGTATCAAAACCACAACCATAACTTACGCACAAGGTATATCTGGGACAGTTCCACCAACAAACGGTTGGAATAGTCAAGTGCCGAATGTGCCAGCAGGTCAGTACTTATGGACTAAAACAATCTGGGATTATACTGATAACACTAGTGAAACTGGATATTCAGTAGCTAAAATGGGTGAGAAAGGACCTAAAGGTGATAGAGGTGAGCGTGGATTACAAGGACCAAAGGGAGACCAAGGAATCCCGGGACCAAAGGGAGCTGACGGAAGAACACAGTACACCCACATAGCTTATGCTAATAGCCCAGATGGTAATAAAGACTTTTCAACGTCTGACTCTAATCGTGAATACATTGGTATATACGTTGATTTCAATATCGATGATTCAAACAATCCGAGCGATTACTCATGGACACTCGTTAAAGGTGCTGACGGTGCTCAAGGGGTACCAGGAAAACCGGGAGCTGACGGGAAGACTCCTTATTTTCACACGGCATGGTCTTACAGCGCAGACGGTACCGATGGTTTCACGACTGTTTACCCTAATTTGAATTTGCTTGAAGGGACTAAATATTTTAGTGGAGATTGGTGGGGTAGATATGGTTCGCAAACTGACGGAACATATAAAGGTCTAACTGTTATGAAAAGAACCGCTCAATGGGTCGGTATATCCAAAACATTTACTGCACCAAAAGACGGAACTTATACTTTCTCAGCTTATGTCAAAAGTTCAGGAAATAATGTAGATATAATTAGATGGATTAATATAAATGGTGTACAAGACGTTGAAAAAGCTCCTATGAAATCGCTAGGAAATAATTTTGATTGGTTTAGAGACTACTTTACGTTAAACTTGAAAGCAAAGGAGACTGCCTCTGTTTCCTATAACATAAGTGGTTCAGGTTCAGGTACTTTATGGACGGCTGGGCATAAATGGGAAGAGGGACCTAAAGCCACTCCTTGGATGCCCTCGGCTAGCGAAGTCACAACTGCTGATTATCCAAGTTTCATCGGACAATATACAAACTATACACAAGTAGATAGTCCTAATCCTCGAGATTACACTTGGAGCCTCATTAGAGGTAACGATGGTAAACAAGGACCGCAAGGAATCCCGGGACCAAAGGGAGCTGACGGAAGAACGCAATATACACATATCGCTTACGCTGACACAATTTCAGGTAGTGGCTTTAGTCAAACAGATGTCAATAAAGCCTATATTGGTATGTATCAAGACTTCAATGCCGAAGATAGCAAAAATCCACAAGATTATCGTTGGTCTAAGTGGAAAGGTAGCGATGGTAAAGATGGTATTCCTGGTCCTAAAGGTGCGGACGGACGTACGCCTTACGTCCATTTTGCTTATGCCGATAGTGCCGATGGTCAAAAGGGTTTCAGTTTGACACAAACTGGACGCAAGCGCTATTTAGGTGTGCTTACCAACTTCTTCAAGGAAGACAGTACTAATCCTTCTGATTACACGTGGAACGATACTGCGGGTAGCATCTCTGTAGGTGGTCGAAACTTGCTTGTAAAAACCAATCAAGGTATTACTAATTGGAATTGGCAGCTTTCCGATGGCGACCAGAGCGTTGAAGAAGTGAAAGTTGATGGCATTCGTGCTGTAAAACTAATCAAAGGTTCAACAGCAGCAAACACTGGGTGGAATTTCATTGAATATAATGGCTTGCTGCGTGAACTCATACAGCCGAAGTCGAAGTATGTTCTTTCGTTCGATGTTAAACCTAGCGTTGACGTAACTTTCTATGCAACGCTAGCACGAGGTGACTTTAACGAACCATTGACTGATACTGTCGATATGCCTAAAGCATTAGCGAATCAGTGGAATAAGGTATCGTGCGTTTTGACAAGCAAAGAAACTTTGCCAAATATTGCAGGGCAAGTTGTATACTTAGCAGGTATGCCAACAACAAACGGTAATTGGGTAATAATTAAAAATATCAAACTTGAAGAAGGTGACATACCTACTCAGTGGACACCTGCGATTGAGGACATACAAGATGAAATTGATTCCAAGGCCGATGCTGCTATGACGATTGAACAGATTAATGCACTTAATGAAATGGCTGGAATCATTAAAGCAGAGATGGAAGCCAAAGCAAGCGCTGAAGTTTTGAATAACTGGATTAAAAATTACCAAGATTTCGTTAAGGCAAACGAGACCGAGAGAGCTGCAGCCGAGAAAGCTTTGGTTAGCTCAAGTCAGCGGGTGTCAACCATCGCTAAAGAGTTGGGTGAACTGTCTGATCGTTGGAATTTCATTGATACCTACATGAGCTCATCAAATGATGGGCTTGTGATTGGAAAGAATGACGGTAGCTCTAGCATGATGTTTAACCCTAACGGTCGCATTTCAATGTACTCGGCAGGGGAGGAGGTCATGTATATTTCGCAAGGTGTAATACACATCGAGAACGGGATCTTCTCGAAAACTATCCAAGTTGGTCGATATCGTGAGGAACAGTACCATCTTAACCCAGACATGAATGTCATTCGTTACGTAGGAGGTTTTTAA

Genome Context

Tertiary structure

PDB ID

71c5ad75691b7eb59a86f6a65e4b9ecd707bee24a5cd2959e8178d01e37c8809

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6968

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence