Protein

View in Explore

Genbank accession

WJZ48564.1 [GenBank]

Protein name

collagen-like protein

RBP type

Evidence RBPdetect2

Probability 0,96

Protein sequence

MPWSNDVVTRTVTGTYLKTNGSGAKGRVTFTPTTVVLDPDDAVVIADAVVATLNTNGVFSVELPTTDNPLLSPAGWAYRVEVRLYGVAPQEFYVYIPEGDGSTIDITADIAVLTSGIADGTVPPAARGPVGPAGPTGPTGPAGSASSTGATGPTGATGPTGPAGATGADSTVTGPTGATGETGPTGATGAVGATGPQGAVGPTGAQGVQGNDGATGPTGPTGATGAASTVTGPTGPTGAQGATGPTGAQGATGATGPTGPQGVAGTSVTILGSYPTFLALYNDHPTGDPGDAYLVAGDLFVWNNFDGWENVGNIQGPTGATGATGPTGAASNVPGPTGATGATGPTGAVGATGATGPTGAQGVAGATGPTGAQGAQGAQGIQGPVGPTGATGAQGETGPTGAQGNVGATGATGPQGVQGDVGPTGPAGATGATGATGPTGAASNVTGPTGPQGDVGATGPTGPQGTQGVAGETGPTGPQGDVGATGPQGDVGATGPTGATGPQGETGPQGDVGATGPQGDVGATGPTGPQGATGPQGEVGATGATGATGPQGPQGEQGVTGPTGPQGEIGPTGATGAASNVTGPTGATGPQGEIGPTGATGPQGEVGATGPTGAQGEVGPTGPTGAASNVTGPTGPTGATGDVGPTGAQGEIGPTGSTGPTGPQGETGPTGATGPTGAASNVTGPTGPTGPKGEDGVGVSILGSYNSLAELQSAHPTGNPGDGYLVSGDLYVWSATSSQWENVGQIQGPTGPTGPTGAASDVTGPTGPTGPTGAASNVTGPTGATGETGPTGPTGPTGATGPTGSTGPTGSFSLSDSTPPTSPDPGDAWFNSNTGKVYVYYDGYWVEVGAAPIGPTGPTGPAGADTTATGPTGPTGAQGATGPTGPTGPQGLASQVTGPTGATGPTGPSVTGPTGPASDVTGPTGPTGPTGATGPIGLQGDPSNVTGPTGPTGPTGPAGSFLQVQWDTYVPVWSASITNPLIGNGSITGRFVQVGKAIFGEVRLIAGSTTLRGTGTYRISLPFTGNGANYQPVGQVVMRDSSAPSLFFGTAMFNNENYTRIELFIHSQTAIFDEGSGATHDQPFFFSEGDQILISFMYERT

Physico‐chemical properties

protein length:	1101 AA
molecular weight:	102960,54210 Da
isoelectric point:	4,05003
aromaticity:	0,04632
hydropathy:	-0,27230

Domains

Domains [InterPro]

DC_1109
ATT
1–284

DC_1109 IPR050149 DC_0258 DC_1065

IPR008160
STR
174–226

IPR008160 DC_2298 DC_0620 DC_0620 DC_1431

DC_0620
STR
433–519

DC_0620 IPR008160

WJZ48564.1

1 1101

Architecture

ATT

STR

ATT 1-284 | STR 285-648 | STR 679-1089 |

Legend: ATT STR RBD CBM LEC ENZ CHP LNK TAS TTP UNK Unmapped

Domains [InterPro]

Domain ID	Category	Cluster	Start	End	Layer	Name	Pref Zone	Confidence	Evidence	Support
DC_1109	ATT	DC_1109	1	284	Novel HMM	DC_1109	N-terminal	Low	Positional only	79 proteins / 79 hits
IPR008160	STR	DC_0536	174	226	InterPro cluster	Collagen triple helix repeat	C-terminal	High	Text match	355 proteins / 386 hits
DC_2298	STR	DC_2298	267	371	Novel HMM	DC_2298	Central	Low	Positional only	339 proteins / 339 hits
IPR050149	Unmapped	-	287	572	InterPro	Collagen superfamily	-	-	-	-
DC_0620	STR	DC_0620	372	447	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits
DC_0620	STR	DC_0620	433	519	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits
DC_0620	STR	DC_0620	501	580	Novel HMM	DC_0620	Central	Low	Positional only	205 proteins / 205 hits
IPR008160	STR	DC_0536	522	578	InterPro cluster	Collagen triple helix repeat	C-terminal	High	Text match	355 proteins / 386 hits
DC_0258	STR	DC_0258	575	648	Novel HMM	DC_0258	Central	Low	Positional only	17 proteins / 17 hits
DC_1065	STR	DC_1065	679	818	Novel HMM	DC_1065	Central	Low	Positional only	109 proteins / 109 hits
DC_1431	STR	DC_1431	817	1089	Novel HMM	DC_1431	Central	Low	Positional only	52 proteins / 52 hits

Taxonomy

	Name	Taxonomy ID	Lineage
Phage	Actinomycetia phage DSL-LC01 [NCBI]	3058956	Viruses > Duplodnaviria > Heunggongvirae > Uroviricota > Caudoviricetes
Host	Actinomycetia bacterium [NCBI]	1883427	cellular organisms > Bacteria > Bacillati > Actinomycetota > Actinomycetes > unclassified Actinomycetes

Coding sequence (CDS)

Genbank protein accession

WJZ48564.1 [NCBI]

Genbank nucleotide accession

OQ999401 [NCBI]

CDS location

range 123085 -> 126390
strand -

CDS

GTGCCTTGGTCTAACGACGTTGTAACTCGTACCGTAACTGGCACCTACCTGAAGACCAACGGAAGTGGTGCTAAAGGAAGAGTTACATTCACTCCTACGACAGTCGTTCTTGATCCAGACGACGCCGTCGTAATTGCTGACGCTGTTGTCGCGACTCTCAACACTAATGGCGTATTTTCTGTCGAACTTCCAACGACTGATAACCCTCTGCTCTCTCCCGCTGGTTGGGCGTATCGTGTTGAAGTACGGCTATACGGCGTAGCTCCTCAAGAGTTTTACGTCTACATTCCTGAGGGCGACGGCTCTACAATCGACATCACCGCTGACATCGCGGTTCTAACTTCTGGAATTGCCGACGGCACCGTGCCACCTGCGGCGCGCGGCCCAGTGGGACCTGCAGGTCCAACAGGCCCCACTGGACCAGCAGGCTCGGCATCATCTACAGGTGCAACTGGACCAACTGGTGCTACAGGACCAACTGGACCAGCAGGTGCGACAGGAGCAGATTCAACAGTTACAGGACCAACAGGTGCAACTGGCGAAACAGGTCCTACAGGCGCGACTGGCGCTGTAGGTGCTACAGGTCCTCAAGGTGCTGTTGGCCCGACAGGCGCGCAAGGTGTACAAGGTAATGACGGCGCGACTGGCCCAACTGGCCCAACGGGTGCTACAGGAGCTGCCTCGACTGTCACCGGTCCAACAGGTCCAACAGGCGCACAAGGCGCGACCGGCCCAACAGGCGCGCAGGGTGCAACAGGTGCAACTGGACCAACTGGACCTCAAGGTGTCGCAGGCACATCAGTAACTATTCTCGGTTCGTATCCGACATTCCTCGCGCTGTACAACGATCACCCAACTGGCGATCCAGGCGATGCGTATCTTGTTGCTGGTGACTTGTTTGTTTGGAACAATTTTGACGGCTGGGAAAATGTAGGAAACATTCAAGGTCCGACTGGCGCAACTGGCGCAACAGGTCCGACTGGAGCGGCTTCTAACGTTCCTGGTCCAACAGGCGCGACTGGCGCGACTGGACCGACAGGTGCAGTAGGCGCTACAGGTGCAACTGGTCCAACTGGTGCACAAGGCGTTGCTGGCGCAACTGGTCCAACTGGTGCACAAGGCGCGCAAGGAGCGCAGGGTATTCAAGGACCAGTTGGTCCTACAGGCGCGACTGGCGCACAGGGCGAAACAGGACCAACAGGTGCACAAGGTAACGTCGGCGCAACAGGCGCGACTGGTCCTCAAGGTGTTCAAGGTGATGTTGGTCCGACCGGACCCGCCGGTGCAACAGGTGCAACAGGTGCAACTGGACCTACGGGTGCAGCGTCTAATGTCACAGGACCCACAGGTCCGCAAGGTGACGTCGGTGCAACTGGACCCACAGGTCCGCAAGGTACTCAAGGTGTCGCTGGCGAGACTGGACCCACAGGTCCGCAAGGTGATGTCGGTGCGACTGGTCCGCAAGGTGATGTCGGTGCAACTGGACCCACAGGCGCAACTGGTCCGCAAGGTGAGACAGGTCCGCAAGGTGATGTCGGTGCGACTGGTCCGCAAGGTGATGTCGGTGCAACTGGACCCACAGGTCCGCAAGGAGCAACTGGTCCGCAAGGTGAAGTAGGAGCGACTGGCGCAACTGGCGCTACTGGCCCGCAGGGACCGCAAGGCGAACAAGGCGTTACAGGGCCAACAGGCCCGCAGGGCGAGATCGGCCCGACAGGTGCTACAGGCGCAGCAAGCAACGTAACTGGTCCAACTGGCGCAACTGGTCCGCAAGGCGAGATTGGTCCAACTGGAGCAACTGGTCCGCAAGGTGAAGTAGGAGCGACTGGCCCTACCGGTGCACAAGGCGAAGTTGGACCTACAGGACCTACAGGAGCTGCAAGCAATGTTACAGGTCCTACAGGTCCTACAGGCGCAACCGGAGACGTCGGTCCCACCGGTGCACAAGGTGAAATCGGTCCTACAGGATCAACCGGTCCAACTGGACCTCAGGGCGAGACTGGCCCAACCGGCGCAACTGGACCTACTGGTGCAGCGAGCAACGTTACTGGCCCGACTGGTCCAACCGGACCCAAAGGTGAAGACGGAGTCGGTGTATCAATTCTTGGATCGTACAACTCTCTTGCAGAGTTGCAATCTGCACACCCGACTGGAAATCCTGGCGATGGATACTTGGTTTCTGGAGACCTGTATGTGTGGTCAGCAACTTCGTCCCAGTGGGAAAACGTCGGTCAAATTCAAGGACCGACCGGTCCCACGGGCCCAACAGGCGCGGCAAGCGACGTAACTGGACCAACCGGACCGACTGGCCCAACAGGAGCGGCGAGCAACGTAACTGGTCCAACCGGTGCGACTGGAGAAACTGGACCTACTGGACCTACTGGACCCACAGGCGCTACAGGCCCGACCGGTTCTACTGGTCCTACAGGATCGTTTTCTCTTTCTGACTCAACACCGCCGACTTCTCCAGACCCAGGCGATGCGTGGTTCAATTCAAACACAGGCAAGGTGTACGTTTACTACGACGGGTACTGGGTTGAAGTTGGCGCTGCGCCTATCGGCCCAACTGGACCTACTGGTCCTGCAGGTGCCGATACAACAGCGACTGGACCGACTGGACCTACAGGTGCACAAGGTGCTACAGGGCCAACTGGTCCAACCGGTCCGCAAGGTCTTGCTTCACAAGTAACTGGTCCAACTGGCGCAACTGGTCCGACAGGCCCGTCAGTTACTGGTCCTACAGGTCCTGCTTCAGATGTTACAGGACCAACAGGTCCAACAGGGCCTACTGGCGCAACTGGTCCGATAGGTCTTCAAGGCGATCCAAGCAATGTGACTGGACCTACAGGCCCGACCGGTCCGACTGGTCCTGCAGGCTCGTTCTTGCAAGTTCAATGGGACACATACGTTCCTGTGTGGTCTGCATCAATAACTAATCCACTCATCGGTAACGGCAGCATCACAGGTCGCTTTGTGCAAGTTGGTAAGGCGATCTTTGGAGAAGTTCGTCTTATTGCTGGAAGCACAACTCTTCGTGGAACAGGCACTTACCGCATTTCACTTCCATTCACAGGTAACGGAGCAAACTACCAGCCGGTCGGCCAAGTTGTGATGCGAGACTCATCTGCGCCGTCGCTATTCTTCGGTACAGCGATGTTCAACAATGAAAACTACACTCGCATCGAACTGTTCATTCACTCGCAAACTGCAATCTTCGATGAAGGCTCTGGCGCTACTCATGATCAGCCATTCTTCTTCAGCGAAGGCGACCAGATCTTGATCTCATTTATGTACGAGAGGACGTGA

Genome Context

Tertiary structure

PDB ID

f04e77b1e478f7b60b6f8a7f6ccc3e2746f5260ebfb12909d69d56baddf5b8f7

ESMFold

Source ESMFold

Method ESMFold

Resolution 0,6360

Oligomeric State monomer

Download PDB

Model Confidence

Very high
pLDDT > 90

High
90 > pLDDT > 70

Low
70 > pLDDT > 50

Very low
pLDDT < 50

Protein

Domains

Domains [InterPro]

Domains [InterPro]

Taxonomy

Coding sequence (CDS)

Coding sequence (CDS)

Genome Context

Genome Context

Tertiary structure

Predicted Aligned Error (PAE)

Model Confidence