ПРЕДСКАЗАНИЕ ФУНКЦИЙ БЕЛКОВ ПРИ ПОМОЩИ БАЗЫ ДАННЫХ «GENE ONTOLOGY» И МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
DOI:
https://doi.org/10.32014/2022.2518-1726.127Ключевые слова:
Gene Ontology, предсказание функций белка, машинное обучение, глубинное обучение, аннотация белковАннотация
Прогнозирование функций белков является важной частью аннотации генома. В последнее время методы прогнозирования быстро развиваются благодаря появлению высокопроизводительных технологий секвенирования. Среди доступных баз данных для определения терминов функций белка важным ресурсом, описывающим функциональные свойства белков, является Gene Ontology (GO). Gene Ontology предлагает классификацию функций, которая базируется на некотором списке или словаре четко сформулированных терминов, каждый из которых принадлежит одной из категорий – молекулярным функциям, биологическим процессам и клеточным компонентам. Из этой базы данных можно по названию белка или его идентификационному номеру найти присвоенные ему термины Gene Ontology или аннотации, которые были сделаны на основе расчётных или экспериментальных данных. Каждому термину в Gene Ontology присваивается ряд атрибутов: уникальный цифровой идентификатор, название, словарь, к которому термин принадлежит, и определение. Термины могут иметь синонимы, которые делятся на точно соответствующие значению термина, более широкие, более узкие и имеющие некоторое отношение к термину. Исследователи используют различные подходы для эффективного прогнозирования терминов GO. Между тем, глубинное обучение, быстро развивающаяся дисциплина в подходе, основанном на данных, демонстрирует впечатляющий потенциал в отношении присвоения терминов GO аминокислотным последовательностям. В данной статье авторами рассмотрены доступные сегодня вычислительные методы аннотации GO для белков, начиная от традиционного и заканчивая методом глубинного обучения. Также вынесены на обсуждение основные проблемы в этой области и подчеркнуты будущие направления предсказания функций белка с помощью GO.