
Команда исследователей из пяти стран представила инновационные алгоритмы машинного обучения, которые позволяют классифицировать злокачественные опухоли по молекулярным подтипам. Эти модели, разработанные для упрощения диагностики в клинической практике, уже доступны в открытом доступе. Результаты работы опубликованы в журнале Cancer Cell.
Молекулярное типирование опухолей играет ключевую роль в онкологии, позволяя определить биологические процессы внутри опухоли, прогнозировать течение болезни и подбирать наиболее эффективное лечение. Однако существующие методы классификации часто ограничены рамками конкретных наборов данных, что затрудняет их применение в реальных клинических условиях.
Группа под руководством Питера Лэрда из Института Ван Андела провела масштабный анализ 8791 опухоли из Атласа ракового генома (TCGA). Образцы охватывали 106 подтипов, относящихся к 26 видам рака. Исследование включало изучение пяти типов данных: мутации, число копий генов, матричная РНК, метилирование ДНК и микроРНК.
Для анализа использовали пять алгоритмов машинного обучения: AKLIMATE, CloudForest, SK Grid, JADBio и subSCOPE. Каждый из них был обучен либо на отдельных типах рака, либо на всех сразу. В процессе работы ученые создали более 412 тысяч моделей-классификаторов, оптимизированных для минимального набора признаков. Из них отобрали 737 лучших моделей для различных видов рака и типов данных.
Эти модели были контейнеризованы и опубликованы в открытом доступе, что позволяет использовать их для разработки компактных систем диагностики рака. Они подходят как для клинических испытаний, так и для повседневной медицинской практики.
Авторы исследования выразили надежду, что их работа поможет преодолеть разрыв между большими массивами данных TCGA и их применением в реальной медицине. По их мнению, это лишь первый шаг к созданию более доступных и точных инструментов диагностики онкологических заболеваний.