В эпоху форматики, основанной на науке о данных, исследования машинного обучения были сосредоточены на выборе признаков, поскольку пользователи хотят больше интерпретации и пост-специального анализа для обнаружения биомаркеров. Однако, когда в исследовании присутствует больше признаков (например, транскриптов), чем образцов (например, мышей или человеческих образцов), это создает серьезные статистические проблемы в задачах обнаружения биомаркеров, поскольку традиционные статистические методы недостаточно эффективны при больших размерностях решаемой задачи.

Взаимодействия второго и третьего порядка этих признаков представляют собой существенную комбинаторную размерную проблему. В вычислительной биологии классификаторы "случайных лесов" (RF) широко используются из-за их гибкости, мощной производительности, способности ранжировать признаки и их устойчивости к высокомерным ограничениям "P > > N", с которыми сталкиваются многие алгоритмы матричного регресса.

В предлагаемой вниманию статье рассматривается binomialRF-метод выбора признаков в RFs, который обеспечивает альтернативную интерпретацию признаков с использованием коррелированного биномиального распределения и эффективно масштабируется для анализа многоходовых взаимодействий.

Результаты: как в моделировании, так и в валидационных исследованиях с использованием наборов данных из репозиториев TCGA и UCI binomialRF показал вычислительный выигрыш (в 5-300 раз быстрее) при сохранении конкурентной переменной точности и отзывчивости при идентификации основных эффектов и взаимодействий биомаркеров.

В двух анализируемых клинических исследованиях алгоритм binomialRF отдал приоритет ранее опубликованным релевантным патологическим молекулярным механизмам (признакам) с высокой точностью классификации и отзыва, используя не только признаки, но и их статистические взаимодействия.

Заключение: binomialRF расширяет предыдущие методы идентификации интерпретируемых признаков в RFs и объединяет их в рамках коррелированного биномиального распределения для создания эффективного алгоритма проверки гипотез, который идентифицирует основные эффекты и взаимодействия биомаркеров.
Предварительные результаты моделирования демонстрируют вычислительный выигрыш при сохранении конкурентной точности выбора модели и классификации. Будущая работа расширит эту структуру, включив в нее онтологии, обеспечивающие отбор признаков на уровне путей из входных данных экспрессии генов.
 

http://web.b.ebscohost.com/
Samir Rachid Zaim; Colleen Kenost; Joanne Berghout; Wesley Chiu; Liam Wilson; Hao Helen Zhang and Yves A. Lussier. binomialRF: interpretable combinatoric efficiency of random forests to identify biomarker interactions.BMC bioinformatics, 2020 Aug 28, Vol. 21 Issue 1, p374