Взаимодействия второго и третьего порядка этих признаков представляют собой существенную комбинаторную размерную проблему. В вычислительной биологии классификаторы "случайных лесов" (RF) широко используются из-за их гибкости, мощной производительности, способности ранжировать признаки и их устойчивости к высокомерным ограничениям "P > > N", с которыми сталкиваются многие алгоритмы матричного регресса.
В предлагаемой вниманию статье рассматривается binomialRF-метод выбора признаков в RFs, который обеспечивает альтернативную интерпретацию признаков с использованием коррелированного биномиального распределения и эффективно масштабируется для анализа многоходовых взаимодействий.
Результаты: как в моделировании, так и в валидационных исследованиях с использованием наборов данных из репозиториев TCGA и UCI binomialRF показал вычислительный выигрыш (в 5-300 раз быстрее) при сохранении конкурентной переменной точности и отзывчивости при идентификации основных эффектов и взаимодействий биомаркеров.
В двух анализируемых клинических исследованиях алгоритм binomialRF отдал приоритет ранее опубликованным релевантным патологическим молекулярным механизмам (признакам) с высокой точностью классификации и отзыва, используя не только признаки, но и их статистические взаимодействия.
Заключение: binomialRF расширяет предыдущие методы идентификации интерпретируемых признаков в RFs и объединяет их в рамках коррелированного биномиального распределения для создания эффективного алгоритма проверки гипотез, который идентифицирует основные эффекты и взаимодействия биомаркеров.
Предварительные результаты моделирования демонстрируют вычислительный выигрыш при сохранении конкурентной точности выбора модели и классификации. Будущая работа расширит эту структуру, включив в нее онтологии, обеспечивающие отбор признаков на уровне путей из входных данных экспрессии генов.
http://web.b.ebscohost.com/
Samir Rachid Zaim; Colleen Kenost; Joanne Berghout; Wesley Chiu; Liam Wilson; Hao Helen Zhang and Yves A. Lussier. binomialRF: interpretable combinatoric efficiency of random forests to identify biomarker interactions.BMC bioinformatics, 2020 Aug 28, Vol. 21 Issue 1, p374
Комментарии (0)
Зарегистрируйтесь, чтобы добавить комментарий