Эффективный биноминальный "случайный лес": интерпретируемая комбинаторика машинного обучения для идентификации взаимодействий биомаркеров

Вернуться к списку Опубликовано: 08.10.2020

Эффективный биноминальный "случайный лес": интерпретируемая комбинаторика машинного обучения для идентификации взаимодействий биомаркеров

В эпоху форматики, основанной на науке о данных, исследования машинного обучения были сосредоточены на выборе признаков, поскольку пользователи хотят больше интерпретации и пост-специального анализа для обнаружения биомаркеров. Однако, когда в исследовании присутствует больше признаков (например, транскриптов), чем образцов (например, мышей или человеческих образцов), это создает серьезные статистические проблемы в задачах обнаружения биомаркеров, поскольку традиционные статистические методы недостаточно эффективны при больших размерностях решаемой задачи.

Взаимодействия второго и третьего порядка этих признаков представляют собой существенную комбинаторную размерную проблему. В вычислительной биологии классификаторы "случайных лесов" (RF) широко используются из-за их гибкости, мощной производительности, способности ранжировать признаки и их устойчивости к высокомерным ограничениям "P > > N", с которыми сталкиваются многие алгоритмы матричного регресса.

В предлагаемой вниманию статье рассматривается binomialRF-метод выбора признаков в RFs, который обеспечивает альтернативную интерпретацию признаков с использованием коррелированного биномиального распределения и эффективно масштабируется для анализа многоходовых взаимодействий.

Результаты: как в моделировании, так и в валидационных исследованиях с использованием наборов данных из репозиториев TCGA и UCI binomialRF показал вычислительный выигрыш (в 5-300 раз быстрее) при сохранении конкурентной переменной точности и отзывчивости при идентификации основных эффектов и взаимодействий биомаркеров.

В двух анализируемых клинических исследованиях алгоритм binomialRF отдал приоритет ранее опубликованным релевантным патологическим молекулярным механизмам (признакам) с высокой точностью классификации и отзыва, используя не только признаки, но и их статистические взаимодействия.

Заключение: binomialRF расширяет предыдущие методы идентификации интерпретируемых признаков в RFs и объединяет их в рамках коррелированного биномиального распределения для создания эффективного алгоритма проверки гипотез, который идентифицирует основные эффекты и взаимодействия биомаркеров.
Предварительные результаты моделирования демонстрируют вычислительный выигрыш при сохранении конкурентной точности выбора модели и классификации. Будущая работа расширит эту структуру, включив в нее онтологии, обеспечивающие отбор признаков на уровне путей из входных данных экспрессии генов.

http://web.b.ebscohost.com/
Samir Rachid Zaim; Colleen Kenost; Joanne Berghout; Wesley Chiu; Liam Wilson; Hao Helen Zhang and Yves A. Lussier. binomialRF: interpretable combinatoric efficiency of random forests to identify biomarker interactions.BMC bioinformatics, 2020 Aug 28, Vol. 21 Issue 1, p374

Комментарии (0)

Зарегистрируйтесь, чтобы добавить комментарий

Вести науки

Эффективный биноминальный "случайный лес": интерпретируемая комбинаторика машинного обучения для идентификации взаимодействий биомаркеров

Комментарии (0)

Похожие статьи