Многие исследователи пытаются понять биологическое состояние, идентифицируя биомаркеры. Обычно это делается с использованием одномерной проверки гипотез над помеченным набором данных, объявляя признак биомаркером, если существует значительная статистическая разница между его значениями для субъектов с различными результатами.

Однако такие наборы предлагаемых биомаркеров часто не воспроизводимы - последующие исследования часто не могут идентифицировать те же наборы. Действительно, часто существует лишь очень небольшое совпадение между биомаркерами, предложенными в парах связанных исследований, которые исследуют одни и те же фенотипы по одному и тому же распределению субъектов.

В предлагаемой вниманию статье сначала определяется показатель воспроизводимости для помеченного набора данных как мера (принимающая значения от 0 до 1) воспроизводимости результатов, полученных в результате указанного фиксированного процесса обнаружения биомаркеров для данного распределения субъектов. Затем предоставляются способы надежной оценки этого соответствия, определяя алгоритмы, которые производят чрезмерную и недостаточную оценку для данного набора данных и процесса обнаружения биомаркеров для случая одномерного тестирования гипотез на дихотомических группах. Авторы подтверждают, что эти приближения имеют смысл, предоставляя эмпирические результаты по большому количеству наборов данных и показывают, что эти прогнозы соответствуют известным результатам воспроизводимости.

Чтобы побудить других применять этот метод для анализа своих наборов биомаркеров, авторы также создали общедоступный веб-сайт https://biomarker.shinyapps.io/BiomarkerReprod/, который производит вышеуказанные приближения оценки воспроизводимости для любого представленного набора данных (с непрерывными или дискретными признаками и двоичными метками классов).
 

Analyzing biomarker discovery: Estimating the reproducibility of biomarker sets | PLOS ONE 
Forouzandeh A, Rutar A, Kalmady SV, Greiner R. Analyzing biomarker discovery: Estimating the reproducibility of biomarker sets. PLoS One. 2022 Jul 28;17(7):e0252697. doi: 10.1371/journal.pone.0252697. PMID: 35901020; PMCID: PMC9333302.