В 1995 г. была опубликована полная последовательность генома бактерии Haemophilus influenzae , за ней последовала последовательность для эукариота Saccharomyces cerevisiae в 1996 г. и знаменательная публикация генома человека в 2001 г. Эти и многие другие последующие последовательности послужили «эталонными геномами», которые легли в основу как основных достижений в функциональной геномике, так и для изучения генетической изменчивости путем повторного секвенирования других особей того же вида.

Появление с 2006 года быстрых и дешевых технологий секвенирования «следующего поколения» превратило повторное секвенирование в один из самых популярных современных рабочих процессов анализа генома. На сегодняшний день уже обнаружено невероятное разнообразие геномных вариаций внутри популяций, что позволяет функциональную аннотацию многих таких вариантов, и разумно ожидать, что это только начало.

Поскольку количество секвенированных геномов неуклонно растет, имеет смысл переосмыслить идею «эталонного» генома. Такая эталонная последовательность может принимать различные формы, в том числе:
  • геном одного выбранного человека,
  • консенсус всего населения,
  • «функциональный» геном (без отключения мутаций в каких-либо генах) или
  • максимальный геном, охватывающий всю когда-либо обнаруженную последовательность.
 
В зависимости от контекста каждая из этих альтернатив может иметь смысл. Однако многие ранние ссылочные последовательности не представляли ничего из вышеперечисленного. Вместо этого они состояли из коллекций фрагментов последовательностей, проанализированных из любого доступного экспериментального материала, часто из относительно неструктурированного набора индивидуальных биологических источников. Только в последнее время быстрое распространение передовых технологий секвенирования позволило достаточно полно определить многие отдельные последовательности генома из определенных популяций, таксономических единиц или сред. Чтобы в полной мере использовать эти данные, хороший «эталонный геном» должен иметь возможности, выходящие за рамки перечисленных выше альтернатив. Это влечет за собой сдвиг парадигмы с сосредоточения внимания на единственном эталонном геноме к использованию «пангенома», то есть представления всего геномного содержимого определенного вида или филогенетической клады. Термин «пангеном» был впервые использован для описания общедоступной базы данных, содержащей оценку изменений генома и транскриптома в основных типах опухолей, тканей и экспериментальных моделей. Позже Tettelin et al. определили микробный пангеном как комбинацию «основного» генома, содержащего гены, присутствующие во всех штаммах, и «необязательного» генома (также известного как гибкий или вспомогательный геном), состоящего из генов, отсутствующих в одном или нескольких из штаммы. Обобщение такого представления могло содержать не только гены, но и другие вариации, присутствующие в коллекции геномов. Идея перехода к пангеному человека также привлекает внимание (см.http://www.technologyreview.com/news/537916/rebooting-the-human-genome , для примера недавнего освещения в СМИ). Хотя пангеном, таким образом, является устоявшейся концепцией, его (вычислительный) анализ часто по-прежнему проводится в специальной манере.

Здесь обобщается приведенные выше определения и используем термин «пан-геном» для обозначения любого набора геномных последовательностей, которые должны быть проанализированы совместно или использоваться в качестве ссылки. Эти последовательности могут быть связаны в графоподобную структуру или просто составлять наборы (выровненных или невыровненных) последовательностей. Вопросы об эффективных структурах данных, алгоритмах и статистических методах для выполнения биоинформатического анализа пангеномов порождают дисциплину «вычислительная пангеномика».

Определение пангенома позволяет захватывать разнообразный набор приложений в разных дисциплинах. Примеры включают «классические» пангеномы, состоящие из наборов генов, присутствующих в виде , графические структуры данных, используемые в качестве ссылок для улучшения анализа сложных геномных областей, таких как главный комплекс гистосовместимости, компактное представление транскриптома и набор вирусных гаплотипов, обнаруженных у одного пациента.

Осознавая, что приведенное выше определение пангенома является общим, мы утверждаем, что оно является инструментом для выявления общих вычислительных проблем, возникающих в различных дисциплинах. Поэтому понятие вычислительной пангеномики намеренно пересекается со многими другими дисциплинами биоинформатики. В частности, это связано с «метагеномикой», которая изучает весь генетический материал, взятый из окружающей среды; к «сравнительной геномике», которая занимается отслеживанием эволюции путем анализа последовательностей генома; и «популяционной генетике», основной предмет которой - изменение генетического состава популяции в ответ на различные эволюционные силы и миграцию. Хотя ни одна из этих областей не охватывает всех аспектов пангеномики, все они разработали свои собственные алгоритмы и структуры данных для представления наборов геномов и поэтому могут внести свой вклад в инструментарий пангеномики. Пропагандируя «вычислительную пангеномику», мы надеемся повысить осведомленность об общих проблемах и добиться синергии между вовлеченными областями.

В основе пангеномики лежит идея замены традиционных линейных эталонных геномов более богатыми структурами данных. Парадигма единого эталонного генома сохранилась отчасти из-за своей простоты. Он предоставил легкую основу для организации и анализа геномных данных; например, он может быть визуализирован как не что иное, как линейный текст, что позволило разработать полнофункциональные браузеры с двумерным геномом. С учетом того, что в настоящее время в нашем распоряжении быстро растет количество последовательностей, этот подход все чаще не позволяет полностью уловить информацию об вариациях, сходстве, частоте и функциональном содержании, скрытом в данных. Хотя пангеномы обещают быть в состоянии представить эту информацию, пока нет концептуальной основы или набора инструментов для работы с пангеномами, которые получили бы широкое признание. Для многих биологических вопросов еще не установлено, как наилучшим образом извлечь релевантную информацию из какого-либо конкретного пангеномного представления, и даже когда можно определить правильный подход, для его применения часто необходимо разработать новые инструменты биоинформатики.

В этой статье исследуется проблемы работы с пангеномами и определяем концептуальные и технические подходы, которые могут позволить нам организовать такие данные для облегчения их применения в (зеленый, синий, красный и белый ) биотехнологии и фундаментальных исследованиях. На высоком уровне желательные характеристики пангенома включают «полноту» или наличие всех функциональных элементов и достаточного количества пространства последовательностей, чтобы служить эталоном для анализа дополнительных индивидов; «стабильность» или наличие однозначно идентифицируемых характеристик, которые могут быть изучены разными исследователями в разные моменты времени; «понятность» или облегчение понимания сложных структур генома у многих людей или видов; и «эффективность», или организация данных таким образом, чтобы ускорить последующий анализ.

Эти пожелания подчеркивают широту проблем, с которыми сталкивается пангеномика как область, некоторые из которых выходят за рамки научных вопросов. Достижение «полноты», например, требует необходимых (финансовых и технических) ресурсов для сбора и секвенирования достаточного количества геномов для конкретной ткани, организма, вида, другой таксономической единицы, экологического сообщества или геопространственной ниши, представляющих интерес. Доступность механизмов обмена данными сильно повлияет на то, насколько быстро может быть достигнута «полнота». Вопросы обмена данными включают технические (в основном из-за большого объема данных), политические и этические / конфиденциальные вопросы, а также вопросы, связанные с взаимодействием этих трех областей. Достижение «стабильности» требует наличия центрального признанного органа, обладающего долгосрочными ресурсами для работы с эталонными пангеномами. Помимо этого, организационного компонента, достижение стабильности также требует достижения консенсуса в отношении способов определения систем координат на пангеномах. Цель «понятности» - это в основном биологическая проблема. То, что это означает, может существенно различаться в зависимости от домена приложения. С другой стороны, цель «эффективности» находится в области информатики. Согласование потребностей исследователей в прикладных областях с усилиями по разработке алгоритмов и статистических методов является ключом к разработке эффективных решений. Мы надеемся, что эта статья внесет значительный вклад в этот процесс общения. Ключевой задачей генетики человека является полное понимание того, как генотип влияет на фенотип. На сегодняшний день успешно картированы многочисленные гены редких моногенных заболеваний, при которых редкая мутация в большинстве случаев приводит к заболеванию. Для мутаций с (почти) полностью пенетрантными эффектами анализ сцепления в затронутых родословных показал, что является высокоэффективным подходом для локализации причинных генов, при этом несколько тысяч таких болезнетворных генов теперь аннотированы в Online Mendelian Inheritance in Man ( http: // omim.org/ ). Совсем недавно секвенирование всего экзома в семьях предложило дополнительный и, возможно, более эффективный подход, выявляя мутации-виновники в генах новых болезней и в конкретных случаях раскрывая роль de novoмутации у пораженного потомства (без семейной сегрегации). Путем сравнения наблюдаемых вариантов у затронутых членов семьи с теми, которые присутствуют в популяции в целом [например, сервер вариантов Exome ( http://evs.gs.washington.edu/EVS ) и браузер ExAC ( http: //exac.broadinstitute. org )], такие варианты можно считать патогенными на основании их частоты в популяции. Тем не менее, следует проявлять осторожность, потому что любая последовательность генома может содержать множество потенциально функциональных, редких вариантов, которые могут привести к ложноположительным заявлениям о вариантах, вызывающих заболевание.

Исторически сложилось так, что изучение распространенных заболеваний было более сложной задачей, поскольку они возникают в результате взаимодействия многих генетических и негенетических факторов риска, каждый из которых лишь незначительно влияет на общий риск. Благодаря систематическим подходам к исследованию большого числа геномных вариаций человека, GWAS идентифицировал тысячи надежных ассоциаций генотип-фенотип для широкого спектра человеческих черт и заболеваний. Решающее значение для этого успеха сыграли каталоги вариаций генома человека, их свойства неравновесия по сцеплению (LD), а также коммерческая разработка дешевых микроматриц. Одним из основных применений ресурсов, предоставленных проектами HapMap и 1000 Genomes (1 кг), было вменение на основе LD, что позволяет GWAS тестировать гораздо больше вариантов, чем обычно присутствует на одном чипе микрочипа.
 
Хотя предполагается, что база данных будет включать> 99% всех вариантов с частотой не менее 1%, многие другие независимые усилия по секвенированию показали, что многие варианты ниже 1% еще предстоит обнаружить, поскольку мы продолжаем секвенировать все больше и больше. образцы. Это, вероятно, лучше всего иллюстрируется базой данных Exome Aggregation Consortium, который предоставляет подробную информацию о 7,4 миллионах высококачественных вариантов в экзомах 60 706 неродственных особей. Действительно, 54% наблюдаемых вариантов являются одиночными, а впечатляющие 72% даже не наблюдаются в 1 кг. Это подчеркивает, что для медицинской генетики будет огромная ценность в создании пангеномных ресурсов для агрегирования общих и редких вариантов для вменения и ассоциативного тестирования обычно сегрегационных вариантов, с одной стороны, и (функциональной) интерпретации редких вариантов в последовательностях личного генома. с другой.

В той степени, в которой общие варианты играют важную роль для определенных признаков, они, вероятно, присутствуют в 1 кг и, следовательно, в принципе могут быть хорошо оценены и, таким образом, проверены на связь. Однако это не относится к редким вариантам, которые плохо представлены в 1 кг и которые сложно вычислить с микрочипа. Таким образом, мы видим потенциальную ценность в секвенировании более крупных выборок для заболеваний, при которых общие варианты, по-видимому, вносят незначительный вклад, как показано в недавнем исследовании GWAS для бокового амиотрофического склероза. В конечном счете, ключевой компромисс в «оптимальном» дизайне исследования - это вероятность открытия новых открытий (мощность) и связанные с этим затраты (эффективность). Поскольку секвенирование по-прежнему является значительным фактором затрат, простых рекомендаций для различных заболеваний не существует.

Помимо открытия новых ассоциаций, мы также должны ожидать увеличения внимания к точному картированию начальных совпадений GWAS, то есть локализации причинных вариантов, управляющих сигналами ассоциации. Идентификация этих вариантов (и их функционального воздействия) является ключевым шагом в выяснении задействованных биологических механизмов. Комбинирование полногеномных вариантов с исчерпывающими функциональными аннотациями - например, из наборов эпигеномных данных или данных экспрессии генов - следует считать приоритетом. Мы ожидаем, что пангеномные структуры данных, способные обрабатывать такие аннотации, внесут значительный вклад в эти усилия.

Параллельно нам следует ожидать существенных улучшений в характеристике частей генома, которые в настоящее время труднодоступны с текущими технологиями секвенирования (включая повторяющиеся области или области низкой сложности), и обнаружения сложных SV, поскольку это еще не все. сложно вызвать из необработанных данных последовательности. Несмотря на попытки зафиксировать структурные вариации на основе противоречивого картирования коротких чтений, большая часть остается необнаруженной в значительной степени из-за их сложности и из-за неполноты текущего эталонного генома. Включение полностью разрешенных высококачественных данных структурных вариаций в пангеномный эталон, предпочтительно на основе данных долгого считывания секвенирования, значительно улучшило бы генотипирование известных SV и ограничило бы ложноположительные результаты среди новых вариантов. Это будет очень актуально в клинических условиях, где ожидается, что секвенирование генома заменит профилирование вариаций числа копий на основе массива в течение нескольких лет. Рак вызывается в основном соматическими изменениями ДНК, которые накапливаются в течение жизни человека. Соматические мутации у разных людей возникают независимо, и недавние крупные исследования рака выявили обширную «межбольную неоднородность» соматических мутаций, при этом любые две опухоли представляют собой разный набор от сотен до десятков тысяч соматических мутаций. Гетерогенность также проявляется «внутри пациента», когда разные популяции клеток представляют разные наборы мутаций в одной и той же опухоли.

Гетерогенность между пациентами и пациентами создает несколько проблем для обнаружения и интерпретации соматических мутаций при раке. Доступность пангеномного эталона значительно улучшила бы обнаружение соматических мутаций в целом за счет улучшенного качества картирования считывания в полиморфные области и, в частности, в тех случаях, когда подходящая нормальная ткань недоступна или, когда может быть обеспечен только уменьшенный охват последовательностей полученный.

В дополнение к эталону пангенома, пангеном соматического рака, представляющий вариабельность наблюдаемой, а также предполагаемой скорости фоновых изменений в геноме и для различных групп больных раком, улучшит идентификацию геномных изменений, связанных с болезни («водительские события») на основании их повторяемости у разных людей. Еще более важным было бы наличие соматического пангенома, описывающего общую соматическую изменчивость в человеческой популяции, который обеспечил бы точную основу для оценки воздействия соматических изменений.

В среднесрочной и долгосрочной перспективе мы предполагаем, что для каждого пациента с опухолью будет создан комплексный пангеном рака, включающий данные об отдельных клетках, информацию о гаплотипах, а также данные секвенирования циркулирующих опухолевых клеток и ДНК. Такой пангеном, скорее всего, будет представлять собой гораздо лучшую основу для принятия решений о терапии по сравнению с существующими геномами рака, которые в основном представляют собой наиболее распространенный тип клеток. Кратковременное секвенирование следующего поколения внесло огромный вклад в увеличение известного числа генетических вариаций в геномах многих видов. Неотъемлемые ограничения обычно используемого секвенирования с коротким считыванием являются трехкратными. Во-первых, короткие длины чтения запрещают исследование участков генома, состоящих из повторяющихся участков, прямое фазирование генетических вариантов и обнаружение больших структурных вариаций. Во-вторых, неслучайные ошибки затрудняют обнаружение генетических вариаций. В-третьих, существует неравномерное распределение охвата секвенированием из-за различных факторов, включая смещения в амплификации полимеразной цепной реакции, процессивности полимеразы и мостовой амплификации.

Установление пан-геномных последовательностей в идеале требует полного набора «поэтапных» - то есть разрешенных гаплотипов - генетических вариаций. Экспериментальные методы сбора такой информации о связях в последнее время продемонстрировали значительный прогресс, о чем говорится в обзоре. В конце концов, специализированные протоколы секвенирования с определением гаплотипов станут устаревшими, как только будут регулярно доступны достаточно длинные считывания секвенирования.

Наиболее многообещающие разработки в технологии секвенирования включают секвенирование одной молекулы в реальном времени нативных цепей ДНК. В настоящее время секвенирование одной молекулы в реальном времени (SMRT) (Pacific Biosciences) широко используется для обнаружения вариаций и сборки генома. Устройство MinION (Oxford Nanopore Technologies) обеспечивает даже более длительные считывания одиночных молекул ДНК, но, как сообщается, обнаруживает смещения GC. Данные, полученные на платформе MinION, успешно использовались для сборки небольших геномов и для выяснения структуры сложных участков генома.

Несмотря на этот прогресс, считывания секвенирования еще недостаточно продолжительны, чтобы пересечь и собрать все повторяющиеся структуры, и необходимы другие дополнительные технологии для исследования больших и более сложных вариаций. В настоящее время матричная сравнительная геномная гибридизация (arrayCGH), синтетические длинные считывания (Moleculo], 10X Genomics), измерения взаимодействия хроматина и высокопроизводительное оптическое картирование помогают обнаружению структурных вариаций. .
Помимо опроса геномов, технологии секвенирования также служат для измерения различных других сигналов, которые можно рассматривать как дополнительные уровни информации, которые необходимо хранить и анализировать в пангеномной структуре. В частности, существуют специализированные протоколы для измерения транскриптомов, ДНК-белкового взаимодействия, трехмерной структуры генома, эпигенетической информации или активности трансляции. Во всех этих случаях актуальной проблемой является переход от массового секвенирования к одноклеточному секвенированию.

Ожидается, что новые технологии будут продолжать значительно улучшать все упомянутые приложения в геномике и за ее пределами. Тем не менее, дальнейшее снижение затрат и проведение соответствующих сравнительных исследований, демонстрирующих специфичность и чувствительность, - это проблемы, которые еще предстоит решить. Помимо новых экспериментальных протоколов и технологий секвенирования, успехи в «структурах данных» играют ключевую роль в реализации пангеномного анализа. В этом разделе мы определяем важные цели проектирования пангеномных структур данных и рассматриваем существующие подходы.

Во-первых, обосновывается обсуждение практическим примером пангеномной структуры данных. На рис. 1 представлен график сплайсинга для одного гена человека. Это компактное представление коллекции транскриптов заданного гена нашло применение в анализах на основе повторного секвенирования, где оно используется для поддержки выравнивания считываний секвенирования РНК для всего транскриптома. Он включает геномные последовательности, наблюдаемые связи между ними и исходными транскриптами, а также эталонный геном, используемый для построения графика. С одной стороны, этот пример иллюстрирует, что `` вычислительная пангеномика '' применима к коллекциям генетических последовательностей, которые не обязательно являются полными геномами: чтобы наилучшим образом поддержать предполагаемое применение анализа данных секвенирования РНК, мы здесь ограничиваем нашу структуру пангеномных данных до транскрибированные последовательности. С другой стороны, этот пример подчеркивает важность «графиков» для пангеномных структур данных. Здесь граф состоит из последовательностей (узлов), смежностей между ними (ребер) и последовательностей, которые его породили (пути). Широкий спектр пангеномных операций основан на взаимодействии между этими базовыми элементами. Пангеномы должны быть сконструированы из разных независимых источников, таких как (1) существующие линейные эталонные геномы и их варианты, (2) эталонные панели гаплотипов и (3) необработанные считывания, либо из общего секвенирования сложных смесей, либо из нескольких образцов, секвенированных отдельно. Структура данных должна позволять динамическое обновление хранимой информации без перестройки всей структуры данных, включая локальные модификации, такие как добавление нового генетического варианта, вставки новых геномов и удаление содержащихся геномов.  Пангеном определяет пространство, в котором проводится (пан-) геномный анализ. Он должен обеспечивать «систему координат» для однозначной идентификации генетических локусов и (потенциально вложенных) генетических вариантов. Желательные свойства такой «системы координат» включают в себя то, что близлежащие позиции должны иметь аналогичные координаты, пути, представляющие геномы, должны соответствовать монотонным последовательностям координат, где это возможно, и координаты должны быть краткими и интерпретируемыми. Аннотации биологических признаков должны быть согласованы во всех индивидуальных геномах. С точки зрения вычислений, эти особенности представляют собой дополнительные слои поверх пангеномов. Сюда входит информация о генах, интронах, сайтах связывания факторов транскрипции; эпигенетические свойства; связи, включая гаплотипы; генная регуляция; единицы транскрипции; трехмерная структура генома; и таксономия среди людей. Пангеномная структура данных должна обеспечивать позиционный доступ к отдельным последовательностям генома, доступ ко всем вариантам и соответствующим частотам аллелей Гаплотипы должны быть реконструированы, включая информацию обо всех максимальных блоках и LD между двумя вариантами. Сравнение коротких и длинных последовательностей (например, считываний) с пангеномом в идеале приводит к соответствующему местоположению и наиболее подходящему индивидуальному геному (-ам). Этот сценарий может иметь место для транскриптомных данных, а также для данных повторного секвенирования ДНК, что облегчает идентификацию известных вариантов в новых образцах. Учитывая любую пару геномов в пангеноме, мы ожидаем, что структура данных будет выделять различия, вариабельные и консервативные области, а также общие синтенные области. Помимо этого, должно поддерживаться глобальное сравнение двух (или более) пангеномов, например, в отношении содержания генов или дифференциации популяции. Пангеномная структура данных должна поддерживать создание (выборку) отдельных геномов, подобных содержащимся в ней геномам. Вся информация в структуре данных должна быть легко доступна для человеческого глаза за счет поддержки визуализации в различных масштабах. Это включает в себя визуализацию глобальной структуры генома, SV на уровне генома и локальных вариантов на уровне нуклеотидов, но также должны быть представлены биологические особенности и другие вычислительные уровни (см. Раздел «Биологические особенности и вычислительные уровни»). Мы ожидаем, что структура данных будет использовать как можно меньше места на диске и в памяти, при этом она будет совместима с вычислительными инструментами с малым временем работы. Поддержка специализированного оборудования, такого как графические процессоры общего назначения или программируемые вентильные матрицы, частично является деталью реализации. Тем не менее, в некоторых случаях целевая платформа может существенно повлиять на дизайн структуры данных. Есть естественные компромиссы между некоторыми желаниями, обсуждавшимися в предыдущем разделе. Например, возможность разрешить динамические обновления может быть затруднена при использовании небольшого пространства и обеспечении эффективного индексирования. Одна из основных задач вычислительной пангеномики - проектировать структуры данных, которые эффективно поддерживают (некоторые из) вышеупомянутые типы запросов. Хотя это в принципе желательно, мы считаем трудным, если не невозможным, разработать решение, которое сразу удовлетворяет «всем» перечисленным требованиям. Следовательно, будущие исследования должны быть нацелены на определение компромиссов, которые, возможно, придется сделать, и, таким образом, дать рекомендации относительно того, какое решение подходит для какого сценария приложения. По мере развития поля будут появляться дополнительные запросы, и структуры данных должны будут адаптироваться для их поддержки.

Далее мы обсуждаем традиционные подходы для удовлетворения фундаментальных требований к анализу генома, первые расширения для пангеномов, а также будущие задачи. Учитывая набор считываний, секвенированных от донора, «отображение считывания» состоит в идентификации частей эталонного генома, соответствующих каждому считыванию. Картирование считывания в пангеноме имеет потенциал для повышения точности выравнивания и последующего вызова вариантов, особенно в областях генома с высокой плотностью (сложных) вариантов.

Для одной ссылочной последовательности проблема отображения чтения в основном решается путем индексации ссылки в структуру данных, которая поддерживает эффективные поисковые запросы по шаблону. Наиболее успешные подходы используют индексы на основе k- мер или на основе преобразования Барроуза – Уиллера. Индексирование пангенома сложнее.

Подход использует сжатые структуры данных, используя избыточность длинных серий одной и той же буквы в преобразовании Барроуза-Уиллера для набора похожих геномов. Этот подход дает достаточно сжатое представление пангенома, но эффективность выравнивания чтения затрудняется тем фактом, что большинство операций чтения сопоставляются со всеми ссылками, и что извлечение этих мест появления из сжатого индекса может быть потенциально медленным. Совсем недавно подходы, основанные на сжатии Лемпеля – Зива, были предложены для ускорения сообщения о происшествиях.

Вместо полного графа последовательностей использовался «основной» граф последовательностей, в котором столбцы были объединены в областях высокого сходства (основной геном), чтобы избежать обширного ветвления на графике. После нахождения начальных вхождений для чтения на этом графике выравнивание было уточнено локально с помощью динамического программирования. Аналогичная k- мерная индексация на графах последовательностей с тех пор используется и расширяется в нескольких инструментах отображения чтения, таких как MuGI.
Вместо k- мерного индексирования можно также использовать подходы на основе Барроуза – Уиллера, основанные на добавлении извлеченных контекстов вокруг вариаций к эталонному геному. Подходы к извлечению контекста работают только с ограниченной длиной паттернов, так как с длинными паттернами они страдают от комбинаторного взрыва в областях с множеством вариантов; то же самое может произойти с полным графом последовательности, когда все ближайшие k -мерные комбинации совпадений проверяются с помощью динамического программирования.

Существует также специальное преобразование Барроуза – Уиллера и основанный на нем индекс для графа последовательностей. Этот подход работает с любой длиной шаблона, но сам индекс может иметь экспоненциальный размер в худшем случае; Границы наилучшего и среднего случая аналогичны индексам, сжатым по длине серии, для наборов ссылок, подобных. Этот подход также, вероятно, будет работать без экспоненциального роста на основном графе последовательностей , но, насколько нам известно, эта комбинация не была исследована на практике. Недавняя реализация ( https://github.com/jltsiren/gcsa2 ) позволяет избежать экспоненциального поведения наихудшего случая за счет преждевременной остановки построения; в этом случае подход также ограничивает максимальную длину чтения. Эта реализация была интегрирована в VG в качестве альтернативного подхода к индексации. HISAT2 ( https://ccb.jhu.edu/software/hisat2/index.shtml) реализует структуру индекса, но строит множество небольших структур индекса, которые вместе покрывают весь геном.

Таким образом, существует ряд подходов для выполнения сопоставления считывания с эталоном пан-генома в различных моделях представления, и эффективные реализации для повседневного использования находятся в стадии активной разработки. эта область далека от насыщения, и все же ожидаем значительного прогресса как в алгоритмической, так и в программной инженерии. Чтобы полностью реализовать потенциал этих разработок, необходимо учитывать взаимодействие между отображением чтения и методами вызова вариантов. Задача определения различий между секвенированным геномом донора и заданным (линейным) эталонным геномом обычно называется «вызовом вариантов». В случае диплоидных или полиплоидных организмов мы дополнительно хотим определить соответствующий «генотип». Перед лицом пангеномных структур данных вызов вариантов разбивается на два этапа: определение «известных» вариантов, уже представленных в структуре данных, и вызов «новых» вариантов. Обратитесь к Schneeberger et al. раннюю работу по вызову пангеномных вариантов. Они не только демонстрируют возможность совмещения короткого чтения с графиком, представляющим эталон пан-генома (см. Раздел «Картирование чтения»), но также демонстрируют его положительное влияние на вызов вариаций в рамках проекта Arabidopsis 1001 Genomes Project. Используя ссылку на весь геном, можно объединить отображение считывания и вызов известных вариантов в один этап. Выравнивания считывания вариантов последовательностей, инкапсулированных в нашу структуру данных пангенома, указывают на присутствие этих вариантов в геноме донора. В частности, это относится не только к небольшим вариантам, которые могут быть охвачены одним считыванием (например, SNP и инделки), но также и к более крупным SV, таким как инверсии или большие удаления. Интеграция этих шагов потенциально сокращает общее время обработки и, что более важно, устраняет предвзятость отображения считывания в сторону эталонного аллеля и, следовательно, повышает точность вызова известных вариантов. Одной из важных задач является статистический контроль неоднозначности отображения чтения в структуре данных пангенома.

В качестве первого крупного шага в этом направлении Dilthey et al. сформулировали проблему вызова (диплоидного) варианта в поиске пары путей через пан-геномный эталон, представленный как HMM, излучающий k -меры. Они демонстрируют, что это приводит к существенному повышению производительности в богатой вариациями области MHC.  Обнаружение вариантов, не представленных в структуре данных пан-генома, аналогично традиционному вызову вариантов в отношении линейного эталонного генома. Тем не менее существуют различия, требующие особого внимания. Самый простой способ использовать устоявшиеся методы вызова вариантов - использовать выравнивание чтения для пангенома и проецировать их на линейную последовательность. Для небольших вариантов, таких как SNP и indels, содержащихся в считывании, этот подход, вероятно, будет успешным. Методы для характеристики более крупных структурных вариаций (SV) нуждаются в значительном обновлении.

Методы вызова SV обычно подразделяются на четыре категории в зависимости от используемого сигнала: пара чтения, глубина чтения, разделенное чтение и сборка, как описано Alkan et al. Каждая из этих парадигм имеет свои достоинства и недостатки, и современные подходы обычно сочетают в себе несколько методов. Каждая из этих идей может и должна быть воплощена в сфере пангеномов. Для подходов, основанных на разделении, чтении и сборке, необходимо решить проблему выравнивания считываний и контигов, соответственно, с пангеномной структурой данных (при одновременном разрешении выравнивания для пересечения контрольных точек SV).

В случае парных методов чтения пангеномная модель подразумевает другое понятие «расстояния», которое необходимо учитывать. Для методов глубины считывания статистические модели неопределенности картирования считывания на пангеномах должны сочетаться с моделями охвата (систематических ошибок). Разработка стандартов для отчетности и обмена наборами потенциально вложенных вызовов вариантов имеет большое значение. Вызов соматических мутаций из парных опухолевых / нормальных образцов является важным шагом в исследованиях молекулярной онкологии. Обратитесь к разделу «Рак» для получения подробной информации и для сравнения текущих рабочих процессов. Вызов соматических вариантов значительно сложнее по сравнению с вызовом вариантов зародышевой линии, в основном из-за гетерогенности опухоли, преобладания SV и того факта, что большинство соматических вариантов будут новыми. Пангеномные структуры данных обещают быть чрезвычайно полезными в исследованиях рака для стабильного обнаружения соматических вариантов. Возможным подходом для использования пангеномных структур данных в этом контексте было бы сопоставление считываний из сопоставленного нормального образца с пан-ссылкой, вызов мутаций зародышевой линии, создание ограниченного пан-генома с обнаруженными вариантами и сопоставление считываний опухоли с этим пан-ссылка для вызова соматических мутаций. Хранение и обмен вызовами вариантов, генотипированных в большой когорте образцов, все чаще становится узким местом с растущими размерами когорт. Некоторое улучшение достигается за счет принятия двоичных форматов данных вместо текстовых для вариантных вызовов, т. Е. Использования BCF вместо VCF ( http://samtools.github.io/hts-specs/ ), но срочно необходимы более эффективные подходы. Организация данных по отдельным, а не по вариантам при сортировке вариантов по частоте аллелей оказалась полезной для сжатия и некоторых задач поиска. Мы ожидаем, что вопрос хранения, запроса и обмена вариантными данными останется активной и актуальной областью исследований в ближайшие годы. Люди диплоидны, то есть каждая хромосома имеет две копии: одна унаследована от матери, а другая - от отца. Отдельные последовательности этих двух хромосомных копий называются «гаплотипами», где часто ограничивают внимание полиморфными сайтами. Процесс отнесения каждого аллеля в гетерозиготных локусах к одному из двух гаплотипов называется «фазированием». Растения часто бывают полиплоидными. Например, пшеница может быть тетра- (= 4 копии) или гексаплоидной (= 6 копий), а некоторые ягоды клубники даже декаплоидной (= 10 копий). В крайнем случае, «плоидность» квазивидов вирусов, то есть количество различных вирусных штаммов, заселяющих инфицированного человека (см. Раздел «Вирусы»), обычно неизвестно и велико. То же самое относится к гетерогенным опухолям, как описано в разделе «Рак».

Пангеномные структуры данных могут, с одной стороны, хранить информацию о гаплотипах, а с другой стороны, быть инструментами для фазирования. В настоящее время существует несколько подходов к получению информации о гаплотипах. «Статистическая фазировка» использует информацию о генотипе больших когорт для реконструкции гаплотипов всех индивидуумов, исходя из предположения, что блоки гаплотипов сохраняются в популяции. После того, как известны наборы гаплотипов, называемые эталонными панелями, можно поэтапно разделить дополнительные индивидуумы, выражая новые гаплотипы как мозаику из уже известных. Вопрос о том, как лучше всего организовать и хранить справочные панели, открыт. С этой целью Дурбин  предложил вышеупомянутую структуру индекса PBWT. Мы считаем объединение эталонных панелей с пангеномными структурами данных важной темой для будущих исследований.

Для определения гаплотипов отдельных особей, включая редкие варианты и варианты de novo , статистические подходы не подходят, и необходимы экспериментальные методы для измерения сцепления. Такие методы включают специализированные протоколы и новые платформы для долгого чтения, как описано в разделе «Влияние технологии секвенирования на пангеномику». В настоящее время разрабатываются первые подходы для локальной сборки с разрешенными гаплотипами. Существует больше литературы по проблеме постепенного перехода от выровненных длинных прочтений, например. На практике этому методу мешает недостаточное качество выравнивания длинных операций чтения, подверженных ошибкам. Поскольку фазирование основано на гетерозиготных локусах, устранение аллельных смещений во время картирования считывания с помощью пангеномных структур данных может способствовать решению этой проблемы. Сочетание достоинств поэтапного анализа на основе чтения со статистической информацией из справочных панелей является активной областью исследований. Использование пангеномных структур данных, которые кодируют эталонные гаплотипы для достижения этой цели, представляет собой многообещающее направление исследований.

Эти проблемы усиливаются при фазировании организмов или смесей более высокой или неизвестной плоидности, таких как растения, квазивиды вирусов или опухоли. Алгоритмы с управляемым временем выполнения на полиплоидных организмах и для реконструкции квазивидов требуют использования специализированных методов (особенно, когда частоты аллелей опускаются ниже уровня ошибок секвенирования). Распространение этих подходов на пангеномные структуры данных - еще одна сложная тема для будущих исследований. Пангеномика ставит новые задачи для визуализации данных. По сути, проблемы связаны с тем, как с пользой рассматривать большой набор геномов и их гомологические отношения, и включают вопросы масштаба и полезного представления перед лицом огромных объемов информации.

На высоком уровне абстракции подходы пангеномного набора генов могут быть визуализированы с использованием методов сравнения наборов, таких как диаграммы Венна, цветочные графики и связанные с ними представления. Например, недавно появившийся инструмент Pan-Tetris визуализирует основанный на генах пангеном в виде сетки, кодируя дополнительную аннотацию цветом. Для дивергентных геномов, таких как бактериальная и метапан-геномика, и где полная сборка невозможна, такие подходы предоставляют полезную сводную информацию.

Для просмотра отдельных собранных геномов или последовательностей браузеры и приложения генома часто отображают индивидуальную последовательность вдоль линейной или круговой оси, на которой визуализируется другая информация геномики. Этот популярный и широко понимаемый образ заставляет интерпретировать через призму одного выбранного генома. Когда этот геном является отдаленно связанным эталонным геномом, существует смещение визуального эталона, что может привести к неправильной интерпретации.
Пангеномные дисплеи потенциально могут помочь уменьшить эту визуальную предвзятость. Один из вариантов - улучшить линейную визуализацию: либо выбранная индивидуальная эталонная последовательность может быть заменена более визуально полезной вмененной эталонной пангеномной ссылкой, либо пангеномные структуры данных, которые связывают разные геномы в популяции, могут быть использованы для переводить информацию в наиболее близкий геном для отображения. В первом случае пангеномный дисплей может быть более инклюзивным, чем любой отдельный геном. На базовом уровне такие инклюзивные дисплеи в некоторой степени аналогичны популярным дисплеям MSA, таким как Mauve или Jalview , которые фокусируются на максимально ясном отображении всех различий между набором последовательностей. В последнем случае трансляция, при которой выравнивание пан-генома используется для отображения информации о наиболее близком возможном геноме, вероятно, станет более популярной по мере роста числа доступных личных геномов.

Более смелые, чем линейные схемы, пангеномные дисплеи могут пытаться визуализировать графики вариации. Это позволяет допускать произвольные вариации генома в рамках чистой семантической модели, но может оказаться визуально сложным даже для небольших нетривиальных примеров. Например, граф из нескольких десятков бактериальных штаммов содержит от десятков до сотен тысяч узлов и ребер. До сих пор визуализация графов оказалась популярной для сборок, а визуализация гетерозиготности, например, DISCOVAR, содержит модуль, который позволяет визуализировать подмножества графа сборки на фигуре. Одним из популярных инструментов является Cytoscape , который представляет собой универсальный инструмент визуализации биологических графов / сетей, но не имеет масштабируемости и семантической навигации. Другой инструмент, Bandage, специально визуализирует графы сборки de novo.

При продвижении вперед существует ряд проблем. В полезной визуализации можно будет перемещаться и увеличивать и уменьшать масштаб пангеномных структур. Масштабирование должно выполняться семантически, т. Е. Разные уровни масштабирования могут использовать разные представления данных для передачи биологически релевантной информации. Верхние шкалы должны давать информацию о глобальной структуре генома. Увеличение изображения должно быть сосредоточено на SV в геномной области, а наиболее увеличенные изображения должны позволить исследовать локальные варианты на уровне нуклеотидов. Кроме того, эти визуальные эффекты необходимо поместить в контекст филогении, например, отношения различных образцов, которые вошли в пангеном. Это позволит быстро идентифицировать и интерпретировать наблюдаемые варианты.

Ну наконец-то, любая визуализация пангеномного графа должна предлагать те же базовые функции, что и современные браузеры, основанные на ссылках на геном. Должны существовать визуальные способы обозначения биологически интересных функций, таких как аннотации генов и непрерывные оценочные сигналы на основе положения, такие как следы покачивания в браузере генома Калифорнийского университета в Санта-Круз (UCSC).

Базовые аналитические возможности будут полезны для визуального выделения интересных биологически значимых мутаций. Например, было бы полезно иметь разные визуальные представления для разных типов мутаций: инделей, (не) -синонимичных SNP, SV, повторов и т. Д. Должны существовать визуальные способы обозначения биологически интересных особенностей, таких как аннотации генов и непрерывные оценочные сигналы на основе положения, такие как следы покачивания в браузере генома Калифорнийского университета в Санта-Круз (UCSC). Основные аналитические возможности будут полезны для визуального выделения интересных биологически значимых мутаций. Например, было бы полезно иметь разные визуальные представления для разных типов мутаций: инделей, (не) -синонимичных SNP, SV, повторов и т.д.

Должны существовать визуальные способы обозначения биологически интересных особенностей, таких как аннотации генов и непрерывные оценочные сигналы на основе положения, такие как следы покачивания в браузере генома Калифорнийского университета в Санта-Круз (UCSC). Базовые аналитические возможности будут полезны для визуального выделения интересных биологически значимых мутаций. Например, было бы полезно иметь разные визуальные представления для разных типов мутаций: инделей, (не) -синонимичных SNP, SV, повторов и т. Д. Одна из вычислительных задач (и моделирования), стоящих перед пангеномикой, заключается в том, как справиться с распространением неопределенности данных на отдельных этапах конвейеров анализа. Для этого на отдельных этапах обработки необходимо иметь возможность принимать неопределенные данные в качестве входных данных и обеспечивать «уровень достоверности» полученных результатов. Это может быть сделано, например, в форме апостериорных вероятностей. Примеры, в которых это уже является обычной практикой, включают качество чтения карт и вероятность генотипа.

Вычисление разумного уровня достоверности обычно основывается на взвешивании альтернативных объяснений наблюдаемых данных. В случае отображения считывания, например, наличие обширного списка альтернативных местоположений отображения помогает в оценке вероятности правильности совмещения. Пангеном расширяет пространство возможных объяснений и, следовательно, может способствовать построению более справедливых и информативных уровней достоверности.
 
В качестве иллюстрации рассмотрим конвейер, включающий отображение чтения, вызов вариантов и генотипирование, фазирование и тестирование ассоциаций. Существенная неопределенность и систематические ошибки в составе последовательности уже присущи входным данным, полученным с помощью секвенирования следующего поколения. Следующий шаг выравнивания чтения добавляет неоднозначность в размещении чтения, что приводит к неопределенному охвату и длине фрагментов. В результате это приводит к неопределенности в выборе вариантов, генотипировании и фазировании. Это, наконец, приводит к неопределенности в тестировании ассоциации в GWAS. Точная количественная оценка распространения этих эффектов в значительной степени неясна. Появление все более крупных и усовершенствованных панелей, поддерживаемых соответствующими структурами пангеномных данных, обещает сделать возможными количественную оценку и смягчение таких эффектов. Уже сегодня ДНК, секвенированная для многих биологически согласованных ансамблей, таких как определенные таксономические единицы или популяции вирусов, вероятно, улавливает большинство их часто встречающихся генетических вариаций. Тем не менее, темпы секвенирования геномов в настоящее время стремительно растут благодаря накоплению секвенаторов в лабораториях и частому значительному прогрессу в технологии секвенирования. Следовательно, фиксация «всех геномов» с точки зрения содержания и изобилия генетических вариаций больше не является выдачей желаемого за действительное, но вскоре материализуется для многих видов, популяций и геномов рака. Другими словами, науки о жизни вступили в эру «пангеномики», которая характеризуется знанием «всех» основных генетических вариаций коллекции интересующих геномов.
 

Computational pan-genomics: status, promises and challenges - PubMed (nih.gov) 
Computational Pan-Genomics Consortium. Computational pan-genomics: status, promises and challenges. Brief Bioinform. 2018 Jan 1;19(1):118-135. doi: 10.1093/bib/bbw089. PMID: 27769991; PMCID: PMC5862344.