paroh: (Default)
[personal profile] paroh posting in [community profile] ru_crunching
Автор:Исследовательская группа Mapping Cancer Markers
6 апреля 2017 г.

Кратко:
В этой новости команда Mapring Cancer Markers описывает, как они анализируют 45 миллионов наиболее перспективных результатов данных о раке легких и как они начали распространять свои ранние результаты.

Проект Marking Cancer Markers (MCM) продолжает обрабатывать рабочие единицы для набора данных о раке яичников. Поскольку мы накапливаем эти результаты, мы продолжаем анализировать результаты MCM из предыдущего набора данных о раке легких. Ниже мы обсудим одно направление, в котором мы проводим анализ.

Образцы сигнатур генов семейства в раке легких



При раке, в человеческой биологии в целом множественные биомаркеры (гены, белки, микроРНК ит.д.) могут иметь сходные модели активности. Это может быть потому, что гены выполняют избыточные роли или потому, что гены (или другие молекулы) участвуют вместе в группе, чтобы служить биологической функции. Сигнатура рака, состоящая из набора специфических генов, может отличаться от другой сигнатуры, состоящей из разных специфических генов, и тем не менее, играет похожую роль, потому что гены в каждой функционально связаны. Учитывая эту проблему, кандидат наук Анн-Кристин Хаушильд (Anne-Christin Hauschild) ведет исследование часто встречающихся закономерностей (или мотивов) генов, присутствующих в высокопроизводительных генах рака легких.

(Нажмите на картинку ниже, чтобы увидеть увеличенную версию.)

Иллюстрация 1: Краткое описание рабочего процесса анализа

Этот проект рассмотрел результаты первого этапа анализа рака легких, который был систематическим исследованием всего пространства потенциальных сигнатур с фиксированной длиной. Мы начали с выбора 45-ти миллионов сигнатур с высокими показателями, полученных из результатов MCM, рассчитанных на основе World Community Grid. Эти подписи вычислялись для того, чтобы нести большую информацию для диагностики рака легких.

Затем мы разделили все гены в наборе данных по раку легких на 180 кластеров (семейств генов), где гены в каждой семье показывают сходную активность в наборе данных о раке легких. Затем мы обозначили эти топовые сигнатуры семействами генов, в которые были назначены гены. Это дало нам набор высокоэффективных сигнатур, выраженных как генные семейства вместо генов. Это позволило нам рассматривать две разные сигнатуры генов как одну и ту же сигнатуру генной семьи, если соответствующие гены в каждой сигнатуре являются членами одного и того же семейства.

Чтобы помочь понять сами семейства генов, мы можем визуализировать каждый из них с помощью облаков слов, описывающих функции генов, которые они содержат или биологические пути, которые они представляют. Мы извлекаем эту информацию из таких баз данных, как Gene Ontology, pathDIP или других источников.

Оттуда мы искали шаблоны в этих сигнатурах генной семьи: какие семейства появляются необычно часто (или редко) в высокопроизводительных сигнатурах или семействах, которые имеют тенденцию появляться несколько раз в одной и той же сигнатуре. Мы использовали алгоритм Frequent-Itemset для обнаружения конкретных шаблонов, которые встречаются необычно часто в хороших сигнатурах.

Иллюстрация 2: Некоторые семейства генов встречаются несколько раз в одной сигнатуре с удивительной частотой (высокой или низкой). Семья 109 редко появляется ниесколько раз. Семья 12 появляется неожиданно часто в 9x кратных количествах.
(Нажмите на картинку ниже, чтобы увидеть увеличенную версию.)

Иллюстрация 3: Несколько важных семейств генов, характеризующихся облаками слов, описывающих аннотации молекулярных функций генов из базы данных генной онтологии (Gene Ontology). Круги группируют семейства в общие шаблоны, найденные в высокопроизводительных сигнатурах. Шаблоны часто пересекаются, как в этом примере: один шаблон, содержащий семейства 3, 5 и 18, пересекает другой, содержащий семейства 12, 18 и 57.

Используя такие базы данных, как или pathDIP, мы можем использовать эти шаблоны и исследовать взаимосвязи между содержащимися в них генами, поэтому мы можем начать понимать, почему определенные комбинации таких семей несут так много информации о раке легких. Мы используем NAViGaTOR для визуализации и изучения этих сложных наборов взаимосвязей.

(Нажмите на картинку ниже, чтобы увидеть увеличенную версию.)


Иллюстрация 4: Взаимосвязь между 11 значимыми семействами генов (большие круги) в сети взаимодействия с белками. Показаны только самые важные гены (точки, цветовой код по биологической функции) в каждой семье.

Ранние результаты проекта, представленные на Personalizing Cancer Medicine 2017



Мы представили предварительные результаты этого проекта канадским и международным исследователям рака в феврале этого года в плакате на конференции Personalizing Cancer Medicine 2017 в Торонто, Онтарио. Мы получили много инсайтов и идей от обсуждения этой ранней работы, и мы продолжаем развивать их дальше.

Некоторые из дополнительных, связанных результатов были представлены в других публикациях, в том числе:...

новость на англ.

Profile

Volunteer Computing ( добровольные вычисления )

July 2017

S M T W T F S
      1
2345678
9 101112131415
16171819202122
23242526272829
3031     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 20th, 2017 02:39 pm
Powered by Dreamwidth Studios