Изыскания на тему экспрессии генов
Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — ДНК-микрочипы. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. кДНК, Гибридизация ДНК). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
- Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, t-тестами Стьюдента. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
- Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены не изменили экспрессию, либо наоборот — какие гены существенно изменили экспрессию.
Содержание
Форматы
Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.
Affymetrix CEL
Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
- Яркость (возможно, усреднённая).
- СКО яркости.
- Количество пикселей, из которых получена усреднённая яркость.
- Некий пользовательский флаг (точка «маскирована» или нет).
- Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).
Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
- Описание формата Affymetrix CEL.
- celintensityread, функция чтения CEL в Matlab.
- Bio::Expression::MicroarrayIO::affymetrix — парсер CEL для Perl’а.
GPR
GPR — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
Семейство MIAME
MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.
MGED: MAGE-ML и MAGE-TAB
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
GEO: SOFT и MINiML
Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:
- «Platform» — описание эксперимента (содержимое описания).
- «Sample» — одна гибридизация.
- «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
Банк Gene Expression Omnibus, содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами SAGE (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по ссылке.
Ссылки
- Differential Expression with the Bioconductor Project — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью BioConductor'а. Очень рекомендуется к прочтению, ибо вменяема.
- DNA microarray — статья про ДНК-микрочипы в английской Википедии.
- NCBI Gene Expression Omnibus, банк данных экспрессии генов.
- BioConductor, система анализа микробиологических данных на основе системы GNU R.
- ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии
- По теме экспериментов с гомоцистеином могут быть любопытны наборы данных GDSxxxx с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.
Про задачи
Если я все правильно понял, то по сути 1 измерение эксперимента- это сочетание набора параметров эксперимента с их значениями(в заголовке CEL файла) с матрицей "яркости"(вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8- у нас будут 2 CEL файла, которые будут отличаться только значением параметра "время" и, разумеется, матрицами(а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного- тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения- координаты точки на чипе(то есть в матрице), а остальные- значения параметров эксперимента для каждой матрицы(ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
- в рамках одной матрицы 100% должны быть "выбросы"- то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать- это получается задача "шумоподавления". Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
- задача удаления из матрицы "фонового шума"(см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций- делаем разложение и смотрим, на каком шаге "хвост" станет по распределению близок к нормальному(эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
- что делать с корреляцией- пока не очень ясно. Вопрос- та задача, которая интересна на данный момент(про гомоцистеин)- она не относится ли к "небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними"? Если да, то возможно, и заморачиваться не надо.
- про временные зависимости, например, "закончилась экспрессия гена А, и сразу началась экспрессия гена В". Это уже надо смотреть на многомерный куб- там в этом случае просто "подкубики" для данных генов и временных участков должны быть рядом... Или если все-таки вспомнить про ОСАМ- там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах(например, при 4й степени... но тут очень мутно, надо проверять). Вопрос к биологам- интересны ли подобные задачи про временные зависимости?