Изыскания на тему экспрессии генов — различия между версиями
Alexander (обсуждение | вклад) (→Про задачи) |
м (→Предварительный вывод) |
||
(не показаны 2 промежуточные версии этого же участника) | |||
Строка 9: | Строка 9: | ||
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию. | Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию. | ||
− | == | + | == Постановка задач == |
− | + | [[Обсуждение:Изыскания на тему экспрессии генов|Обсуждения задач можно вести здесь.]] | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | === Поиск наиболее стабильного гена === | |
− | + | Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?). | |
+ | |||
+ | Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: [[Гомоцистеин и UPR]]. | ||
+ | |||
+ | Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО. | ||
+ | |||
+ | Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных. | ||
− | |||
− | |||
== Форматы == | == Форматы == | ||
Строка 82: | Строка 79: | ||
* По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861. | * По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861. | ||
− | [[Категория: | + | [[Категория:Биоинформатика]] |
Текущая версия на 20:31, 24 марта 2010
Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — ДНК-микрочипы. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. кДНК, Гибридизация ДНК). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
- Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, t-тестами Стьюдента. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
- Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены не изменили экспрессию, либо наоборот — какие гены существенно изменили экспрессию.
Содержание
Постановка задач
Обсуждения задач можно вести здесь.
Поиск наиболее стабильного гена
Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).
Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: Гомоцистеин и UPR.
Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.
Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.
Форматы
Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.
Affymetrix CEL
Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
- Яркость (возможно, усреднённая).
- СКО яркости.
- Количество пикселей, из которых получена усреднённая яркость.
- Некий пользовательский флаг (точка «маскирована» или нет).
- Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).
Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
- Описание формата Affymetrix CEL.
- celintensityread, функция чтения CEL в Matlab.
- Bio::Expression::MicroarrayIO::affymetrix — парсер CEL для Perl’а.
GPR
GPR — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
Семейство MIAME
MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.
MGED: MAGE-ML и MAGE-TAB
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
GEO: SOFT и MINiML
Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:
- «Platform» — описание эксперимента (содержимое описания).
- «Sample» — одна гибридизация.
- «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
Банк Gene Expression Omnibus, содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами SAGE (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по ссылке.
Ссылки
- Differential Expression with the Bioconductor Project — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью BioConductor'а. Очень рекомендуется к прочтению, ибо вменяема.
- DNA microarray — статья про ДНК-микрочипы в английской Википедии.
- NCBI Gene Expression Omnibus, банк данных экспрессии генов.
- BioConductor, система анализа микробиологических данных на основе системы GNU R.
- ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии
- По теме экспериментов с гомоцистеином могут быть любопытны наборы данных GDSxxxx с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.