Изыскания на тему экспрессии генов — различия между версиями

Материал из YourcmcWiki
Перейти к: навигация, поиск
(GPR)
м (Предварительный вывод)
 
(не показано 28 промежуточных версий 3 участников)
Строка 1: Строка 1:
 
'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
 
'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
  
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями.
+
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — [[wikipedia:DNA microarray|ДНК-микрочипы]]. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. [[rupedia:КДНК|кДНК]], [[rupedia:Гибридизация ДНК|Гибридизация ДНК]]). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
 +
 
 +
Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
 +
# Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, [http://alglib.sources.ru/hypothesistesting/studentttest.php ''t''-тестами Стьюдента]. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
 +
# Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.
 +
 
 +
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию.
 +
 
 +
== Постановка задач ==
 +
 
 +
[[Обсуждение:Изыскания на тему экспрессии генов|Обсуждения задач можно вести здесь.]]
 +
 
 +
=== Поиск наиболее стабильного гена ===
 +
 
 +
Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).
 +
 
 +
Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: [[Гомоцистеин и UPR]].
 +
 
 +
Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.
 +
 
 +
Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.
 +
 
 +
 
  
 
== Форматы ==
 
== Форматы ==
Строка 25: Строка 47:
 
=== GPR ===
 
=== GPR ===
  
[http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] - формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
+
[http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
  
 
=== Семейство MIAME ===
 
=== Семейство MIAME ===
Строка 33: Строка 55:
 
Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].
 
Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].
  
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, тесктовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
+
==== MGED: MAGE-ML и MAGE-TAB ====
 +
 
 +
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
 +
 
 +
==== GEO: SOFT и MINiML ====
  
 
Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
 
Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
Строка 41: Строка 67:
 
* «Sample» — одна гибридизация.
 
* «Sample» — одна гибридизация.
 
* «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
 
* «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
 +
 +
Банк ''Gene Expression Omnibus'', содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами [http://www.sagenet.org/findings/index.html SAGE] (Serial Analysis of Gene Expression), [http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechMPSS.shtml MPSS] (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по [http://www.ncbi.nlm.nih.gov/geo/info/faq.html#kinds ссылке].
  
 
== Ссылки ==
 
== Ссылки ==
Строка 47: Строка 75:
 
* [[wikipedia:DNA microarray|DNA microarray]] — статья про ДНК-микрочипы в английской Википедии.
 
* [[wikipedia:DNA microarray|DNA microarray]] — статья про ДНК-микрочипы в английской Википедии.
 
* [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов.
 
* [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов.
* [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных.
+
* [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных на основе системы [http://www.r-project.org/ GNU R].
 
* [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии]
 
* [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии]
 +
* По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.
  
[[Категория:Учёба]]
+
[[Категория:Биоинформатика]]

Текущая версия на 20:31, 24 марта 2010

Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.

Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — ДНК-микрочипы. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. кДНК, Гибридизация ДНК). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.

Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:

  1. Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, t-тестами Стьюдента. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
  2. Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.

Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены не изменили экспрессию, либо наоборот — какие гены существенно изменили экспрессию.

Постановка задач

Обсуждения задач можно вести здесь.

Поиск наиболее стабильного гена

Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).

Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: Гомоцистеин и UPR.

Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.

Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.


Форматы

Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.

Affymetrix CEL

Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:

  • Яркость (возможно, усреднённая).
  • СКО яркости.
  • Количество пикселей, из которых получена усреднённая яркость.
  • Некий пользовательский флаг (точка «маскирована» или нет).
  • Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).

Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.

GPR

GPR — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.

Семейство MIAME

MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.

Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.

MGED: MAGE-ML и MAGE-TAB

MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.

GEO: SOFT и MINiML

Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.

Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:

  • «Platform» — описание эксперимента (содержимое описания).
  • «Sample» — одна гибридизация.
  • «Series» — данные эксперимента, включающие в себя несколько Sample’ов.

Банк Gene Expression Omnibus, содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами SAGE (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по ссылке.

Ссылки