Изыскания на тему экспрессии генов — различия между версиями

Текущая версия на 20:31, 24 марта 2010

Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.

Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — ДНК-микрочипы. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. кДНК, Гибридизация ДНК). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.

Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:

Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, t-тестами Стьюдента. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.

Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены не изменили экспрессию, либо наоборот — какие гены существенно изменили экспрессию.

Содержание

1 Постановка задач
- 1.1 Поиск наиболее стабильного гена
2 Форматы
3 Ссылки

Постановка задач

Обсуждения задач можно вести здесь.

Поиск наиболее стабильного гена

Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).

Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: Гомоцистеин и UPR.

Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.

Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.

Форматы

Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.

Affymetrix CEL

Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:

Яркость (возможно, усреднённая).
СКО яркости.
Количество пикселей, из которых получена усреднённая яркость.
Некий пользовательский флаг (точка «маскирована» или нет).
Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).

Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.

Описание формата Affymetrix CEL.
celintensityread, функция чтения CEL в Matlab.
Bio::Expression::MicroarrayIO::affymetrix — парсер CEL для Perl’а.

GPR

GPR — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.

Семейство MIAME

MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.

Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.

MGED: MAGE-ML и MAGE-TAB

MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.

GEO: SOFT и MINiML

Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.

Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:

«Platform» — описание эксперимента (содержимое описания).
«Sample» — одна гибридизация.
«Series» — данные эксперимента, включающие в себя несколько Sample’ов.

Банк Gene Expression Omnibus, содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами SAGE (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по ссылке.

Ссылки

Differential Expression with the Bioconductor Project — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью BioConductor'а. Очень рекомендуется к прочтению, ибо вменяема.
DNA microarray — статья про ДНК-микрочипы в английской Википедии.
NCBI Gene Expression Omnibus, банк данных экспрессии генов.
BioConductor, система анализа микробиологических данных на основе системы GNU R.
ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии
По теме экспериментов с гомоцистеином могут быть любопытны наборы данных GDSxxxx с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.

@@ Строка 1: / Строка 1: @@
-'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
+'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
-Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — [[wikipedia:DNA microarray|ДНК-микрочипы]]. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. [[rupedia:КДНК|кДНК]], [[rupedia:Гибридизация ДНК|Гибридизация ДНК]]). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
+Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — [[wikipedia:DNA microarray|ДНК-микрочипы]]. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. [[rupedia:КДНК|кДНК]], [[rupedia:Гибридизация ДНК|Гибридизация ДНК]]). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
-Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
+Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
-# Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, [http://alglib.sources.ru/hypothesistesting/studentttest.php ''t''-тестами Стьюдента]. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
+# Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, [http://alglib.sources.ru/hypothesistesting/studentttest.php ''t''-тестами Стьюдента]. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
 # Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.
-Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию.
+Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию.
+== Постановка задач ==
+[[Обсуждение:Изыскания на тему экспрессии генов|Обсуждения задач можно вести здесь.]]
+=== Поиск наиболее стабильного гена ===
+Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).
+Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: [[Гомоцистеин и UPR]].
+Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.
+Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.
 == Форматы ==
@@ Строка 15: / Строка 31: @@
 === Affymetrix CEL ===
-Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно '''одного''' изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
+Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно '''одного''' изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
 * Яркость (возможно, усреднённая).
@@ Строка 23: / Строка 39: @@
 * Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).
-Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
+Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
 * [http://www.stat.lsa.umich.edu/~kshedden/Courses/Stat545/Notes/AffxFileFormats/cel.html Описание формата Affymetrix CEL].
 * [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab.
-* [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а.
+* [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а.
 === GPR ===
-[http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
+[http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
 === Семейство MIAME ===
-'''[http://www.mged.org/Workgroups/MIAME/miame.html MIAME]''' — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
+'''[http://www.mged.org/Workgroups/MIAME/miame.html MIAME]''' — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
-Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].
+Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].
 ==== MGED: MAGE-ML и MAGE-TAB ====
-MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
+MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
 ==== GEO: SOFT и MINiML ====
-Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
+Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
 Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:
-* «Platform» — описание эксперимента ([http://www.ncbi.nlm.nih.gov/geo/info/depguide.html#DataTableGPL содержимое описания]).
+* «Platform» — описание эксперимента ([http://www.ncbi.nlm.nih.gov/geo/info/depguide.html#DataTableGPL содержимое описания]).
-* «Sample» — одна гибридизация.
+* «Sample» — одна гибридизация.
-* «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
+* «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
 Банк ''Gene Expression Omnibus'', содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами [http://www.sagenet.org/findings/index.html SAGE] (Serial Analysis of Gene Expression), [http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechMPSS.shtml MPSS] (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по [http://www.ncbi.nlm.nih.gov/geo/info/faq.html#kinds ссылке].
@@ Строка 56: / Строка 72: @@
 == Ссылки ==
-* [http://www.bepress.com/bioconductor/paper7/ Differential Expression with the Bioconductor Project] — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью [http://www.bioconductor.org/overview/ BioConductor]'а. Очень рекомендуется к прочтению, ибо вменяема.
+* [http://www.bepress.com/bioconductor/paper7/ Differential Expression with the Bioconductor Project] — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью [http://www.bioconductor.org/overview/ BioConductor]'а. Очень рекомендуется к прочтению, ибо вменяема.
-* [[wikipedia:DNA microarray|DNA microarray]] — статья про ДНК-микрочипы в английской Википедии.
+* [[wikipedia:DNA microarray|DNA microarray]] — статья про ДНК-микрочипы в английской Википедии.
 * [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов.
 * [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных на основе системы [http://www.r-project.org/ GNU R].
 * [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии]
 * По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.
-== Про задачи ==
-Если я все правильно понял, то по сути 1 измерение эксперимента- это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8- у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного- тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
-* в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
-* задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
-* что делать с корреляцией — пока не очень ясно. Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
-* про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — интересны ли подобные задачи про временные зависимости?
-[[Категория:Учёба]]
+[[Категория:Биоинформатика]]

Изыскания на тему экспрессии генов — различия между версиями

Текущая версия на 20:31, 24 марта 2010

Содержание

Постановка задач

Поиск наиболее стабильного гена

Форматы

Affymetrix CEL

GPR

Семейство MIAME

MGED: MAGE-ML и MAGE-TAB

GEO: SOFT и MINiML

Ссылки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

разделы

Инструменты