Изыскания на тему экспрессии генов — различия между версиями
м (→Семейство MIAME) |
м (→Предварительный вывод) |
||
(не показаны 32 промежуточные версии 3 участников) | |||
Строка 1: | Строка 1: | ||
'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок. | '''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок. | ||
− | Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями. | + | Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — [[wikipedia:DNA microarray|ДНК-микрочипы]]. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. [[rupedia:КДНК|кДНК]], [[rupedia:Гибридизация ДНК|Гибридизация ДНК]]). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке. |
+ | |||
+ | Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения: | ||
+ | # Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, [http://alglib.sources.ru/hypothesistesting/studentttest.php ''t''-тестами Стьюдента]. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов. | ||
+ | # Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий. | ||
+ | |||
+ | Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию. | ||
+ | |||
+ | == Постановка задач == | ||
+ | |||
+ | [[Обсуждение:Изыскания на тему экспрессии генов|Обсуждения задач можно вести здесь.]] | ||
+ | |||
+ | === Поиск наиболее стабильного гена === | ||
+ | |||
+ | Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?). | ||
+ | |||
+ | Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: [[Гомоцистеин и UPR]]. | ||
+ | |||
+ | Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО. | ||
+ | |||
+ | Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных. | ||
+ | |||
+ | |||
== Форматы == | == Форматы == | ||
Строка 22: | Строка 44: | ||
* [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab. | * [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab. | ||
* [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а. | * [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а. | ||
+ | |||
+ | === GPR === | ||
+ | |||
+ | [http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой. | ||
=== Семейство MIAME === | === Семейство MIAME === | ||
Строка 29: | Строка 55: | ||
Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB]. | Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB]. | ||
− | MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, | + | ==== MGED: MAGE-ML и MAGE-TAB ==== |
+ | |||
+ | MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат. | ||
+ | |||
+ | ==== GEO: SOFT и MINiML ==== | ||
Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же. | Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же. | ||
Строка 37: | Строка 67: | ||
* «Sample» — одна гибридизация. | * «Sample» — одна гибридизация. | ||
* «Series» — данные эксперимента, включающие в себя несколько Sample’ов. | * «Series» — данные эксперимента, включающие в себя несколько Sample’ов. | ||
+ | |||
+ | Банк ''Gene Expression Omnibus'', содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами [http://www.sagenet.org/findings/index.html SAGE] (Serial Analysis of Gene Expression), [http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechMPSS.shtml MPSS] (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по [http://www.ncbi.nlm.nih.gov/geo/info/faq.html#kinds ссылке]. | ||
== Ссылки == | == Ссылки == | ||
− | * [[wikipedia:DNA microarray]] — статья про ДНК-микрочипы в английской Википедии. | + | * [http://www.bepress.com/bioconductor/paper7/ Differential Expression with the Bioconductor Project] — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью [http://www.bioconductor.org/overview/ BioConductor]'а. Очень рекомендуется к прочтению, ибо вменяема. |
+ | * [[wikipedia:DNA microarray|DNA microarray]] — статья про ДНК-микрочипы в английской Википедии. | ||
* [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов. | * [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов. | ||
− | * [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных | + | * [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных на основе системы [http://www.r-project.org/ GNU R]. |
− | + | ||
* [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии] | * [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии] | ||
+ | * По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861. | ||
− | [[Категория: | + | [[Категория:Биоинформатика]] |
Текущая версия на 20:31, 24 марта 2010
Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для анализа — ДНК-микрочипы. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. кДНК, Гибридизация ДНК). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.
Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:
- Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, t-тестами Стьюдента. Плюс подхода — он применяется «в лоб». Минус подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.
- Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены не изменили экспрессию, либо наоборот — какие гены существенно изменили экспрессию.
Содержание
Постановка задач
Обсуждения задач можно вести здесь.
Поиск наиболее стабильного гена
Берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?).
Задача важна с целью использования таких генов при негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов). Вообще о биологических задачах: Гомоцистеин и UPR.
Техническая часть: загрузка/сохранение «сырых» данных и функционал сравнения изменения экспрессии для двух «матриц» с такими данными, пока без особых изысков, возможно, что-то вроде обычной корреляции или относительного СКО.
Далее нужны тестовые реальные данные, для которых будет ясен верный ответ, и в случае неудовлетворительной работы алгоритма сравнения изменения экспрессии — его можно будет корректировать или выбрать другой. Критерием завершения (Definition Of Done) можно считать корректный результат для большинства этих данных.
Форматы
Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.
Affymetrix CEL
Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
- Яркость (возможно, усреднённая).
- СКО яркости.
- Количество пикселей, из которых получена усреднённая яркость.
- Некий пользовательский флаг (точка «маскирована» или нет).
- Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).
Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
- Описание формата Affymetrix CEL.
- celintensityread, функция чтения CEL в Matlab.
- Bio::Expression::MicroarrayIO::affymetrix — парсер CEL для Perl’а.
GPR
GPR — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
Семейство MIAME
MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.
MGED: MAGE-ML и MAGE-TAB
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
GEO: SOFT и MINiML
Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:
- «Platform» — описание эксперимента (содержимое описания).
- «Sample» — одна гибридизация.
- «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
Банк Gene Expression Omnibus, содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами SAGE (Serial Analysis of Gene Expression), MPSS (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по ссылке.
Ссылки
- Differential Expression with the Bioconductor Project — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью BioConductor'а. Очень рекомендуется к прочтению, ибо вменяема.
- DNA microarray — статья про ДНК-микрочипы в английской Википедии.
- NCBI Gene Expression Omnibus, банк данных экспрессии генов.
- BioConductor, система анализа микробиологических данных на основе системы GNU R.
- ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии
- По теме экспериментов с гомоцистеином могут быть любопытны наборы данных GDSxxxx с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.