Изменения

Изыскания на тему экспрессии генов

72 байта убрано, 18:27, 12 марта 2010

Нет описания правки

'''Экспрессия генов''' — — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный ~~продукт —~~ продукт — РНК или белок.

Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии ~~генов —~~ генов — выявление изменений экспрессии, связанных с конкретными условиями или воздействиями. Самый дешёвый способ получения данных для ~~анализа —~~ анализа — [[wikipedia:DNA microarray|ДНК-микрочипы]]. На микрочип помещается матрица из ДНК-олигонуклеотидов (синтетических односпиральных НК), которые гибридизируются с комплементарными участками ДНК или РНК (см. [[rupedia:КДНК|кДНК]], [[rupedia:Гибридизация ДНК|Гибридизация ДНК]]). Далее с помощью того или иного вида люминесценции измеряется (сканируется) количество гибридизированных ДНК в каждой точке чипа. Этот процесс повторяется на различных источниках или в различных условиях воздействия, откуда получаются экспреиментальные данные для дальнейшего анализа. Идея анализа заключается в том, что понимание того, какие гены меняют свою экспрессию в тех или иных условиях, может помочь в понимании процессов, происходящих при этих воздействиях в организме и/или клетке.

Задача анализа в целом статистическая, так как данные, полученные с микрочипов, имеют статистическую ~~природу —~~ природу — например, они подвержены фоновому шуму, имеют выбросы, содержат не чистые, а коррелированные данные в случаях, когда два гена коэкспрессируют. Последнее является особенной проблемой, так как на сегодня наука находится лишь в начале понимания многих генетических процессов, и многие зависимости ещё не известны. Здесь обычно применяются два различных пути решения:# Забить на корреляции и анализировать все гены отдельно друг от друга стандартными статистическими методами например, [http://alglib.sources.ru/hypothesistesting/studentttest.php ''t''-тестами Стьюдента]. Плюс ~~подхода —~~ подхода — он применяется «в лоб». Минус ~~подхода —~~ подхода — низкая гипотетическая точность и необходимость проводить большое количество тестов.

# Выделить небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними, и проводить тесты с учётом этих взаимодействий.

Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо ~~наоборот —~~ наоборот — какие гены ''существенно'' изменили экспрессию.

== Про задачи ==

Если я все правильно понял, то по сути 1 измерение ~~эксперимента -~~ эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через ~~8 -~~ 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше ~~одного -~~ одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 ~~измерения —~~ измерения — координаты точки на чипе (то есть в матрице), а ~~остальные —~~ остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:* в рамках одной матрицы ~~100~~ 100 % должны быть ~~«выбросы» —~~ «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и ~~убирать —~~ убирать — это получается задача «шумоподавления». Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет? *: Ответ: наврядли, ~~т.к.~~ так как все-таки, экспрессия гена , в чем её не измеряй, не должна выходить за предел 2-3 ~~"сигм"~~ «сигм» (критерием определения выброса) от средней по всем генам. * задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных ~~функций —~~ функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)* что делать с ~~корреляцией —~~ корреляцией — пока не очень ясно. ~~Вопрос —~~ Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо. *: Ответ: в принципе, генов действительно не много, они известны, известно их взаимодействие (на уровне: ген А повышает экспрессию вместе с геном Б (имеют один белок, активирующий их транскрипцию), или повышение экспрессии гена А влечет за собой повышение экспрессии гена Б. Однако, интересно временное разрешение этих процессов.* про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный ~~куб —~~ куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ~~ОСАМ —~~ ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к ~~биологам —~~ биологам — интересны ли подобные задачи про временные зависимости? *: Ответ: безусловно интересны, причем, это и есть основная ~~соль -~~ соль — описание временных профилей экспрессии генов и взаимозависимостей между ними. ~~Normal 0 false false false RU X-NONE X-NONE MicrosoftInternetExplorer4~~

* Еще одна задача от нас (, биологов): берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то ~~"метрика"~~ «метрика» стабильности (коэф.вариации?). Задача важна для нас с целью использования таких генов как негативных контролях. Интересно и то, что можно её ~~"масштабировать"~~«масштабировать»: работать с данными по одной линии или ~~нескольких~~нескольким, менять широту ~~воздействий (~~воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания ~~и т~~и т.д д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов).

== Форматы ==

=== Affymetrix CEL ===

Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно '''одного''' изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами ~~и т~~и т. п п. Каждая точка изображения содержит следующую информацию:

* Яркость (возможно, усреднённая).

* Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).

Заголовок хранится в INI-подобном текстовом виде (key=value), данные ~~изображения —~~ изображения — в бинарном виде после заголовка.

* [http://www.stat.lsa.umich.edu/~kshedden/Courses/Stat545/Notes/AffxFileFormats/cel.html Описание формата Affymetrix CEL].

* [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab.

* [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — — парсер CEL для Perl’а.

=== GPR ===

[http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] — — формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.

=== Семейство MIAME ===

'''[http://www.mged.org/Workgroups/MIAME/miame.html MIAME]''' — — аббревиатура для Minimum Information About a Microarray ~~Experiment —~~ Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.

Конкретные ~~форматы —~~ форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].

==== MGED: MAGE-ML и MAGE-TAB ====

MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят [[rupedia:UML|UML]] и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования ~~и т~~и т. п п.). MAGE-TAB более молодой и простой, текcтовый, взлетит ~~ли —~~ ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы [[rupedia:CSV|CSV]] выбрали, что ~~ли —~~ ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.

==== GEO: SOFT и MINiML ====

Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а ~~минимал —~~ минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.

Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:

* ~~«Platform» —~~ «Platform» — описание эксперимента ([http://www.ncbi.nlm.nih.gov/geo/info/depguide.html#DataTableGPL содержимое описания]).* ~~«Sample» —~~ «Sample» — одна гибридизация.* ~~«Series» —~~ «Series» — данные эксперимента, включающие в себя несколько Sample’ов.

Банк ''Gene Expression Omnibus'', содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами [http://www.sagenet.org/findings/index.html SAGE] (Serial Analysis of Gene Expression), [http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechMPSS.shtml MPSS] (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по [http://www.ncbi.nlm.nih.gov/geo/info/faq.html#kinds ссылке].

Для любой из предположенных выше задач необходимы предобработанные данные, ~~т.е.~~ то есть то, что мы, позаимствовав GEO-терминологию, назвали ~~DataSet'ом~~DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных(ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.

== Ссылки ==

* [http://www.bepress.com/bioconductor/paper7/ Differential Expression with the Bioconductor Project] — — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью [http://www.bioconductor.org/overview/ BioConductor]'а. Очень рекомендуется к прочтению, ибо вменяема.* [[wikipedia:DNA microarray|DNA microarray]] — — статья про ДНК-микрочипы в английской Википедии.

* [http://www.ncbi.nlm.nih.gov/geo/ NCBI Gene Expression Omnibus], банк данных экспрессии генов.

* [http://www.bioconductor.org/overview/ BioConductor], система анализа микробиологических данных на основе системы [http://www.r-project.org/ GNU R].

VitaliyFilippov

Бюрократ, администратор

13 521

правка

Изменения

Изыскания на тему экспрессии генов

YourcmcWiki