Изменения

Перейти к: навигация, поиск

Изыскания на тему экспрессии генов

4 байта добавлено, 10:53, 16 марта 2010
Про задачи
== Про задачи ==
Если я все правильно понял, то по сути 1 измерение эксперимента — эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — измерения — координаты точки на чипе (то есть в матрице), а остальные — остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:* в рамках одной матрицы 100 100 % должны быть «выбросы» — «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — убирать — это получается задача «шумоподавления». Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
*: Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам.
* задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)* что делать с корреляцией — корреляцией — пока не очень ясно. Вопрос — Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
*: Ответ: в принципе, генов действительно не много, они известны, известно их взаимодействие (на уровне: ген А повышает экспрессию вместе с геном Б (имеют один белок, активирующий их транскрипцию), или повышение экспрессии гена А влечет за собой повышение экспрессии гена Б. Однако, интересно временное разрешение этих процессов.
* про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — биологам — интересны ли подобные задачи про временные зависимости?*: Ответ: безусловно интересны, причем, это и есть основная соль — соль — описание временных профилей экспрессии генов и взаимозависимостей между ними.
* Еще одна задача от нас, биологов: берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?). Задача важна для нас с целью использования таких генов как негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и ти т. дд.)[[Наши задачи]]. Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов).
=== Предварительный вывод ===
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.
[[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — виде — пока что без понятия. Кстати, рекомендую всем прочитать [[Справка:Рекомендации|рекомендации по работе с MediaWiki]], их там чуть-чуть.
== Форматы ==
43
правки

Навигация