Обсуждение:Изыскания на тему экспрессии генов — различия между версиями
м (Новая страница: «Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора пар...») |
(нет различий)
|
Версия 20:21, 24 марта 2010
Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
- в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам - а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
- Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам.
- задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
- что делать с корреляцией — пока не очень ясно. Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
- Ответ: в принципе, генов действительно не много, они известны, известно их взаимодействие (на уровне: ген А повышает экспрессию вместе с геном Б (имеют один белок, активирующий их транскрипцию), или повышение экспрессии гена А влечет за собой повышение экспрессии гена Б. Однако, интересно временное разрешение этих процессов.
- про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — интересны ли подобные задачи про временные зависимости?
- Ответ: безусловно интересны, причем, это и есть основная соль — описание временных профилей экспрессии генов и взаимозависимостей между ними.