Изменения

Перейти к: навигация, поиск

Изыскания на тему экспрессии генов

1 байт добавлено, 22:07, 5 марта 2010
м
Нет описания правки
Таким образом, задача обычно заключается в том, что нужно либо выяснить, какие гены ''не'' изменили экспрессию, либо наоборот — какие гены ''существенно'' изменили экспрессию.
 
== Про задачи ==
 
Если я все правильно понял, то по сути 1 измерение эксперимента- это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8- у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного- тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
* в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
* задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
* что делать с корреляцией — пока не очень ясно. Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
* про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — интересны ли подобные задачи про временные зависимости?
== Форматы ==
* [http://www.chemport.ru/chemical_encyclopedia_article_4451.html ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии]
* По теме экспериментов с гомоцистеином могут быть любопытны наборы данных [http://www.ncbi.nlm.nih.gov/sites/GDSbrowser GDSxxxx] с номерами: 199, 750, 997, 1020, 1841, 1891, 2043, 2054, 2517, 2602, 2640, 2646, 2861.
== Про задачи ==
 
Если я все правильно понял, то по сути 1 измерение эксперимента- это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8- у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного- тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
* в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам- а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
* задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
* что делать с корреляцией — пока не очень ясно. Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
* про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — интересны ли подобные задачи про временные зависимости?
[[Категория:Учёба]]

Навигация