Обсуждение:Изыскания на тему экспрессии генов — различия между версиями
м |
м |
||
Строка 1: | Строка 1: | ||
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных. | Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных. | ||
− | [[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — пока что без понятия. Кстати, рекомендую всем прочитать [[Справка:Рекомендации|рекомендации по работе с MediaWiki]], их там чуть-чуть. | + | :[[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — пока что без понятия. Кстати, рекомендую всем прочитать [[Справка:Рекомендации|рекомендации по работе с MediaWiki]], их там чуть-чуть. |
− | Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть: | + | [[Участник:MikhailGorchakov|MikhailGorchakov]] 21:26, 5 марта 2010 (UTC) Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть: |
* в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам - а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет? | * в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам - а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет? | ||
*: Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам. | *: Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам. |
Текущая версия на 20:33, 24 марта 2010
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.
- VitaliyFilippov 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в каком-то виде. В каком виде — пока что без понятия. Кстати, рекомендую всем прочитать рекомендации по работе с MediaWiki, их там чуть-чуть.
MikhailGorchakov 21:26, 5 марта 2010 (UTC) Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
- в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам - а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
- Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам.
- задача удаления из матрицы «фонового шума» (см. выше). Тут, кстати, как раз пригодился бы ОСАМ для двумерных функций — делаем разложение и смотрим, на каком шаге «хвост» станет по распределению близок к нормальному (эту штуку у нас делал Андраник в своем дипломе, правда, для одномерного случая)
- что делать с корреляцией — пока не очень ясно. Вопрос — та задача, которая интересна на данный момент (про гомоцистеин) — она не относится ли к «небольшое количество генов, представляющих интерес для конкретной биологической задачи, с известными взаимодействиями между ними»? Если да, то возможно, и заморачиваться не надо.
- Ответ: в принципе, генов действительно не много, они известны, известно их взаимодействие (на уровне: ген А повышает экспрессию вместе с геном Б (имеют один белок, активирующий их транскрипцию), или повышение экспрессии гена А влечет за собой повышение экспрессии гена Б. Однако, интересно временное разрешение этих процессов.
- про временные зависимости, например, «закончилась экспрессия гена А, и сразу началась экспрессия гена В». Это уже надо смотреть на многомерный куб — там в этом случае просто «подкубики» для данных генов и временных участков должны быть рядом… Или если все-таки вспомнить про ОСАМ — там, наверное, должны быть более сильно выражены коэффициенты при определенных полиномах (например, при 4й степени… но тут очень мутно, надо проверять). Вопрос к биологам — интересны ли подобные задачи про временные зависимости?
- Ответ: безусловно интересны, причем, это и есть основная соль — описание временных профилей экспрессии генов и взаимозависимостей между ними.