Изменения

Обсуждение:Изыскания на тему экспрессии генов

87 байтов добавлено, 17:33, 24 марта 2010
м
Нет описания правки
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.
:[[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — пока что без понятия. Кстати, рекомендую всем прочитать [[Справка:Рекомендации|рекомендации по работе с MediaWiki]], их там чуть-чуть.
[[Участник:MikhailGorchakov|MikhailGorchakov]] 21:26, 5 марта 2010 (UTC) Если я все правильно понял, то по сути 1 измерение эксперимента — это сочетание набора параметров эксперимента с их значениями (в заголовке CEL файла) с матрицей «яркости» (вот те самые загадочные символы после заголовка). Соответственно, если мы хотим, скажем, сравнить экспрессию через 1 час и через 8 — у нас будут 2 CEL файла, которые будут отличаться только значением параметра «время» и, разумеется, матрицами (а в GEO-данных это будет просто 1 серия с несколькими сэмплами). Далее, изменяемых параметров может быть сильно больше одного — тогда у нас из нескольких файлов можно построить некий n-мерный куб/параллелипипед, где из этих n 2 измерения — координаты точки на чипе (то есть в матрице), а остальные — значения параметров эксперимента для каждой матрицы (ну то есть если, скажем, у нас 5 измерений по времени и 3 по силе проверяемого воздействия при матрице 200*200 точек, то получатся данные 3*5*200*200). Что тут можно нарыть:
* в рамках одной матрицы 100 % должны быть «выбросы» — то есть отдельные точки, которые не укладываются в общую картину эксперимента. Можно их находить и убирать — это получается задача «шумоподавления». Вопрос к биологам - а если во всех результатах эксперимента одни и те же точки являются выбросами, это представляет собой какой-то интерес или нет?
*: Ответ: наврядли, так как все-таки, экспрессия гена, в чем её не измеряй, не должна выходить за предел 2-3 «сигм» (критерием определения выброса) от средней по всем генам.