Изменения

Изыскания на тему экспрессии генов

11 байтов убрано, 18:34, 12 марта 2010
м
Нет описания правки
* Еще одна задача от нас, биологов: берем группу экспериментов на клеточных линиях с разными воздействиями, проводим предобработку (переход от DataSeries к DataSet), далее, ищем гены, минимально меняющие свою экспрессиию. Нужна какая-то «метрика» стабильности (коэф.вариации?). Задача важна для нас с целью использования таких генов как негативных контролях. Интересно и то, что можно её «масштабировать»: работать с данными по одной линии или нескольким, менять широту воздействий — только гомоцистеин, гомоцистеин+другие агенты-индукторы стресса ЭР, предыдущие + другие виды стресса (тепловой, недостаток компонентов питания и т. д.). Важно и то, что результаты мы можем относительно легко проверить лабораторными методами (для 3-5 наиболее стабильных генов).
 
=== Предварительный вывод ===
 
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.
 
[[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — пока что без понятия.
== Форматы ==
Банк ''Gene Expression Omnibus'', содержит в основном сырые данные, полученные обычно либо с тех или иных микрочипов, либо методами [http://www.sagenet.org/findings/index.html SAGE] (Serial Analysis of Gene Expression), [http://www.ncbi.nlm.nih.gov/projects/genome/probe/doc/TechMPSS.shtml MPSS] (Massively Parallel Signature Sequencing). Иногда попадаются обработанные заданным алгоритмом данные, и всегда присутствует пометка, каким именно алгоритмом. Полный список типов данных, принимаемых в GEO, можно увидеть по [http://www.ncbi.nlm.nih.gov/geo/info/faq.html#kinds ссылке].
 
== Предварительный вывод-задача ==
 
Для любой из предположенных выше задач необходимы предобработанные данные, то есть то, что мы, позаимствовав GEO-терминологию, назвали DataSet’ом. Я предполагаю следующие действия: критически оценив имеющиеся подходы к предобработке данных (ссылки на книги высылаю по почте), расписать процесс перехода от DataSeries к DataSet (это, по-моему, наиболее важно). На основе этого реализовать некий модуль, который бы из таблиц сырых данных давал нам сравнимые между экспериментами данные по каждому гену. Не исключаю, что нас вполне могло бы устроить то, что реализовано, например, в Bioconductor; но все же необходима ревизия того, какие именно методы корректны для обработки таких данных.
 
[[Участник:VitaliyFilippov|VitaliyFilippov]] 18:31, 12 марта 2010 (UTC) Хотелось бы внести ясность. В терминологии GEO «DataSet» — не что иное, как просто набор данных. Нет у них никакого общепринятого понятия о предобработке и том, какие результаты она должна давать. Есть ли у вас какие-то понятия о «предобработке»? У меня нет никаких, кроме робкого предположения о том, что это, наверное, сравнительная эксперессия генов в ''каком-то'' виде. В ''каком'' виде — пока что без понятия.
== Ссылки ==