Изыскания на тему экспрессии генов — различия между версиями
м (→Семейство MIAME) |
(→GPR) |
||
Строка 22: | Строка 22: | ||
* [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab. | * [http://www.mathworks.com/access/helpdesk/help/toolbox/bioinfo/ref/celintensityread.html celintensityread], функция чтения CEL в Matlab. | ||
* [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а. | * [http://doc.bioperl.org/releases/bioperl-current/bioperl-microarray/Bio/Expression/MicroarrayIO/affymetrix.html Bio::Expression::MicroarrayIO::affymetrix] — парсер CEL для Perl’а. | ||
+ | |||
+ | === GPR === | ||
+ | |||
+ | [http://www.moleculardevices.com/pages/software/gn_genepix_file_formats.html#gpr GPR] - формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой. | ||
=== Семейство MIAME === | === Семейство MIAME === |
Версия 03:23, 5 марта 2010
Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.
Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями.
Форматы
Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.
Affymetrix CEL
Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:
- Яркость (возможно, усреднённая).
- СКО яркости.
- Количество пикселей, из которых получена усреднённая яркость.
- Некий пользовательский флаг (точка «маскирована» или нет).
- Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).
Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.
- Описание формата Affymetrix CEL.
- celintensityread, функция чтения CEL в Matlab.
- Bio::Expression::MicroarrayIO::affymetrix — парсер CEL для Perl’а.
GPR
GPR - формат хранения низкоуровневых данных, производимый сканером GenePix. По содержимому похож на CEL, бинарных данных не содержит (полностью текстовый), также довольно простой.
Семейство MIAME
MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, тесктовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами. Хоть бы CSV выбрали, что ли — чего велосипед изобретать. Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:
- «Platform» — описание эксперимента (содержимое описания).
- «Sample» — одна гибридизация.
- «Series» — данные эксперимента, включающие в себя несколько Sample’ов.
Ссылки
- Differential Expression with the Bioconductor Project — статья о задаче выявления изменений экспрессии, возможных подходах к ней и их реализации с помощью BioConductor'а. Очень рекомендуется к прочтению, ибо вменяема.
- DNA microarray — статья про ДНК-микрочипы в английской Википедии.
- NCBI Gene Expression Omnibus, банк данных экспрессии генов.
- BioConductor, система анализа микробиологических данных.
- ЭКСПРЕССИЯ ГЕНА: статья из Химической энциклопедии