Изыскания на тему экспрессии генов — различия между версиями

Материал из YourcmcWiki
Перейти к: навигация, поиск
(Новая страница: «'''Экспрессия генов''' — процесс, в котором наследственная информация от гена (последовате...»)
 
м (Семейство MIAME)
Строка 27: Строка 27:
 
'''[http://www.mged.org/Workgroups/MIAME/miame.html MIAME]''' — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
 
'''[http://www.mged.org/Workgroups/MIAME/miame.html MIAME]''' — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.
  
Конкретные форматы включают в себя: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT] и [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML] ([http://www.ncbi.nlm.nih.gov/geo/ GEO]'вские), [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML] и [http://www.mged.org/mage-tab/ MAGE-TAB] ([http://www.mged.org/ MGED]'шные).
+
Конкретные форматы — это 2 [http://www.ncbi.nlm.nih.gov/geo/ GEO]'вских: [http://www.ncbi.nlm.nih.gov/geo/info/soft2.html SOFT], [http://www.ncbi.nlm.nih.gov/geo/info/MINiML.html MINiML], и 2 [http://www.mged.org/ MGED]'шных: [http://www.mged.org/Workgroups/MAGE/mage-ml.html MAGE-ML], [http://www.mged.org/mage-tab/ MAGE-TAB].
  
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки (DTD 150кб весит, для сравнения HTML strict 35кб). MAGE-TAB более молодой и простой, взлетит ли — посмотрим.
+
MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, тесктовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами (хоть бы [[rupedia:CSV|CSV]] выбрали, что ли - зачем велосипед). Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.
  
 
Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.
 
Банк данных [http://www.ncbi.nlm.nih.gov/geo/ Gene Expression Omnibus] использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «м'''и'''нимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.

Версия 03:12, 5 марта 2010

Экспрессия генов — процесс, в котором наследственная информация от гена (последовательности нуклеотидов ДНК) преобразуется в функциональный продукт — РНК или белок.

Первая, самая простая (хотя вообще-то, не очень простая), задача анализа экспрессии генов — выявление изменений экспрессии, связанных с конкретными условиями.

Форматы

Ниже описаны некоторые общеизвестные форматы для хранения и обмена данными экспрессии генов.

Affymetrix CEL

Простой формат хранения низкоуровневых данных, а именно, изображения с ДНК-микрочипа. Ровно одного изображения. Состоит из заголовка и самого изображения. Заголовок содержит информацию о размерах, каким алгоритмом обработано, с какими параметрами и т. п. Каждая точка изображения содержит следующую информацию:

  • Яркость (возможно, усреднённая).
  • СКО яркости.
  • Количество пикселей, из которых получена усреднённая яркость.
  • Некий пользовательский флаг (точка «маскирована» или нет).
  • Флаг «является ли данная точка выбросом» (установленный алгоритмом обработки).

Заголовок хранится в INI-подобном текстовом виде (key=value), данные изображения — в бинарном виде после заголовка.

Семейство MIAME

MIAME — аббревиатура для Minimum Information About a Microarray Experiment — «минимум информации об эксперименте на микрочипе». MIAME не является конкретным форматом, а лишь описывает, какую информацию должен включать уважающий себя эксперимент и, соответственно, уважающий себя формат, в котором передаются данные этого эксперимента.

Конкретные форматы — это 2 GEO'вских: SOFT, MINiML, и 2 MGED'шных: MAGE-ML, MAGE-TAB.

MAGE-ML «не взлетел», ибо монструозен и на «минимум информации» претендовать может разве в качестве издёвки. Причина этого кроется в том, что авторы его сильно любят UML и объектную ориентированность, что и привело к существованию 25 различных сущностей, связанных друг с другом различными отношениями (наследования и т. п.). MAGE-TAB более молодой и простой, тесктовый, взлетит ли — посмотрим, но есть подозрение, что тоже вряд ли, ибо содержит все те же данные, что и MAGE-ML (в конечном счёте всё маппится на объектный MAGE-OM), но в виде plaintext таблиц, форматированных Tab’ами (хоть бы CSV выбрали, что ли - зачем велосипед). Масла в огонь подливает и то, что различные MAGE-TAB файлы могут выглядеть совершенно по-разному в зависимости от данных, которые содержат.

Банк данных Gene Expression Omnibus использует свои форматы (правильно, они же не мазохисты) — SOFT и MINiML (второй произносится «минимал»). SOFT текстовый, а минимал — XML’ный. Данные при этом они содержат, по сути, одни и те же.

Минимал, как ни странно, действительно минимал, всё его описание влезает в несколько экранов. MINiML включает в себя всего три базовых типа объектов:

  • «Platform» — описание эксперимента (содержимое описания).
  • «Sample» — одна гибридизация.
  • «Series» — данные эксперимента, включающие в себя несколько Sample’ов.

Ссылки