Изменения

Нормализация данных экспериментов на микрочипах

384 байта добавлено, 21:35, 2 апреля 2011

м

Нет описания правки

Данные , получаемые в ходе экспериментов на микрочипах , отличаются рядом особенностей , и прежде всего - — большим объемом.

В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию ~~повторов~~ усреднения двух типов [Yang YH, Speed T, 2002]:

~~Биологические –~~ '''Биологическое''' — в исследовании задействуется несколько биологических образцов, например: несколько матрасов с клетками подвергается воздействию, биоптаты берутся от нескольких больных с данной патологией.

~~Технические –~~ '''Техническое''' — выделенный пул мРНК из биообъекта гибридизуется на нескольких микрочипах.

Кроме того, выделяют ~~программнообусловленные повторы~~программно-обусловленное усреднение, когда обработка изображения проводится с помощью разных программных продуктов, построенных на разных алгоритмах [Tuimala J., Laine M.M., 2003]. == Этапы ==

Стандартные этапы обработки данных после сканирования флуоресценции на микрочипе, следующие:

Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].

Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка – — в результате царапин, пылинок на чипе; как систематическая ошибка – — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1% потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA]], [[machinelearning:Дисперсионный анализ]]).

Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:

* Замещение нулём при лог2-трансформированных данных

* Замещение средним значением

* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighboralgorithm|k-nearest neighbor]])* Алгоритм [[machinelearning:Сингулярное разложение|сингулярного разложения ]] (SVD, singular value decomposition)

Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.

Алгоритм к-k ближайших соседей широко применяется при обработке данных в самых разных областях человеческой деятельности и при решении множества задач. В их числе: разработка системы автоматической постановки диагноза, распознавание образов и изображений (напр. рукописного текста), классификации, теория кодирования [Lifshits Y, 2007]. Показано, что среди приведенных выше подходов данный метод наилучшим образом решает задачу подстановки потерянных значений. Он устойчив к увеличению доли потерянных данных, менее требователен, по сравнению с сингулярным разложением, к числу сходных профилей экспрессии. Последний фактор обеспечивает успех в замене потерянных значений для генов с малым количеством схожих профилей экспрессии [Troyanskaya O с соавт. 2001].

== Нормализация данных ==

Нормализация является важным этапом обработка данных экспериментов на микрочипах. Основной целью нормализации является устранение систематических погрешностей при гибридизации, с целью улучшить условия для выявления биологических различий между образцами [Berrar D с соавт., 2003]. Необходимость нормализации была продемонстрирована на примере экспериментов с использованием одного и того же пула кДНК, разделенного на две фракции, меченные разными флуорофорами [Dudoit с соавт. 2002]. При гибридизации на чипе общая интенсивности флуоресценции по разным каналам оказались различными, демонстрируя один из распространенных вариантов систематической ошибки.

Существуют различные подходы к нормализации данных экспериментов на микрочипах, прежде всего, зависящие от источника устраняемой систематической погрешности. Прежде всего, выделяют нормализацию «внутри» и между чипами. Описанный выше пример демонстрирует условия, в которых должна быть применена нормализация первого типа. К такому эффекту (разная общая интенсивность между двумя каналами) могут приводить следующие факторы:

* отклонении от горизонтального положения чипа в сканере

Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии (~~Лоесса~~[[machinelearning:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии ~~Лоесса~~ LOESS [Stekel D, 2003](LOcally wEighted Scatterplot Smoothing).

Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].

Другими источниками «глобальных» систематических различий между прогибридизованными образцами могут быть: различия на этапе подготовки проб, неодинаковая эффективность выделения РНК, амплификации и мечения, неравномерность гибридизации образцов. Внести свой эффект может и процесс изготовления чипа. [Kreil DP, [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=Search&Term=%22Russell%20RR%22%5BAuthor%5D&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_DiscoveryPanel.Pubmed_RVAbstractPlus Russell RR], 2005]

Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.

[[Категория:Биоинформатика]]

← Предыдущая правка

VitaliyFilippov

Бюрократ, администратор

13 521

правка

Изменения

Нормализация данных экспериментов на микрочипах

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

разделы

Инструменты