Изменения

Перейти к: навигация, поиск

Нормализация данных экспериментов на микрочипах

384 байта добавлено, 21:35, 2 апреля 2011
м
Нет описания правки
Данные , получаемые в ходе экспериментов на микрочипах , отличаются рядом особенностей , и прежде всего - большим объемом.
В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию повторов усреднения двух типов [Yang YH, Speed T, 2002]:
Биологические – '''Биологическое''' — в исследовании задействуется несколько биологических образцов, например: несколько матрасов с клетками подвергается воздействию, биоптаты берутся от нескольких больных с данной патологией.
Технические – '''Техническое''' — выделенный пул мРНК из биообъекта гибридизуется на нескольких микрочипах.
Кроме того, выделяют программнообусловленные повторыпрограммно-обусловленное усреднение, когда обработка изображения проводится с помощью разных программных продуктов, построенных на разных алгоритмах [Tuimala J., Laine M.M., 2003].  == Этапы ==
Стандартные этапы обработки данных после сканирования флуоресценции на микрочипе, следующие:
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка в результате царапин, пылинок на чипе; как систематическая ошибка в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1% потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA]], [[machinelearning:Дисперсионный анализ]]).
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
* Замещение нулём при лог2-трансформированных данных
* Замещение средним значением
* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighboralgorithm|k-nearest neighbor]])* Алгоритм [[machinelearning:Сингулярное разложение|сингулярного разложения ]] (SVD, singular value decomposition)
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
Алгоритм к-k ближайших соседей широко применяется при обработке данных в самых разных областях человеческой деятельности и при решении множества задач. В их числе: разработка системы автоматической постановки диагноза, распознавание образов и изображений (напр. рукописного текста), классификации, теория кодирования [Lifshits Y, 2007]. Показано, что среди приведенных выше подходов данный метод наилучшим образом решает задачу подстановки потерянных значений. Он устойчив к увеличению доли потерянных данных, менее требователен, по сравнению с сингулярным разложением, к числу сходных профилей экспрессии. Последний фактор обеспечивает успех в замене потерянных значений для генов с малым количеством схожих профилей экспрессии [Troyanskaya O с соавт. 2001].
== Нормализация данных ==
Нормализация является важным этапом обработка данных экспериментов на микрочипах. Основной целью нормализации является устранение систематических погрешностей при гибридизации, с целью улучшить условия для выявления биологических различий между образцами [Berrar D с соавт., 2003]. Необходимость нормализации была продемонстрирована на примере экспериментов с использованием одного и того же пула кДНК, разделенного на две фракции, меченные разными флуорофорами [Dudoit с соавт. 2002]. При гибридизации на чипе общая интенсивности флуоресценции по разным каналам оказались различными, демонстрируя один из распространенных вариантов систематической ошибки.
Существуют различные подходы к нормализации данных экспериментов на микрочипах, прежде всего, зависящие от источника устраняемой систематической погрешности. Прежде всего, выделяют нормализацию «внутри» и между чипами. Описанный выше пример демонстрирует условия, в которых должна быть применена нормализация первого типа. К такому эффекту (разная общая интенсивность между двумя каналами) могут приводить следующие факторы:
* отклонении от горизонтального положения чипа в сканере
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии (Лоесса[[machinelearning:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии Лоесса LOESS [Stekel D, 2003](LOcally wEighted Scatterplot Smoothing).
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
Другими источниками «глобальных» систематических различий между прогибридизованными образцами могут быть: различия на этапе подготовки проб, неодинаковая эффективность выделения РНК, амплификации и мечения, неравномерность гибридизации образцов. Внести свой эффект может и процесс изготовления чипа. [Kreil DP, [http://www.ncbi.nlm.nih.gov/sites/entrez?Db=pubmed&Cmd=Search&Term=%22Russell%20RR%22%5BAuthor%5D&itool=EntrezSystem2.PEntrez.Pubmed.Pubmed_ResultsPanel.Pubmed_DiscoveryPanel.Pubmed_RVAbstractPlus Russell RR], 2005]
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.
 
[[Категория:Биоинформатика]]

Навигация