Нормализация данных экспериментов на микрочипах — различия между версиями

м
м
 
(не показана одна промежуточная версия этого же участника)
Строка 29: Строка 29:
 
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
 
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
  
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA]], [[mlwiki:Дисперсионный анализ]]).
+
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA]], [[machinelearning:Дисперсионный анализ]]).
  
 
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
 
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
Строка 37: Строка 37:
 
* Замещение средним значением
 
* Замещение средним значением
 
* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighbor algorithm|k-nearest neighbor]])
 
* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighbor algorithm|k-nearest neighbor]])
* Алгоритм [[mlwiki:Сингулярное разложение|сингулярного разложения]] (SVD, singular value decomposition)
+
* Алгоритм [[machinelearning:Сингулярное разложение|сингулярного разложения]] (SVD, singular value decomposition)
  
 
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
 
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
Строка 58: Строка 58:
 
* отклонении от горизонтального положения чипа в сканере
 
* отклонении от горизонтального положения чипа в сканере
  
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии ([[mlwiki:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).
+
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии ([[machinelearning:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).
  
 
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
 
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
Строка 66: Строка 66:
 
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.
 
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.
  
[[Категория:Учёба]]
+
[[Категория:Биоинформатика]]

Do you want to try some new features? By joining the beta, you will get access to experimental features, at the risk of encountering bugs and issues.

Ок Нет, спасибо

Текущая версия на 00:35, 3 апреля 2011

Данные, получаемые в ходе экспериментов на микрочипах, отличаются рядом особенностей, и прежде всего — большим объемом.

В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию усреднения двух типов [Yang YH, Speed T, 2002]:

Биологическое — в исследовании задействуется несколько биологических образцов, например: несколько матрасов с клетками подвергается воздействию, биоптаты берутся от нескольких больных с данной патологией.

Техническое — выделенный пул мРНК из биообъекта гибридизуется на нескольких микрочипах.

Кроме того, выделяют программно-обусловленное усреднение, когда обработка изображения проводится с помощью разных программных продуктов, построенных на разных алгоритмах [Tuimala J., Laine M.M., 2003].

Этапы

Стандартные этапы обработки данных после сканирования флуоресценции на микрочипе, следующие:

  • предобработка данных (preprocessing)
    • выбор способа представления изменения экспрессии и её вычисление (лог-трансформация, отношение логарифмов сигналов)
    • обработка «потерянных» значений (случаев нулевой или отрицательной, относительно фона, яркости точки)
  • нормализация
    • устранение систематических ошибок
  • непосредственный анализ данных
    • классификация генов
    • кластерный анализ
  • построение выводов

Предобработка данных

В результате сканирования флуоресценции на прогибридизованном микрочипе исследователь получает два (по числу каналов регистрации флуоресценции) файла формата TIFF. По сути своей, данные файлы являются массивом данных об интенсивности в каждом из пикселов (элементарных единиц площади) аналогово изображения чипа. Специализированное программное обеспечение позволяет разделить пикселы, соответствующие точкам нанесения проб, и фоновые пикселов в процессе сегментации [Yang HY с соавт. 2001].

Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].

Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа (wikipedia:ANOVA, machinelearning:Дисперсионный анализ).

Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:

  • Исключение из рассмотрения генов, либо экспериментов с потерянными значениями
  • Замещение нулём при лог2-трансформированных данных
  • Замещение средним значением
  • Алгоритм к-ближайших соседей (kNN, k-nearest neighbor)
  • Алгоритм сингулярного разложения (SVD, singular value decomposition)

Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.

Алгоритм k ближайших соседей широко применяется при обработке данных в самых разных областях человеческой деятельности и при решении множества задач. В их числе: разработка системы автоматической постановки диагноза, распознавание образов и изображений (напр. рукописного текста), классификации, теория кодирования [Lifshits Y, 2007]. Показано, что среди приведенных выше подходов данный метод наилучшим образом решает задачу подстановки потерянных значений. Он устойчив к увеличению доли потерянных данных, менее требователен, по сравнению с сингулярным разложением, к числу сходных профилей экспрессии. Последний фактор обеспечивает успех в замене потерянных значений для генов с малым количеством схожих профилей экспрессии [Troyanskaya O с соавт. 2001].

Нормализация данных

Нормализация является важным этапом обработка данных экспериментов на микрочипах. Основной целью нормализации является устранение систематических погрешностей при гибридизации, с целью улучшить условия для выявления биологических различий между образцами [Berrar D с соавт., 2003]. Необходимость нормализации была продемонстрирована на примере экспериментов с использованием одного и того же пула кДНК, разделенного на две фракции, меченные разными флуорофорами [Dudoit с соавт. 2002]. При гибридизации на чипе общая интенсивности флуоресценции по разным каналам оказались различными, демонстрируя один из распространенных вариантов систематической ошибки.

Существуют различные подходы к нормализации данных экспериментов на микрочипах, прежде всего, зависящие от источника устраняемой систематической погрешности. Прежде всего, выделяют нормализацию «внутри» и между чипами. Описанный выше пример демонстрирует условия, в которых должна быть применена нормализация первого типа. К такому эффекту (разная общая интенсивность между двумя каналами) могут приводить следующие факторы:

  • различное включение флуоресцентных красителей при мечении образцов
  • различная интенсивность испускания в ответ на возбуждение источником света в сканере
  • различия в измерении сигнала по двум каналам в детектирующем устройстве для разных интенсивностей

Более того, неравномерность общей флуоресценции может проявляться не только между каналами, но и иметь распределение по площади чипа. Такой эффект возможен при:

  • неравномерном распределении гибридизационного раствора по площади чипа
  • отклонении от горизонтального положения чипа в сканере

Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии (machinelearning:Алгоритм LOWESS, wikipedia:Local regression) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).

Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].

Другими источниками «глобальных» систематических различий между прогибридизованными образцами могут быть: различия на этапе подготовки проб, неодинаковая эффективность выделения РНК, амплификации и мечения, неравномерность гибридизации образцов. Внести свой эффект может и процесс изготовления чипа. [Kreil DP, Russell RR, 2005]

Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.