Нормализация данных экспериментов на микрочипах — различия между версиями

Материал из YourcmcWiki
Перейти к: навигация, поиск
м
м
 
(не показаны 3 промежуточные версии этого же участника)
Строка 1: Строка 1:
Данные, получаемые в ходе экспериментов на микрочипах,. отличаются рядом особенностей, и прежде всего — большим объемом.
+
Данные, получаемые в ходе экспериментов на микрочипах, отличаются рядом особенностей, и прежде всего — большим объемом.
  
 
В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию усреднения двух типов [Yang YH, Speed T, 2002]:
 
В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию усреднения двух типов [Yang YH, Speed T, 2002]:
Строка 29: Строка 29:
 
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
 
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
  
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA|ANOVA]]).
+
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа ([[wikipedia:ANOVA]], [[machinelearning:Дисперсионный анализ]]).
  
 
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
 
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
Строка 37: Строка 37:
 
* Замещение средним значением
 
* Замещение средним значением
 
* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighbor algorithm|k-nearest neighbor]])
 
* Алгоритм к-ближайших соседей (kNN, [[wikipedia:k-nearest neighbor algorithm|k-nearest neighbor]])
* Алгоритм [[mlwiki:Сингулярное разложение|сингулярного разложения]] (SVD, singular value decomposition)
+
* Алгоритм [[machinelearning:Сингулярное разложение|сингулярного разложения]] (SVD, singular value decomposition)
  
 
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
 
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
Строка 58: Строка 58:
 
* отклонении от горизонтального положения чипа в сканере
 
* отклонении от горизонтального положения чипа в сканере
  
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии ([[mlwiki:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).
+
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии ([[machinelearning:Алгоритм LOWESS]], [[wikipedia:Local regression]]) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).
  
 
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
 
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
Строка 66: Строка 66:
 
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.
 
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.
  
[[Категория:Учёба]]
+
[[Категория:Биоинформатика]]

Текущая версия на 00:35, 3 апреля 2011

Данные, получаемые в ходе экспериментов на микрочипах, отличаются рядом особенностей, и прежде всего — большим объемом.

В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию усреднения двух типов [Yang YH, Speed T, 2002]:

Биологическое — в исследовании задействуется несколько биологических образцов, например: несколько матрасов с клетками подвергается воздействию, биоптаты берутся от нескольких больных с данной патологией.

Техническое — выделенный пул мРНК из биообъекта гибридизуется на нескольких микрочипах.

Кроме того, выделяют программно-обусловленное усреднение, когда обработка изображения проводится с помощью разных программных продуктов, построенных на разных алгоритмах [Tuimala J., Laine M.M., 2003].

Этапы

Стандартные этапы обработки данных после сканирования флуоресценции на микрочипе, следующие:

  • предобработка данных (preprocessing)
    • выбор способа представления изменения экспрессии и её вычисление (лог-трансформация, отношение логарифмов сигналов)
    • обработка «потерянных» значений (случаев нулевой или отрицательной, относительно фона, яркости точки)
  • нормализация
    • устранение систематических ошибок
  • непосредственный анализ данных
    • классификация генов
    • кластерный анализ
  • построение выводов

Предобработка данных

В результате сканирования флуоресценции на прогибридизованном микрочипе исследователь получает два (по числу каналов регистрации флуоресценции) файла формата TIFF. По сути своей, данные файлы являются массивом данных об интенсивности в каждом из пикселов (элементарных единиц площади) аналогово изображения чипа. Специализированное программное обеспечение позволяет разделить пикселы, соответствующие точкам нанесения проб, и фоновые пикселов в процессе сегментации [Yang HY с соавт. 2001].

Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].

Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка — в результате царапин, пылинок на чипе; как систематическая ошибка — в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1 % потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа (wikipedia:ANOVA, machinelearning:Дисперсионный анализ).

Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:

  • Исключение из рассмотрения генов, либо экспериментов с потерянными значениями
  • Замещение нулём при лог2-трансформированных данных
  • Замещение средним значением
  • Алгоритм к-ближайших соседей (kNN, k-nearest neighbor)
  • Алгоритм сингулярного разложения (SVD, singular value decomposition)

Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.

Алгоритм k ближайших соседей широко применяется при обработке данных в самых разных областях человеческой деятельности и при решении множества задач. В их числе: разработка системы автоматической постановки диагноза, распознавание образов и изображений (напр. рукописного текста), классификации, теория кодирования [Lifshits Y, 2007]. Показано, что среди приведенных выше подходов данный метод наилучшим образом решает задачу подстановки потерянных значений. Он устойчив к увеличению доли потерянных данных, менее требователен, по сравнению с сингулярным разложением, к числу сходных профилей экспрессии. Последний фактор обеспечивает успех в замене потерянных значений для генов с малым количеством схожих профилей экспрессии [Troyanskaya O с соавт. 2001].

Нормализация данных

Нормализация является важным этапом обработка данных экспериментов на микрочипах. Основной целью нормализации является устранение систематических погрешностей при гибридизации, с целью улучшить условия для выявления биологических различий между образцами [Berrar D с соавт., 2003]. Необходимость нормализации была продемонстрирована на примере экспериментов с использованием одного и того же пула кДНК, разделенного на две фракции, меченные разными флуорофорами [Dudoit с соавт. 2002]. При гибридизации на чипе общая интенсивности флуоресценции по разным каналам оказались различными, демонстрируя один из распространенных вариантов систематической ошибки.

Существуют различные подходы к нормализации данных экспериментов на микрочипах, прежде всего, зависящие от источника устраняемой систематической погрешности. Прежде всего, выделяют нормализацию «внутри» и между чипами. Описанный выше пример демонстрирует условия, в которых должна быть применена нормализация первого типа. К такому эффекту (разная общая интенсивность между двумя каналами) могут приводить следующие факторы:

  • различное включение флуоресцентных красителей при мечении образцов
  • различная интенсивность испускания в ответ на возбуждение источником света в сканере
  • различия в измерении сигнала по двум каналам в детектирующем устройстве для разных интенсивностей

Более того, неравномерность общей флуоресценции может проявляться не только между каналами, но и иметь распределение по площади чипа. Такой эффект возможен при:

  • неравномерном распределении гибридизационного раствора по площади чипа
  • отклонении от горизонтального положения чипа в сканере

Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии (machinelearning:Алгоритм LOWESS, wikipedia:Local regression) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии LOESS [Stekel D, 2003] (LOcally wEighted Scatterplot Smoothing).

Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].

Другими источниками «глобальных» систематических различий между прогибридизованными образцами могут быть: различия на этапе подготовки проб, неодинаковая эффективность выделения РНК, амплификации и мечения, неравномерность гибридизации образцов. Внести свой эффект может и процесс изготовления чипа. [Kreil DP, Russell RR, 2005]

Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.