Нормализация данных экспериментов на микрочипах
Данные получаемые в ходе экспериментов на микрочипах отличаются рядом особенностей и прежде всего - большим объемом.
В силу большого количества этапов и множества факторов, проявляющихся в микрочиповом эксперименте, единичные опыты на микрочипах не могут приносить удовлетворительных результатов. С целью повышения достоверности получаемых данных при планировании эксперимента большое внимание уделяется созданию повторов двух типов [Yang YH, Speed T, 2002]:
Биологические – в исследовании задействуется несколько биологических образцов, например: несколько матрасов с клетками подвергается воздействию, биоптаты берутся от нескольких больных с данной патологией.
Технические – выделенный пул мРНК из биообъекта гибридизуется на нескольких микрочипах.
Кроме того, выделяют программнообусловленные повторы, когда обработка изображения проводится с помощью разных программных продуктов, построенных на разных алгоритмах [Tuimala J., Laine M.M., 2003].
Стандартные этапы обработки данных после сканирования флуоресценции на микрочипе, следующие:
- предобработка данных (preprocessing)
- выбор способа представления изменения экспрессии и её вычисление (лог-трансформация, отношение логарифмов сигналов)
- обработка «потерянных» значений (случаев нулевой или отрицательной, относительно фона, яркости точки)
- нормализация
- устранение систематических ошибок
- непосредственный анализ данных
- классификация генов
- кластерный анализ
- построение выводов
Предобработка данных
В результате сканирования флуоресценции на прогибридизованном микрочипе исследователь получает два (по числу каналов регистрации флуоресценции) файла формата TIFF. По сути своей, данные файлы являются массивом данных об интенсивности в каждом из пикселов (элементарных единиц площади) аналогово изображения чипа. Специализированное программное обеспечение позволяет разделить пикселы, соответствующие точкам нанесения проб, и фоновые пикселов в процессе сегментации [Yang HY с соавт. 2001].
Операцией, с которой начинается обработка данных в большинстве случаев, является логарифмирование данных по основанию 2. Она показана, по крайней мере, для экспериментов с двухцветовой гибридизацией на одном чипе [Sebastiani P с соавт., 2003]. Помимо частичного устранения скошенности, свойственных для данных об интенсивности флуоресценции на чипе, это преобразование удобно в использовании. Разность логарифмов интенсивностей при различии самой интенсивности по двум каналам в два раза будет равна 1 или 0,5 [Tuimala J., Laine M.M., 2003].
Задачей, собственно, предобработки данных, является приведение их к виду, пригодному для дальнейшего анализа. Одной из наиболее важных задач данного этапа является обработка потерянных значений. Потеря значения для точки на микрочипе может возникнуть в результате различных причин: как случайная ошибка – в результате царапин, пылинок на чипе; как систематическая ошибка – в результате технической неисправности при производстве чипа [Troyanskaya O с соавт. 2001]. Кроме того, распространенным является исключение из рассмотрения точек, чья интенсивность не превосходит определенного уровня, например 1,4 интенсивности фона [Sebastiani P с соавт., 2003]. Значимость таких потерь для последующего анализа весьма велика. Так, показано, что при искусственном введении в профили экспрессии 1% потерянных значений при последующем кластерном анализе многие гены меняют свои положения в кластерах относительно друг друга [de Brevern с соавт., 2004]. То есть, нарушается структура групп генов, имеющих сходные профили экспрессии. В другом исследовании [Scheel I с соавт., 2005] авторы указывают на значимость потерянных значений для выделения генов с различной экспрессией методом дисперсионного анализа (ANOVA).
Существует ряд подходов для работы с потерянными значениями. Помимо повторения неудачных гибридизаций, наиболее распространены следующие подходы:
- Исключение из рассмотрения генов, либо экспериментов с потерянными значениями
- Замещение нулём при лог2-трансформированных данных
- Замещение средним значением
- Алгоритм к-ближайших соседей (k-nearest neighbor)
- Алгоритм сингулярного разложения (singular value decomposition)
Первый вариант, очевидно, обедняет экспериментальные данные, особенно при невозможности восполнить пробел повторным экспериментом. Успешность применения второго и третьего подходов снижается с ростом доли потерянных значений.
Алгоритм к-ближайших соседей широко применяется при обработке данных в самых разных областях человеческой деятельности и при решении множества задач. В их числе: разработка системы автоматической постановки диагноза, распознавание образов и изображений (напр. рукописного текста), классификации, теория кодирования [Lifshits Y, 2007]. Показано, что среди приведенных выше подходов данный метод наилучшим образом решает задачу подстановки потерянных значений. Он устойчив к увеличению доли потерянных данных, менее требователен, по сравнению с сингулярным разложением, к числу сходных профилей экспрессии. Последний фактор обеспечивает успех в замене потерянных значений для генов с малым количеством схожих профилей экспрессии [Troyanskaya O с соавт. 2001].
Нормализация данных
Нормализация является важным этапом обработка данных экспериментов на микрочипах. Основной целью нормализации является устранение систематических погрешностей при гибридизации, с целью улучшить условия для выявления биологических различий между образцами [Berrar D с соавт., 2003]. Необходимость нормализации была продемонстрирована на примере экспериментов с использованием одного и того же пула кДНК, разделенного на две фракции, меченные разными флуорофорами [Dudoit с соавт. 2002]. При гибридизации на чипе общая интенсивности флуоресценции по разным каналам оказались различными, демонстрируя один из распространенных вариантов систематической ошибки.
Существуют различные подходы к нормализации данных экспериментов на микрочипах, прежде всего, зависящие от источника устраняемой систематической погрешности. Прежде всего, выделяют нормализацию «внутри» и между чипами. Описанный выше пример демонстрирует условия, в которых должна быть применена нормализация первого типа. К такому эффекту (разная общая интенсивность между двумя каналами) могут приводить следующие факторы:
- различное включение флуоресцентных красителей при мечении образцов
- различная интенсивность испускания в ответ на возбуждение источником света в сканере
- различия в измерении сигнала по двум каналам в детектирующем устройстве для разных интенсивностей
Более того, неравномерность общей флуоресценции может проявляться не только между каналами, но и иметь распределение по площади чипа. Такой эффект возможен при:
- неравномерном распределении гибридизационного раствора по площади чипа
- отклонении от горизонтального положения чипа в сканере
Для коррекции первой группы эффектов применяют следующие методы: линейной регрессии одного канала относительно другого, линейной регрессии логарифма отношения относительно средней интенсивности, нелинейной регрессии (Лоесса) логарифма отношения относительно средней интенсивности. Пространственные эффекты корректируются с помощью методов двумерной регрессии Лоесса [Stekel D, 2003].
Следует отметить, что данные подходы предполагают применение на данных, полученных с помощью микрочипов большой плотности. Кроме того, априори предполагается, что экспрессия большого числа генов не меняется в ходе опытов. В связи с данным допущением, данные методы не могут быть применены в случае использования «фокусированных» микрочипов с ограниченным числом представленных генов [Jaeger J, Spang R, 2006].
Другими источниками «глобальных» систематических различий между прогибридизованными образцами могут быть: различия на этапе подготовки проб, неодинаковая эффективность выделения РНК, амплификации и мечения, неравномерность гибридизации образцов. Внести свой эффект может и процесс изготовления чипа. [Kreil DP, Russell RR, 2005]
Необходимость сравнения данных различных гибридизаций диктует требования к шкалированию данных об экспрессии. Так же, как и в случае ПЦР в реальном времени одним из вариантов нормализации является использование генов-контролей, со стабильным уровнем экспрессии по образцам.