Изменения

Поиск повторов в ДНК на основе ОСАМ

3 байта добавлено, 21:29, 28 августа 2009
Нет описания правки
В данной работе предлагается алгоритм поиска длинных разнесенных повторов. Лежащий в основе алгоритма обобщенный Или '''«Применение обобщенного спектрально-аналитический метод, позволяет значительно ускорить процесс анализа последовательности за счет применения средств распаллеливания и векторизации. Также предлагается матрица спектральной гомологии генетических последовательностей. Близкая к точечной матрице гомологии, она предоставляет более быстрый инструмент для сравнительного аналитического метода в задаче анализа и визуализации внутренней структуры больших отрезков геномов (порядка 10e6 нуклеотидов), их тандемных и разнесенных повторовбиологических данных»'''.
== План презентации ==В данной работе предлагается алгоритм поиска длинных разнесенных повторов. Лежащий в основе алгоритма обобщенный спектрально-аналитический метод, позволяет значительно ускорить процесс анализа последовательности за счет применения средств распаллеливания и векторизации. Также предлагается матрица спектральной гомологии генетических последовательностей. Близкая к точечной матрице гомологии, она предоставляет более быстрый инструмент для сравнительного анализа и визуализации внутренней структуры больших отрезков геномов (порядка 10e6 нуклеотидов), их тандемных и разнесенных повторов.
<big>'''Применение обобщенного спектрально-аналитического метода в задаче анализа биологических данных'''</big>== План презентации ==
Ключевая задача анализа геномных последовательностей: поиск повторов. Прямых, обратных, симметричных. Что есть геномная последовательность? По сути, длинная строка в алфавите A, T, G, C (аденин, тимин, гуанин, цитозин, привет, биология, 10-й класс). T и C близки, это «пиримидины». G и A тоже близки, это «пурины». Методов куча, но есть и Проблема: последовательности очень длинные, анализ долгий. Если искать точные повторы, ещё более-менее, но как только переходим к поиску неточных повторов, всё сразу сильно замедляется. По поводу «обычных» методов — например, можно посмотреть программу UniPro DPView — творение неких Новосибирских коллег. Ещё есть довольно адские проекты BioPerl, BioPython — большие сборники всяких методов и библиотек по поводу биологических задач, в частности, и методов поиска повторов, на скриптовых языках.
</tab>
Для реализации программы поиска повторов с помощью ОСАМ был выбран язык C++. Такой выбор обусловлен сущностью процесса разложения функций, позволяющей с помощью объектно-ориентированного подхода разделить функционал на общий и зависящий от конкретного ортогонального базиса. Общий функционал - функционал — это функции подсчёта весовых коэффициентов, подсчёта интеграла на сетке Гаусса, подсчёта матрицы Грама заданного базиса, нормирования заданного базиса, интерполяции сигнала на заданную сетку, и воссоздания изначального сигнала по коэффициентам разложения. К базисо-зависимому функционалу относятся функции подсчёта сетки, весовых коэффициентов, и самих значений функции. Также такой подход, кроме всего прочего, даёт возможность оптимизировать части функционала отдельно.
[[Категория:Учёба]]