Distributed Computing team of Ukraine | Ukraine - Українська Команда Розподілених Обчислень | Ukraine - Украинская Команда Распределённых Вычислений | Описи проектів | Help Conquer Cancer

Distributed Computing team of Ukraine | Ukraine - Українська Команда Розподілених Обчислень | Ukraine - Украинская Команда Распределённых Вычислений - Описи проектів

https://distributed.org.ua/index.php?go=Pages&in=view&id=164
Help Conquer Cancer - результаты проекта, январь 2008

Update – January 2008 
                        
                                    
 
Уважаемые участники проекта Help Conquer Cancer в рамках проекта World Community Grid! 
Благодарим вас за поддержку проекта и пожертвование ваших компьютерных ресурсов
для борьбы с этой комплексной проблемой. Отдельно благодарим участников украинской национальной 
команды Ukraine!

Обработка изображений

Хотя нам нужно обработать более 84000000 изображений, мы сфокусировались на начальном наборе 
из 85261 изображений, полученных в результате обработки 9400 протеинов, сканированных в 
auptman Woodward Medical Research Institute (HWI) с помощью высокоскоростных сканнеров, 
на которых используются роботы для обработки каждого протеина в 1536-и состояниях. Каждый 
эксперимент проведен на подложке с 1536 ячейками, которая изображена на рисунке 2.



Этот первоначальный и высокоприоритетный набор изображений содержит в себе широкий спектр 
возможных результатов, и он был дополнительно исследован экспертами из HWI. WCG уже обработала 
характерные особенности всех этих изображений, получив массив данных размером 85*12 тысяч результатов. 
Под "особенностями изображений" понимаются наборы каких-то точек, линий и прочие структурные части 
которые можно каким-либо образом выделить.

Этот уникальный набор данных сейчас анализируется чтобы помочь нам достичь некоторых промежуточных 
целей:
                                          
1. Многократно сравнивая результаты из более 12000 характерных черт изображений, мы выделили их 
все в 10 общих классов изображений. Это было необходимо для дальнейшего анализа, так как подобный анализ 
был слишком сложен в плане доступных ресурсов, и поэтому не проводился.

После этого все характерные особенности были распределены в процентном соотношении, на 100 частей 
(Например, нижний % совпадающих особенностей попадает в первую группу, следующий процент во вторую 
итд). Так, не учитывая класс изображения, получаем 100 равных (по кол-ву изображений) групп. 
Диаграмма показывает распределение характерных особенностей для каждого класса изображений. 
Каждый из 10 классов расположен по горизонтали. Горизонтальные колонки пикселей соответствуют 
разным отличительным чертам. Светлые пиксели соответствуют наиболее встречаемым группам. Классы 
изображений упорядочены сверху вниз так:

Чисто
Фазовое отделение
Фазовое отделение и осадок
Фазовое отделение и поверхность
Фазовое отделение и кристалл
Осадок (см википедию)
Осадок и поверхность
Осадок и кристалл
Кристалл
Помехи



2. Учитывая сложность вычислений, мы также старались исключить из списка те характерные 
особенности на изображениях, которые не несут много полезной информации. Также были исключены 
те особенности которые имели маленькое значение по сравнению с количеством компьютерных ресурсов 
для их нахождения. Анализ малого количества изображений может привести к неверному выбору 
определенных характерных особенностей по сравнению с другими. В прошлом приходилось анализировать 
малое количество данных так как ученые были ораничены вычислительными ресурсами или доступной 
памятью. С помощью WCG, впервые, мы теперь можем выбрать нужные черты изображений и исследовать их 
в достаточном количестве. На рисунке видно отношение характерных черт изображений, за исключением 
классов. Существует сложное отношение сильной кореляции и антикореляции.
                                           


3. Выделив нужные характерные черты изображений, мы обновим автоматический классификатор 
изобрежений кристаллографии таким образом что станет возможен последовательный анализ, например 
data mining для определения принципов роста кристаллов, а также система принятия решений, для
того чтобы улучшить оптимизацию при кристаллографии.

В дальнейшем, мы будем использовать эту оптимизированную программу классификацию для анализа оставшихся 
изображений. Этот анализ позволит нам:

* Улучшить наше понимание кристализационного процесса. С информацией о химии и выходных данных 14 миллионов 
экспериметнов с 9400 протеинами (1536 состояний для каждого протеина, считанных 6 раз на протяжении 4 недель) 
в общей базе данных, мы надеемся наконец-то начать изучение реальных химических процессов в протеинах.

* Обнаружить потенциально полезные для изучения состояния кристаллизации протеинов которые были 
пропущены в ходе первоначального анализа. Это в свою очередь предполагает обновление существующей 
классификации кристаллографии, результаты которой можно видеть на следующем изображении:


        
* Обновить базу данных кристаллизации и сравнить все новые сканы протеинов с результатами уже 
отсканированных 9400 протеинов, для того чтобы определить какие кристаллизационные оптимизации 
можно применить для получения структуры еще неизвестных протеинов.

Выбор целей
          
Мы можем использовать несколько стратегий для выбора исследуемых целей для структурной биологии:

* Рак: мы используем объединенную раковую информатику (integrative cancer informatics) чтобы найти 
новые биомаркеры для раннего обнаружения болезни, маркеры с помощью которых можно предсказать появление 
болезни, а также маркеры которые усиливают эффекты терапии и те, с помощью которых можно измерить 
эффективность лечения. В основном мы фокусируемся на изучении рака легких, яичников, простаты, 
рака в области шеи и головы. Обнаружение целей это только первый шаг. Эти цели еще надо подтвердить, 
а так как для многих маркеров у нас нет данных об их структуре, ее надо получить экспериментально.
Результаты проекта Help Conquer Cancer в рамках WCG помогут нам получить необходимые данные о структуре.

* "Важные" цели: для изучения болезней и фундаментального изучения биологии необходимо знать структуру 
протеинов. Для того чтобы дать ученым возможность исследовать протеины, HWI на своем оборудовании 
сканирует протеины которые присылаются со всего мира. На сегодняшний день мы помогли уже более 800 
лабораториям. Такое широкое покрытие позволяет убедиться что будут изучены и учтены все "важные" протеины.

* Фолдинг: выбирая протеины мы стараемся максимизировать уникальность найденных свернутых структур 
(of folds discovered).
| 04.09.2008 21:31