ua     ru    Sitemap   Sitemap     | Поиск... |       Сайт открыт 14.12.2005

Ukraine - Distributed Computing Team

 

 » Навигация 
  Новости
  Новости (Архив)
  Описания проектов
  Наши опросы
  Архивы

  Форум
  Форум (PDA)

 » Статьи  


       Описания проектов 
Начало раздела > Majestic-12

Алексей Чудновский в интервью Эрика Энге



Версія Українською

перевод - Algon, публикацияnikelong



 

Алексей Чудновский в интервью Эрика Энге


 

Ниже - перевод этой статьи, опубликованой на stonetemple 29 декабря 2008 года.


Алексей Чудновский - основатель и управляющий директор Majestic-12 – базирующейся в Великобритании фирмы, которая специализируется в области развития масштабируемых высокоэффективных решений анализа данных на кросс-платформе .NET/C # с приоритетным направлением на создание поисковой машины WWW. Majestic также использует торговую марку Majestic SEO, который издает бэклинк-инструмент, являющийся конкурентом Linkscape SEOMOZ.

Примечание: Бэклинки (бэки) - от слова backlink. Внешние ссылки на сайт или на страницу (т.е. ссылки с других сайтов).

Алексей ранее работал на одну из хорошо известных сетей розничной торговли, специализируясь на увеличении продаж интернет-магазинов. Используя обширные деловые и технические навыки для Jungle.com (подразделение Argos Retail Group), некогда возглавлявшего топ-10 британских вебсайтов интернет-продаж и имевшего ежегодно более миллиарда хитов, Алексей руководил многими серьезными проектами с экономическим эффектом от дополнительных онлайн-продаж, составлявшим более 15 миллионов фунтов.

Запись интервью

Eric Enge: Расскажите немного о Majestic-SEO как о компании.

Alex Chudnovsky: Наша компания зарегистрирована в Великобритании и называется Majestic-12 Limited. Мы начали проект распределенной поисковой машины четыре года назад. Наша цель состоит в том, чтобы построить конкурентоспособную альтернативу Google. Мы были маленькими, а они большими, но мы должны были найти способы их догнать. Способ, который мы выбрали, состоял в создании проекта распределенных вычислений в Интернет.

Мы взяли за основу подход, примененный в таких проектах как SETI@Home, distributed.net. Было создано соответствующее программное обеспечение и мы начали постепенно сканировать сеть, используя добровольцев со всего мира. Это наш главный проект, и он продолжается уже в течение четырех лет. Примерно два года назад, когда мы создавали полнотекстовый поисковый индекс, мы внесли в него миллиард страниц. Постепенно мы делали его все больше и больше, и мы поняли, что релевантность становилась проблемой…

Вы не сможете победить Google, если Вы не станете таким же значимым, как Google. Решение заключается в более подробном изучении web-схем, поиске бэклинков и анализе текстовых ссылок, чтобы знать обо всем этом не меньше, чем Google. Если Вы хотите занять место в соперничающее в категории, Вы действительно должны делать это, потому что у Вас есть множество совпадений, к которым Вы должны относиться дифференцированно для решения, какие лучше и наиболее относятся к делу.

В этом деле бэклинки играют важную роль, потому что это действительно один из основных способов дифференцироваться между более популярными и менее популярными сайтами. Когда мы поняли это два года назад, стало ясно, что мы нуждаемся в отдельном индексе, который поможет нам лучше понять бэклинки и текст ссылок. Так, мы начали работать над так называемым “якорным индексом” (anchor index), и мы это делали в течение двух лет, многократно перестраивая индекс.

Это очень, очень трудно - построить большой индекс, который был бы близок сходному в Yahoo и Google. Но мы построили это, и в начале этого года мы начали коммерческое ответвление, призванное помочь нам в дальнейшем финансировать исследования и разработки. Для этого был разработан Majestic-SEO. Это та же самая компания, просто именно это торговое имя мы используем в области SEO (оптимизации поисковых систем).

В Majestic-SEO собран самый большой публично доступный индекс бэклинков. Это позволяет веб-мастерам проверять свои сайты и бесплатно получать обширные данные о бэклинках. Если же Вы хотите получить информацию о вебсайтах своих конкурентов, то Вы можете заплатить для получения отчетов и сравнения вебсайтов. В общих чертах это похоже на Инструменты для веб-мастеров от Google, но Вы можете дополнительно получить информацию о соперничающих сайтах, и мы показываем полные данные.

В отличие от Google, мы показываем все имеющиеся у нас данные, и у нас есть значительное количество сайтов со многими миллионами бэклинков. Мы покажем Вам многое из того, что Вы хотели бы увидеть. И мы предоставляем много аналитических опций, которые позволят Вам сосредоточиться на областях, которыми Вы больше всего интересуетесь. Итак, в этом орешке – Majestic-SEO.


Eric Enge: Какое количество веб-страниц вы собрали?

Alex Chudnovsky: Пока мы обработали примерно 114 миллиардов (это число включает и URL, которые были не обработаны по различным причинам – «404 Не найдено», «Сервер недоступен» и т.д). Общее количество обработанных данных - более 2.5 петабайт. Если Вы посмотрите на количество страниц, которые мы включили в наш индекс в Majestic-SEO, Вы увидите в нашем текущем индексе более 52 миллиардов уникальных обработанных страниц, который с января 2009 года еще будет увеличиваться. Мы показываем все эту статистику на нашем вебсайте. Мы рассматриваем адрес (URL) как страницу, если адрес успешно обработался. Мы анализируем эти адреса и собираем ссылки на этих страницах, а так же другие их характеристики.

Если Вы посмотрите на нашу базу данных с точки зрения уникальности URL, то таких гораздо больше, чем обработанных страниц. Google недавно заявил, что они собрали триллион уникальных URL, но еще не все обработали. То же самое и у нас. В нашей базе 346 миллиардов уникальных URL, 52 миллиарда из которых являются страницами. Это означает, что данные страницы как минимум однажды были успешно обработаны. Наша цель состоит в том, чтобы догнать Google к концу следующего года.


Eric Enge: Вы собрали это в продукте, который люди могут попробовать и получить профили ссылок различных доменов? Я предполагаю, что Вы также предоставляете «якоря» текста и сортировку материалов?

Alex Chudnovsky: Да, мы предоставляем текст ссылок, если он был, дату, когда бэклинк был найден, а также множество флагов, например, была ли эта ссылка графической, или это была переадресация, и было ли это в структуре фрейма. Последний флаг может быть очень полезным, потому что Вы можете фактически проверить бэклинки на свой собственный сайт. Вы можете фактически найти людей, включивших Ваш сайт в frameset. Вы не обязательно можете видеть эту информацию в файлах системного журнала, потому что если ссылка находится в frameset, referrer может быть не отмечен в файлах системного журнала, и Вы возможно и не обнаружите, что Ваш сайт был включен во фрейм.

У нас также есть указатель того, насколько важна страница, который называется ACRank. ACRank обозначает “Уровень Цитирования.” Это число от 0 до 15, чем выше - тем лучше. Более высокое число означает, что большее количество внешних доменов ссылаются на эту страницу. Например, если начальные страницы Google и нашего сайта ссылаются на Ваш сайт, мы оценим ссылку Google выше, чем нашу, потому что у самого Google намного больше ссылающихся на них доменов.

Это позволяет нашим клиентам сосредотачиваться сначала на самых важных ссылках, потому что они знают, что эти ссылки идут со страниц, которые в свою очередь сами являются очень популярными.


Eric Enge: Хорошо. Вы делаете все это, основываясь на собственном методе расчетов?

Alex Chudnovsky: Да, в настоящее время это очень просто. Это в первую очередь указатель того, сколько уникальных доменов ссылаются на страницу, которая имеет ссылки на Вас.


Eric Enge: Когда Вы выпустили этот продукт?

Alex Chudnovsky: Мы начали Majestic-SEO в феврале этого года. Раньше, когда мы начинали, мы не продавали данные, потому что эффективнее и проще было начинать с теста, позволявшего веб-мастерам заходить на наш сайт и проверять свои домены, получая информацию бесплатно. Таким образом мы получали обратную связь. В июле мы запустили новую опцию, которая позволила нашим клиентам фактически покупать отчеты по тем доменам, которые им не принадлежат. С коммерческой точки зрения мы начали свою деятельность в июле 2008.


Eric Enge: Сколько людей уже воспользовались?

Alex Chudnovsky: Довольно много. Это определенно превысило наши ожидания. Прямо сейчас многие присоединяются, и мы действительно хорошо конвертируем трафик. К нам приходит много людей, проверяющих на нашем сайте свои домены и качество обслуживания.

После этого мы превращаем их в платных клиентов, потому что они видят, что именно могут узнать о своих собственных доменах, и какой информацией мы располагаем об их собственных сайтах. Они начинают доверять нашей информации, потому что это лучший способ проверки.


Eric Enge: Каков Ваша бизнес-платформа?

Alex Chudnovsky: Наши цены отличаются для различных доменов. Основная проблема для нас в том, что некоторые домены намного больше, чем другие. Например, если мы возьмем Google как домен, тогда наша база данных скажет мне, что имеется 3.7 миллиарда внешних бэклинков к google.com.

Когда мы называем это число, это означает, что у нас действительно есть так количество бэклинков, которые мы можем получить . Это очень разительный разрыв в нашем соревновании. Обычно Вам будет показано ограниченное число бэклинков, примерно такое, которое вы можете получить в Yahoo Site Explorer. Но в нашем случае, когда Вы покупаете доступ к домену, Вы получаете и дополнительную информацию, которую Вы можете получить без всякой дополнительной оплаты.

У нас есть очень большие домены, как google.com, а также у нас есть маленькие домены, как наш собственный - www. MajesticSEO.com. Сейчас в нашей базе данных всего тысяча внешних бэклинков, но это число, растущее очень быстро. Итак, наши цены различны для доменов и зависят от того, сколько внешних ссылок имеет домен.

Мы также предлагаем базовые тарифы, основанные на временных промежутках. Вы можете заказать получение данных доменов в течение семи дней, 1 месяца, 3 месяцев, 6 месяцев или 12 месяцев. Для доменов, о которых вы хотите узнать общие данные, имеет смысл покупать семь дней, только для сбора информации. Те, которые Вы хотите отслеживать долгое время, имеет смысл покупать на 12 месяцев, так как среднемесячная цена получается меньше, поскольку Вы подписываетесь на длительный промежуток времени.


Eric Enge: Какова цена для домена, у которого есть 10 000 ссылок на него?

Alex Chudnovsky: Давайте для примера возьмем Ваш сайт. Для Вашего сайта в настоящее время у нас есть 78 000 внешних бэклинков из 2 500 доменов. Если Вы посмотрите на цену, Вы можете получить их за 10 кредитов в течение 7 дней. Сейчас мы продаем кредиты, и у нас есть различные пакеты за эти кредиты. Если Вы покупаете больший пакет, Вы получаете большую скидку. Например, если Вы - наш клиент, и Вы хотите использовать наше обслуживание долго, имеет смысл покупать тысячу кредитов, потому что Вы получите 30%-ую скидку.

Если Вы будете оптовым покупателем, то фактическая цена доменов, которые Вы покупаете, будет для Вас еще ниже. В Вашем случае это будут 10 кредитов в течение 7 дней. В денежном выражении, если Вы покупаете одну тысячу кредитов, это будет стоить приблизительно доллар за кредит. Так что данные по Вашему сайту можно получить за 10$. Эти данные включают в себя 78 000 внешних бэклинков, находящихся в 2 500 доменов. Да, у Вас весьма популярный вебсайт. Мы также рассматриваем возможность предоставление фиксированной модели оплаты подписки Q1 в 2009 году.


Eric Enge: Это интересно. Yahoo между прочим сообщает о 94 800. Конечно, он тоже имеет некоторые проблемы с точностью, о которых мы все знаем. Когда Вы начнете?

Alex Chudnovsky: Majestic пока в основном проводит исследования. Мы впервые запустили наш индекс в феврале этого года, но информацию мы начали продавать только в июле. Причина этого - построение различных индексов. Мы также проводили количественную оценку, чтобы понять, насколько близко мы подошли к Yahoo и Google.

Для этого мы выбрали 20 URL, часть из которых были на известных вебсайтах, таких как Google, Wikipedia, CNN.com, и т.д. Мы также взяли прошлогодние бэклинки, о которых сообщили Google и Yahoo для этих URL.

Каждый раз, когда мы индексировали, мы находили бэклинки, сообщаемые Yahoo и Google, и в нашем индексе. Увеличивая наш индекс, мы наблюдали, улучшаем ли мы этим наше качество, или нет. И мы обнаружили, что мы все более и более эффективны. Показателем служило то, что наш индекс становится все более близок к Yahoo и менее к Google. И я думаю, что это интересно, потому что я не думаю, что наше соревнование является чем-то таким, что нельзя предавать огласке.


Eric Enge: Вы продолжаете использовать свои сканеры?

Alex Chudnovsky: Конечно да.


Eric Enge: Большинство Ваших клиентов в настоящее время находятся в Европе или в других местах?

Alex Chudnovsky: Я могу сказать, что у нас есть клиенты из США, Канады и конечно из Европы. Я могу сказать, что примерно 60% из Европы и 40% из Америки.

Если смотреть на реальный размер рынка, то вероятно должно быть наоборот. Мы не так сильны в Соединенных Штатах, так как мы находимся в Европе, но мы получаем все больше клиентов и определенно растем в Северной Америке.

Заметьте, в Вашем интервью Рэнда Фишкина (Rand Fishkin) о Linkscape, Вы задавали Рэнду вопрос о ботах, которые они используют, выполняют ли они для себя расширенное сканирование. Rand сказал, что в некоторых случаях, но не во всех. В Majestic-12 есть наш собственный бот, мы издаем информацию о нашем боте, и мы очень открыты в этих аспектах.

Мы не просим, чтобы другие сканировали для нас. Мы фактически собираем данные самостоятельно, у нас есть адреса и мы сами решаем что сканировать. Это – на сто процентов только наши усилия.


Eric Enge: Таким образом, чтобы обеспечить достаточный уровень сканирования у Вас должен быть довольно значительный информационный центр?

Alex Chudnovsky: Поскольку у нас есть распределенная компьютерная сеть, это позволяет нам распределить эту сложную задачу на большое количество компьютеров. Таким образом, мы практически не нуждаемся в информационных центрах, которые способны проводить этот вид сканирования. Это - наше коммерческое преимущество, которое дает нам повод надеяться, что мы можем достигнуть масштаба Google в области анализа бэклинков.


Eric Enge: Как Вы получаете доступ к компьютерам, которые находятся в Вашей сети?

Alex Chudnovsky: Это делается людьми, которые присоединяются к нашему проекту, Majestic-12 Distributed Search Engine project. Они присоединяются и используют на своих компьютерах наше программное обеспечение. Непосредственно мы ничего не устанавливаем. Мы создали себе имя в области распределенных вычислений, и это стопроцентные добровольцы. В этой области есть много проектов, но мы уникальны среди проектов распределенных вычислений, обычно интенсивно использующих процессор.


Eric Enge: Как Вы набираете своих участников?

Alex Chudnovsky: У нас есть вебсайт, www.majestic12.co.uk, который является главным сайтом нашего проекта, добровольцы присоединяются к нам там. Сейчас у нас более 100 постоянных пользователей, которые отправляют нам результаты. За сутки они обычно сканируют более 5 терабайт данных и примерно 200 миллионов URL. Первыми, которые нашли нас, были люди, заметившие наш бот в своих файлах системного журнала.

После того, как они заметили наш бот, они искали и нашли нашу веб-страницу, прочитали о нашем проекте, им понравилась идея и они присоединились к нему. Это описание того, как мы начинали, а по прошествии некоторого времени мы стали известны среди сообщества распределенных вычислений. У нас есть активные люди, которые также участвуют и в других проектах распределенных вычислений.

Они говорят о нас, и это помогает увеличить интерес к нашему проекту, именно таким образом мы достигли точки, когда нас поддерживает большое количество пришедших к нам добровольцев.


Eric Enge: Что они для себя в этом находят?

Alex Chudnovsky: Помните, наша главная цель - компания должна построить поисковую машину, которая сможет конкурировать с Google с точки зрения релевантности, скорости и масштаба. В качестве составной части этого мы также должны понять интернет лучше, в особенности роль бэклинков. Это абсолютные добровольцы, мы сейчас им ничего не платим. У нас будет отдельная компания для наших партнеров, которой будут принадлежать 20 % акций в главной коммерческой компании, которой принадлежит торговая марка Majestic-SEO. Я должен подчеркнуть, что деньги не являются главным мотивом для людей, которые приняли участие в нашем проекте.

Мы действительно не хотим, чтобы люди приходили к нам только с мыслью о материальном стимуле, поскольку это может вызвать проблемы. В нашем случае много людей, которые пришли сами, интересуясь распределенными вычислениями вообще и нашим проектом в частности. Им нравится проект, им нравится идея попробовать создать конкурента Google, и им не нравятся монополии.

Они находят, что руководство проекта, методы нашей работы, направление, в котором мы двигаемся, а также обратная связь между нами и ими это хорошо; настолько, что стоит находиться поблизости. Вот как мы сохраняем людей, которые стали частью этого проекта.


Eric Enge: Сколько у Вас участников?

Alex Chudnovsky: Сегодня у нас более 100 активных участников. Однако, если Вы смотрите с точки зрения компьютеров, у нас есть приблизительно 150 машин, сканирующих Интернет из различных точек мира и анализирующих данные.


Eric Enge: Как у Вас получается поддерживать сервисы на приемлемом уровне?

Alex Chudnovsky: Это очень трудно. Позвольте мне только рассказать Вам, что Вы можете сделать в нашем индексе. Во-первых, Вы можете искать точный URL, и Вам дадут быстрый ответ. Или Вы можете искать домен, введя доменное имя. Например, Вы набрали google.com, в этом случае у нас будут результаты поиска, включающие главные URL этого сайта, а также немного общей статистики, сколько именно ссылающихся бэклинков являются внутренними или внешними.

Также мы тоже показываем, сколько всего ссылающихся доменов, на которые расположены бэклинки, чего например Yahoo не делает. Я думаю, что наше соревнование требует, чтобы мы показывали эту информацию за деньги, но мы показываем это бесплатно. К проекту индекса было приложено много усилий для уверенности, что он может быть соизмерим с количеством URL, которые имеют Google и Yahoo.


Eric Enge: Вам наверняка необходимы мощные аппаратные средства.

Alex Chudnovsky: Проект действительно использует довольно мощные аппаратные средства.


Eric Enge: Сколько серверов участвуют в этом процессе?

Alex Chudnovsky: Первая часть это сканирование и анализ, который делается распределенным сканером. Это приблизительно 150 машин. Не все эти компьютеры работают 24/7, но многие работают, и они делают большую часть работы. У нас много привлеченных аппаратных средств; но выбранный нами путь привел к тому, что мы не обязательно должны иметь эти аппаратные средства непосредственно в компании.

Эти компьютеры делают сканирование, анализ и отсылают данные центральным серверам. Серверы конечно тоже делают довольно большую работу, но мы не нуждаемся в очень многом. У нас менее 10 серверов, которые делают заключительную обработку и обслуживают текущий поиск.


Eric Enge: Большое спасибо, Алексей!

Alex Chudnovsky: Большое спасибо, Эрик!

Обсуждение проекта на нашем форуме


Дата: Понедельник, 12 Январь 2009
Прочитана: 15057 раз

Распечатать Распечатать    Переслать Переслать    В избранное В избранное

Другие публикации
  • Majestic-12
  • Установка клиента
    Вернуться назад

  •  » Место команды 
    Медико-биологические
    Correlizer
    47
    DrugDiscovery@Home
    9
    Fightaids@Home
    40
    Folding@Home
    56
    Gpugrid.net
    50
    Help Cure Muscular Dystrophy
    40
    Help Conquer Cancer
    40
    Help Fight Childhood Cancer
    40
    Human Proteome Folding (Phase 2)
    40
    Lattice Project
    20
    Malariacontrol.net
    47
    NRG@home (Najmanovich Research Group)
    26
    Poem@Home
    32
    Ps3grid.net
    50
    RNA World
    47
    Rosetta@Home
    27
    World Community Grid
    40
    Математика
    Abc@Home
    13
    Collatz Conjecture
    75
    EulerNet
    10
    Gimps (Great Internet Mersenne Prime Search)
    29
    Mersenne@home
    78
    NFS@Home (Number Field Sieve)
    55
    OGR-27
    11
    OPTIMA@HOME
    35
    primaboinca
    44
    Primegrid
    40
    Seventeen Or Bust
    16
    Seventeen Or Bust-Sieve
    17
    WEP-M+2 Project (Wanless)
    40
    Криптография
    DistrRTgen
    68
    Enigma@Home
    52
    RC5-72
    22
    Физика
    Einstein@Home
    49
    IBERCIVIS
    1
    Leiden Classical
    61
    Lhc@Home
    33
    Magnetism@Home
    2
    Muon1-DPAD
    31
    Spinhenge@Home
    39
    Химия
    QMC@Home
    44
    Космос
    Constellation@home
    51
    Cosmology@Home
    44
    Milkyway@Home
    48
    Orbit@Home
    27
    SETI@Home
    90
    Планета земля
    Climate Prediction
    43
    La Red de Atrapa Sismos
    7
    Quake Catcher Network
    64
    Radioactive@Home
    12
    Virtual Prairie (ViP)
    24
    Искуственный интеллект
    FreeHAL@Home
    24
    Neurona@Home
    21
    Интернет
    Majestic-12
    4
    Рендеринг
    Burp
    34
    Luxrenderfarm@home
    0
    ORE (Open Rendering Environment)
    40
    Игровые проекты
    Chess960@Home
    95
    sudoku@vtaiwan
    16
    Кликеры и трекеры
    Marmot Project
    239
    Whatpulse
    83
    Микс
    AlmereGrid
    24
    Pirates@Home
    9
    Sztaki Desktop Grid
    58
    Yoyo@Home
    37