Привіт Гість ( Вхід | Реєстрація )

> Перевод, Alex Chudnovsky Interviewed By Eric Enge, http://www.stonetemple.com/articles/interview-alex-chudnovsky.shtml
Algon
Jan 10 2009, 07:41
Пост #1


Ambulance
*******

Група: Trusted Members
Повідомлень: 899
З нами з: 11-November 08
З: Бердянск, СИЗО ГУВД :)
Користувач №: 862
Стать: Чол
Парк машин:
QX9650, Q8400S, Q8200S, Q6600, E6750, E4500, Xeon 5110, X2 5600+, M540, M420.



http://www.stonetemple.com/articles/interv...hudnovsky.shtml


Alex Chudnovsky Interviewed by Eric Enge

Published: December 29, 2008

Alex Chudnovsky is the founder and managing director of Majestic-12 – a UK based firm that specializes in cross-platform .NET/C# development of scalable high-performance data analysis applications with primary focus on creation of the World Wide Web search engine. Majestic also uses the trade name Majestic SEO which publishes a backlinking tool that is a competitor to SEOmoz's Linkscape.

Alex previously worked for a number of well-known retail businesses with primary focus on maximizing sales from their respective retail web sites. Utilizing extensive business and technical skills for Jungle.com (part of the Argos Retail Group), formerly top 10 UK e-tail website that handled over a billion hits annually, Alex led many significant projects with a proven overall economic effect of over £15 m in additional online sales.
Interview Transcript

Eric Enge: Tell me a little bit about Majestic-SEO at a company level.

Alex Chudnovsky: We have a registered company in the UK, which is called Majestic-12 Limited, and we started a distributed search engine project four years ago. The goal is to build a viable alternative to Google. And because we were small and they were big, we had to find some ways of catching up. The way that we chose was to develop distributed computing on the internet.

Projects such as SETI@Home, distributed.net were the basis of the approach we took. We created software and we started crawling the web using volunteers all around the world. This is our main project, and it has been going on for four years now. About two years ago, when we used the data to create a full-text search index, we had one billion pages indexed. As we were building it bigger and bigger, we realized that relevance was becoming a problem.

You can’t beat Google unless you are as relevant as Google. The solution for this was to look more closely at the web graph, look at the backlinks and analyze link text in order to be just as smart about it as Google is. You really have to do that, because when you rank in competitive categories, you have so many matches that you have to discriminate against many of them to decide which ones are the best and most relevant.

This is where backlinks come into play big time, because that’s really one of the key objective ways to differentiate between more popular and less popular sites. When we realized this two years ago, it became clear that we needed a separate index that would help us understand backlinks and link text better. So, we started working on the so-called “anchor index” and we’ve been doing it for two years with many index builds.

It was very, very difficult to build a large index that was close to that of Yahoo and Google. But, we built it, and early this year we launched a commercial offshoot to help us fund further R&D activities. This is what Majestic-SEO was designed for. It is the same company, but it’s our trading name that we use to position ourselves in the SEO industry.

So, what we have in Majestic-SEO is the biggest publicly available backlinks index. It allows webmasters to verify their sites and obtain extensive backlinking data for free. If you want information for your competitor websites, then you can pay to obtain reports and compare the websites. It’s essentially like Google Webmaster Tools, but you can get information on competitive sites and we show complete data.

Unlike Google, we show all data that we have, and we actually have quite a lot of sites with many millions of backlinks. We will show you the whole lot if you want it. And, we include a number of analytical options that allow you to focus on the areas you are most interested in. So, in a nutshell, this is what Majestic-SEO is about.

Eric Enge: How many web pages have you crawled?

Alex Chudnovsky: So far we have crawled about 114 billion in total (this figure includes urls that failed to get crawled due to various reasons – 404 Not Found, server was down etc). The total crawled data size is over 2.5 peta bytes. If you look at the number of unique pages that we include within our index in Majestic-SEO, we have over 52 billion unique crawled pages in our current index that will grow again in January 2009. We show all these stats on our website. We consider a url being a page if the URL was successfully crawled. We analyze those urls and pick up links from those pages as well as other metrics.

If you look at our database in terms of unique URLs, then we have lots more of those than crawled pages. Google recently claimed to have one trillion unique URLs that they knew of, but they have not crawled them all yet. It’s the same with us. For us, the number of unique URLs is 346 billion, 52 billion of which are pages, meaning that these are the URLs that we crawled successfully at least once. Our aim is to catch up with Google by the end of next year.

Eric Enge: You’ve organized this in a product that people can explore and pull down link profiles for different domains? I presume you do things like pull the anchor text and that sort of stuff?

Alex Chudnovsky: Yes, we supply the link text, if it was present, date when backlink was found ,and a number of flags, such as whether it was an image link, or it was a redirect, or whether it was in a frame. The latter can be very useful because you can actually check backlinks for your own site. You can actually find the people who have embedded your site in a frameset, and you may not necessarily see this information from your log files, because if it’s in a frameset, the referrer may not be set in log files and it may not be obvious to you that your site was quite literally framed.

We also have a measure of how important the page is, called ACRank. ACRank stands for “A Citation Rank.” What it basically is, is a number from 0 to 15, with higher being better. A higher number shows that there were more referring external domains linking into that page. For example, if both Google and our site’s homepages linked to your site, we will rank the Google link higher than ours because Google itself would have a lot more referring domains that point into them.

This allows our customers to focus on the most important links first, because they would know that those links are coming from pages that are themselves very heavily linked to.

Eric Enge: Right. You are doing that based on a proprietary calculation method?

Alex Chudnovsky: Yes, it is very simple at the moment. It’s basically an indication of how many unique referring domains will link into the page which links to you.

Eric Enge: When did you release this product?

Alex Chudnovsky: We launched Majestic-SEO in February of this year. We were not selling data at the time we launched it because it was effectively soft-launched as a test to allow webmasters to come to our site and verify their domains to get information for free. So, we were getting all this feedback. In July we launched new option, which allowed our customers to actually buy reports on domains that they do not own. From the commercial point of view we launched in July 2008.

Eric Enge: How many people have signed up so far?

Alex Chudnovsky: We have a lot. It’s exceeded our expectations definitely. We are gaining acceptance right now, and we are converting traffic really well. We get a lot of people who come to our site just to verify their own domain and to check out whether the service is good or not.

Then we convert them to actual paying customers because they see that they can look at their own domains and the information we have on their own sites. This is where they become believers in our information, because it’s the best way to check.

Eric Enge: What is the commercial model?

Alex Chudnovsky: We have different pricing for different domains. The fundamental issue for us is that some domains are a lot bigger than others. For example, if we take Google as a domain then our database tells me that we have 3.7 billion external backinks to google.com.

When we name this number, it means that we actually have that many backlinks that we can retrieve. This is quite a critical difference from some of our competition. They will often show you a limited number of backlinks, such as what you can get in Yahoo Site Explorer. But in our case, when you buy access to the domain, you get the whole lot, all the information you can retrieve at no extra charge.

So, we have very large domains like google.com and we have small domains like our own site www.MajesticSEO.com. We have one thousand external backlinks in our database at the moment, and that is a number that is growing quite quickly. So, we have different domain pricing which depends on how heavily linked the domain is.

We also offer some time based options. You can subscribe to domains data for seven days, 1 month, 3 months, 6 months or 12 months. So for domains that you might just be curious about, it makes sense to buy them for seven days, just to check out the information. Those that you want to keep an eye on for longer, it makes sense to buy for 12 months, as the monthly price gets reduced as you subscribe for longer periods of time.

Eric Enge: What’s the cost for a domain that has 10,000 links to it?

Alex Chudnovsky: Let’s take your site for example. On your site, we have 78,000 external backlinks coming from 2,500 referring domains as of now. If you look at the price, you can get it for 10 credits for 7 days. Now, we sell credits and we have different packages for credits. If you buy a bigger package, you get a bigger discount. For example, if you are our client and you want to use our service a lot, it makes sense to buy a thousand credits, because you would get a 30% discount on that.

So, if you are a big buyer, the actual price of domains that you buy will be lower for you. In your case, it will be 10 credits for 7 days. In monetary terms, if you buy one thousands credits, it should cost about a dollar a credit. So that means that data on your site could be had for $10. That would include almost 79,000 external backlinks coming from 2,500 referring domains. So, you’ve got quite a popular website. We are also considering introducing a fixed fee subscription model in Q1 2009.

Eric Enge: That’s interesting. Yahoo reports 94,800 by the way. Of course, is has its own accuracy issues as we all know. When did you go live?

Alex Chudnovsky: Basically we do a lot of research at Majestic. We first launched our index in February of this year, but we only started selling payable information in July. The reason for that is that as we were building different indexes. We were providing quantitative assessment to understand how close we were to Yahoo and Google.

To do this, we picked 20 URLs, some of which were from well-known websites such as Google, Wikipedia, CNN.com, etc. And, we took backlinks from last year that were reported by Google and Yahoo for these URLs.

Every time we made an index, we actually found the backlinks reported by Yahoo and Google in our index. So as we were growing our index, we could see whether we were improving our quality or not. And we found out that we were matching more and more . What it was showing was that our index is actually getting closer to that of Yahoo’s and less so to Google’s. And I think this is interesting because I don’t think our competition is doing something like this, at least not publicly.

Eric Enge: You are continuing to run your own crawlers?

Alex Chudnovsky: Absolutely, yes.

Eric Enge: Does your client base currently skew towards Europe or other geographies?

Alex Chudnovsky: I would say we get clients from the United States, Canada and a lot from Europe. I would say maybe it’s 60% from Europe and 40% from America.

If you look at market size in real terms, it probably should be the other way around really. We are not as strong in the United States as we are in the Europe, but we are gaining more and more customers and definitely growing in North America,

Note that in your interview of Rand Fishkin about Linkscape, you asked Rand a question about the bots that they are making use of, whether they are leveraged and if they do custom crawling for themselves. Rand said, in some cases but not all. At Majestic-12, we have our own crawler and we publish information about our own crawler and we are very open about these things.

We are not asking others to crawl for us. We actually crawl the data ourselves, we have the URLs and we decide what we crawl. It’s a hundred percent our effort.

Eric Enge: So you must have a fairly substantial data center in order to be able to do that level of crawling?

Alex Chudnovsky: Because we have a distributed computer network it allows us to offload this complicated task to a lot of computers. So, we do not actually need the data centers you would imagine required to sustain this sort of crawling. That’s our commercial advantage that gives us hope that we can reach Google scale in respect of webgraph (backlinks) analysis.

Eric Enge: How do you acquire the access to the computers that are within your network?

Alex Chudnovsky: This is done by people who join our project, the Majestic-12 Distributed Search Engine project. They join it and they will use our software on the computers that they own. We are not actually installing it ourselves. It’s one hundred percent volunteer and we have built quite a name in the distributed computing area. There are a number of projects out there, but we are fairly unique in that distributed computing projects would usually are CPU intensive.

Eric Enge: How do you recruit your participants?

Alex Chudnovsky: Well, we have a website, www.majestic12.co.uk, which is our main project site and they sign up there. We have more than 100 regular users who return results to us. In a full day they usually crawl more than 5 terabytes of data and around 200 million URLs. The first people who found us were the people who saw our bot in their log files.

After they saw our bot, they searched and found our web page, read about our project and liked the idea, then they joined it. This is how we started, and after some time we become known among the distributed computing community. We have active people who are also doing other distributed computing projects.

They talk about us and this helps increase the interest in our project, so we have grown to a point where we sustained high number of volunteers who can come to us.

Eric Enge: What’s in it for them?

Alex Chudnovsky: Remember, our main objective as a company is to build a search engine which can rival Google in terms of relevance, speed and scale. As a part of this, we also need to understand the web better, this is where backlinks come into play. It’s strictly volunteer, we have not paid them anything at the moment. What we do is that we will have a separate company for our partners, which will own 20% of shares in the main commercial company, which also owns Majestic-SEO trading name. I have to stress here that money was not the main motivation for the people who took part in our project.

We don’t really want people to come to us specifically for a short-term financial incentive in mind, as this can cause problems. In our case, many people who came naturally were interested in distributed computing in general and our project in particular. They like the project, they like the idea of trying to to create a competitor to Google, and they don’t like monopolies.

They found that the administration of the project, the way we work, the direction in which we are trying to move, and the feedback that we give to them is good; so it’s worth sticking around. This is really how we retain the people who are taking part in this project.

Eric Enge: How many participants do you have?

Alex Chudnovsky: Today we have more than 100 active participants. However, if you look in terms of computers, we have about 150 machines crawling the Internet and analyzing data from different locations in the world.

Eric Enge: How do you get the service to perform acceptably well?

Alex Chudnovsky: That was very difficult. Let me just tell you what you can do in our index. First, you can search for the exact URL and they give you a quick answer. Or you can search for a domain by typing the domain name. Say you typed google.com, in this case we would have search results showing top URLs from that site with some basic statistics, such as how many referring backlinks are internal or external.

How many referring domains it has is also something we show, but something Yahoo does not. I think our competition wants money to show this information, but we show it for free. A lot of effort was put into design of the index to make sure that it can scale to the number of URLs that Google and Yahoo have.

Eric Enge: You must need some powerful hardware.

Alex Chudnovsky: It does use fairly powerful hardware.

Eric Enge: How many servers do you have that are involved in this process?

Alex Chudnovsky: One part is the crawling and analysis stuff, which is done by distributed crawler. That is around 150 machines. Now not all of these computers run 24/7, but many do and they do big chunk of work. We have a lot of hardware involved; but because of the way we did it, we don’t need to have this hardware on the premises.

These computers will do the analyses, the crawl and they will send the data back to the central servers. The servers also do quite a lot of work, but we don’t need that many. We have less than 10 servers that do the final processing and searching at the moment.

Eric Enge: Thanks a lot, Alex!

Alex Chudnovsky: Thank you very much, Eric!

----------------------------------------------------------------------------------------------------------

Общий перевод:


Алекс Чудновский в интервью Эрика Энге

Опубликовано: 29 декабря 2008 года.


Алекс Чудновский - основатель и управляющий директор Majestic-12 – базирующейся в Великобритании фирмы, которая специализируется в области развития масштабируемых высокоэффективных решений анализа данных на кросс-платформе .NET/C # с приоритетным направлением на создание поисковой машины WWW. Majestic также использует торговую марку Majestic SEO, который издает бэклинк-инструмент, являющийся конкурентом Linkscape SEOMOZ.
Примечание: Бэклинки (бэки) - от слова backlink. Внешние ссылки на сайт или на страницу (т.е. ссылки с других сайтов).

Алекс ранее работал на одну из хорошо известных сетей розничной торговли, специализируясь на увеличении продаж интернет-магазинов. Используя обширные деловые и технические навыки для Jungle.com (подразделение Argos Retail Group), некогда возглавлявшего топ-10 британских вебсайтов интернет-продаж и имевшего ежегодно более миллиарда хитов, Алекс руководил многими серьезными проектами с экономическим эффектом от дополнительных онлайн-продаж, составлявшим более 15 миллионов фунтов.

Запись интервью

Eric Enge: Расскажите немного о Majestic-SEO как о компании.

Alex Chudnovsky: Наша компания зарегистрирована в Великобритании и называется Majestic-12 Limited. Мы начали проект распределенной поисковой машины четыре года назад. Наша цель состоит в том, чтобы построить конкурентоспособную альтернативу Google. Мы были маленькими, а они большими, но мы должны были найти способы их догнать. Способ, который мы выбрали, состоял в создании проекта распределенных вычислений в Интернет.

Мы взяли за основу подход, примененный в таких проектах как SETI@Home, distributed.net. Было создано соответствующее программное обеспечение и мы начали постепенно сканировать сеть, используя добровольцев со всего мира. Это наш главный проект, и он продолжается уже в течение четырех лет. Примерно два года назад, когда мы создавали полнотекстовый поисковый индекс, мы внесли в него миллиард страниц. Постепенно мы делали его все больше и больше, и мы поняли, что релевантность становилась проблемой…

Вы не сможете победить Google, если Вы не станете таким же значимым, как Google. Решение заключается в более подробном изучении web-схем, поиске бэклинков и анализе текстовых ссылок, чтобы знать обо всем этом не меньше, чем Google. Если Вы хотите занять место в соперничающее в категории, Вы действительно должны делать это, потому что у Вас есть множество совпадений, к которым Вы должны относиться дифференцированно для решения, какие лучше и наиболее относятся к делу.

В этом деле бэклинки играют важную роль, потому что это действительно один из основных способов дифференцироваться между более популярными и менее популярными сайтами. Когда мы поняли это два года назад, стало ясно, что мы нуждаемся в отдельном индексе, который поможет нам лучше понять бэклинки и текст ссылок. Так, мы начали работать над так называемым “якорным индексом” (anchor index), и мы это делали в течение двух лет, многократно перестраивая индекс.

Это очень, очень трудно - построить большой индекс, который был бы близок сходному в Yahoo и Google. Но мы построили это, и в начале этого года мы начали коммерческое ответвление, призванное помочь нам в дальнейшем финансировать исследования и разработки. Для этого был разработан Majestic-SEO. Это та же самая компания, просто именно это торговое имя мы используем в области SEO (оптимизации поисковых систем).

В Majestic-SEO собран самый большой публично доступный индекс бэклинков. Это позволяет веб-мастерам проверять свои сайты и бесплатно получать обширные данные о бэклинках. Если же Вы хотите получить информацию о вебсайтах своих конкурентов, то Вы можете заплатить для получения отчетов и сравнения вебсайтов. В общих чертах это похоже на Инструменты для веб-мастеров от Google, но Вы можете дополнительно получить информацию о соперничающих сайтах, и мы показываем полные данные.

В отличие от Google, мы показываем все имеющиеся у нас данные, и у нас есть значительное количество сайтов со многими миллионами бэклинков. Мы покажем Вам многое из того, что Вы хотели бы увидеть. И мы предоставляем много аналитических опций, которые позволят Вам сосредоточиться на областях, которыми Вы больше всего интересуетесь. Итак, в этом орешке – Majestic-SEO.

Eric Enge: Какое количество веб-страниц вы собрали?

Alex Chudnovsky: Пока мы обработали примерно 114 миллиардов (это число включает и URL, которые были не обработаны по различным причинам – «404 Не найдено», «Сервер недоступен» и т.д). Общее количество обработанных данных - более 2.5 петабайт. Если Вы посмотрите на количество страниц, которые мы включили в наш индекс в Majestic-SEO, Вы увидите в нашем текущем индексе более 52 миллиардов уникальных обработанных страниц, который с января 2009 года еще будет увеличиваться. Мы показываем все эту статистику на нашем вебсайте. Мы рассматриваем адрес (URL) как страницу, если адрес успешно обработался. Мы анализируем эти адреса и собираем ссылки на этих страницах, а так же другие их характеристики.

Если Вы посмотрите на нашу базу данных с точки зрения уникальности URL, то таких гораздо больше, чем обработанных страниц. Google недавно заявил, что они собрали триллион уникальных URL, но еще не все обработали. То же самое и у нас. В нашей базе 346 миллиардов уникальных URL, 52 миллиарда из которых являются страницами. Это означает, что данные страницы как минимум однажды были успешно обработаны. Наша цель состоит в том, чтобы догнать Google к концу следующего года.

Eric Enge: Вы собрали это в продукте, который люди могут попробовать и получить профили ссылок различных доменов? Я предполагаю, что Вы также предоставляете «якоря» текста и сортировку материалов?

Alex Chudnovsky: Да, мы предоставляем текст ссылок, если он был, дату, когда бэклинк был найден, а также множество флагов, например, была ли эта ссылка графической, или это была переадресация, и было ли это в структуре фрейма. Последний флаг может быть очень полезным, потому что Вы можете фактически проверить бэклинки на свой собственный сайт. Вы можете фактически найти людей, включивших Ваш сайт в frameset. Вы не обязательно можете видеть эту информацию в файлах системного журнала, потому что если ссылка находится в frameset, referrer может быть не отмечен в файлах системного журнала, и Вы возможно и не обнаружите, что Ваш сайт был включен во фрейм.

У нас также есть указатель того, насколько важна страница, который называется ACRank. ACRank обозначает “Уровень Цитирования.” Это число от 0 до 15, чем выше - тем лучше. Более высокое число означает, что большее количество внешних доменов ссылаются на эту страницу. Например, если начальные страницы Google и нашего сайта ссылаются на Ваш сайт, мы оценим ссылку Google выше, чем нашу, потому что у самого Google намного больше ссылающихся на них доменов.

Это позволяет нашим клиентам сосредотачиваться сначала на самых важных ссылках, потому что они знают, что эти ссылки идут со страниц, которые в свою очередь сами являются очень популярными.

Eric Enge: Хорошо. Вы делаете все это, основываясь на собственном методе расчетов?

Alex Chudnovsky: Да, в настоящее время это очень просто. Это в первую очередь указатель того, сколько уникальных доменов ссылаются на страницу, которая имеет ссылки на Вас.

Eric Enge: Когда Вы выпустили этот продукт?

Alex Chudnovsky: Мы начали Majestic-SEO в феврале этого года. Раньше, когда мы начинали, мы не продавали данные, потому что эффективнее и проще было начинать с теста, позволявшего веб-мастерам заходить на наш сайт и проверять свои домены, получая информацию бесплатно. Таким образом мы получали обратную связь. В июле мы запустили новую опцию, которая позволила нашим клиентам фактически покупать отчеты по тем доменам, которые им не принадлежат. С коммерческой точки зрения мы начали свою деятельность в июле 2008.

Eric Enge: Сколько людей уже воспользовались?

Alex Chudnovsky: Довольно много. Это определенно превысило наши ожидания. Прямо сейчас многие присоединяются, и мы действительно хорошо конвертируем трафик. К нам приходит много людей, проверяющих на нашем сайте свои домены и качество обслуживания.

После этого мы превращаем их в платных клиентов, потому что они видят, что именно могут узнать о своих собственных доменах, и какой информацией мы располагаем об их собственных сайтах. Они начинают доверять нашей информации, потому что это лучший способ проверки.

Eric Enge: Каков Ваша бизнес-платформа?

Alex Chudnovsky: Наши цены отличаются для различных доменов. Основная проблема для нас в том, что некоторые домены намного больше, чем другие. Например, если мы возьмем Google как домен, тогда наша база данных скажет мне, что имеется 3.7 миллиарда внешних бэклинков к google.com.

Когда мы называем это число, это означает, что у нас действительно есть так количество бэклинков, которые мы можем получить . Это очень разительный разрыв в нашем соревновании. Обычно Вам будет показано ограниченное число бэклинков, примерно такое, которое вы можете получить в Yahoo Site Explorer. Но в нашем случае, когда Вы покупаете доступ к домену, Вы получаете и дополнительную информацию, которую Вы можете получить без всякой дополнительной оплаты.

У нас есть очень большие домены, как google.com, а также у нас есть маленькие домены, как наш собственный - www. MajesticSEO.com. Сейчас в нашей базе данных всего тысяча внешних бэклинков, но это число, растущее очень быстро. Итак, наши цены различны для доменов и зависят от того, сколько внешних ссылок имеет домен.

Мы также предлагаем базовые тарифы, основанные на временных промежутках. Вы можете заказать получение данных доменов в течение семи дней, 1 месяца, 3 месяцев, 6 месяцев или 12 месяцев. Для доменов, о которых вы хотите узнать общие данные, имеет смысл покупать семь дней, только для сбора информации. Те, которые Вы хотите отслеживать долгое время, имеет смысл покупать на 12 месяцев, так как среднемесячная цена получается меньше, поскольку Вы подписываетесь на длительный промежуток времени.

Eric Enge: Какова цена для домена, у которого есть 10 000 ссылок на него?

Alex Chudnovsky: Давайте для примера возьмем Ваш сайт. Для Вашего сайта в настоящее время у нас есть 78 000 внешних бэклинков из 2 500 доменов. Если Вы посмотрите на цену, Вы можете получить их за 10 кредитов в течение 7 дней. Сейчас мы продаем кредиты, и у нас есть различные пакеты за эти кредиты. Если Вы покупаете больший пакет, Вы получаете большую скидку. Например, если Вы - наш клиент, и Вы хотите использовать наше обслуживание долго, имеет смысл покупать тысячу кредитов, потому что Вы получите 30%-ую скидку.

Если Вы будете оптовым покупателем, то фактическая цена доменов, которые Вы покупаете, будет для Вас еще ниже. В Вашем случае это будут 10 кредитов в течение 7 дней. В денежном выражении, если Вы покупаете одну тысячу кредитов, это будет стоить приблизительно доллар за кредит. Так что данные по Вашему сайту можно получить за 10$. Эти данные включают в себя 79 000 внешних бэклинков, находящихся в 2 500 доменов. Да, у Вас весьма популярный вебсайт. Мы также рассматриваем возможность предоставление фиксированной модели оплаты подписки Q1 в 2009 году.

Eric Enge: Это интересно. Yahoo между прочим сообщает о 94 800. Конечно, он тоже имеет некоторые проблемы с точностью, о которых мы все знаем. Когда Вы начнете?

Alex Chudnovsky: Majestic пока в основном проводит исследования. Мы впервые запустили наш индекс в феврале этого года, но информацию мы начали продавать только в июле. Причина этого - построение различных индексов. Мы также проводили количественную оценку, чтобы понять, насколько близко мы подошли к Yahoo и Google.

Для этого мы выбрали 20 URL, часть из которых были на известных вебсайтах, таких как Google, Wikipedia, CNN.com, и т.д. Мы также взяли прошлогодние бэклинки, о которых сообщили Google и Yahoo для этих URL.

Каждый раз, когда мы индексировали, мы находили бэклинки, сообщаемые Yahoo и Google, и в нашем индексе. Увеличивая наш индекс, мы наблюдали, улучшаем ли мы этим наше качество, или нет. И мы обнаружили, что мы все более и более эффективны. Показателем служило то, что наш индекс становится все более близок к Yahoo и менее к Google. И я думаю, что это интересно, потому что я не думаю, что наше соревнование является чем-то таким, что нельзя предавать огласке.

Eric Enge: Вы продолжаете использовать свои сканеры?

Alex Chudnovsky: Конечно да.

Eric Enge: Большинство Ваших клиентов в настоящее время находятся в Европе или в других местах?

Alex Chudnovsky: Я могу сказать, что у нас есть клиенты из США, Канады и конечно из Европы. Я могу сказать, что примерно 60% из Европы и 40% из Америки.

Если смотреть на реальный размер рынка, то вероятно должно быть наоборот. Мы не так сильны в Соединенных Штатах, так как мы находимся в Европе, но мы получаем все больше клиентов и определенно растем в Северной Америке.

Заметьте, в Вашем интервью Рэнда Фишкина (Rand Fishkin) о Linkscape, Вы задавали Рэнду вопрос о ботах, которые они используют, выполняют ли они для себя расширенное сканирование. Rand сказал, что в некоторых случаях, но не во всех. В Majestic-12 есть наш собственный бот, мы издаем информацию о нашем боте, и мы очень открыты в этих аспектах.

Мы не просим, чтобы другие сканировали для нас. Мы фактически собираем данные самостоятельно, у нас есть адреса и мы сами решаем что сканировать. Это – на сто процентов только наши усилия.

Eric Enge: Таким образом, чтобы обеспечить достаточный уровень сканирования у Вас должен быть довольно значительный информационный центр?

Alex Chudnovsky: Поскольку у нас есть распределенная компьютерная сеть, это позволяет нам распределить эту сложную задачу на большое количество компьютеров. Таким образом, мы практически не нуждаемся в информационных центрах, которые способны проводить этот вид сканирования. Это - наше коммерческое преимущество, которое дает нам повод надеяться, что мы можем достигнуть масштаба Google в области анализа бэклинков.

Eric Enge: Как Вы получаете доступ к компьютерам, которые находятся в Вашей сети?

Alex Chudnovsky: Это делается людьми, которые присоединяются к нашему проекту, Majestic-12 Distributed Search Engine project. Они присоединяются и используют на своих компьютерах наше программное обеспечение. Непосредственно мы ничего не устанавливаем. Мы создали себе имя в области распределенных вычислений, и это стопроцентные добровольцы. В этой области есть много проектов, но мы уникальны среди проектов распределенных вычислений, обычно интенсивно использующих процессор.

Eric Enge: Как Вы набираете своих участников?

Alex Chudnovsky: У нас есть вебсайт, www.majestic12.co.uk, который является главным сайтом нашего проекта, добровольцы присоединяются к нам там. Сейчас у нас более 100 постоянных пользователей, которые отправляют нам результаты. За сутки они обычно сканируют более 5 терабайт данных и примерно 200 миллионов URL. Первыми, которые нашли нас, были люди, заметившие наш бот в своих файлах системного журнала.

После того, как они заметили наш бот, они искали и нашли нашу веб-страницу, прочитали о нашем проекте, им понравилась идея и они присоединились к нему. Это описание того, как мы начинали, а по прошествии некоторого времени мы стали известны среди сообщества распределенных вычислений. У нас есть активные люди, которые также участвуют и в других проектах распределенных вычислений.

Они говорят о нас, и это помогает увеличить интерес к нашему проекту, именно таким образом мы достигли точки, когда нас поддерживает большое количество пришедших к нам добровольцев.

Eric Enge: Что они для себя в этом находят?

Alex Chudnovsky: Помните, наша главная цель - компания должна построить поисковую машину, которая сможет конкурировать с Google с точки зрения релевантности, скорости и масштаба. В качестве составной части этого мы также должны понять интернет лучше, в особенности роль бэклинков. Это абсолютные добровольцы, мы сейчас им ничего не платим. У нас будет отдельная компания для наших партнеров, которой будут принадлежать 20 % акций в главной коммерческой компании, которой принадлежит торговая марка Majestic-SEO. Я должен подчеркнуть, что деньги не являются главным мотивом для людей, которые приняли участие в нашем проекте.

Мы действительно не хотим, чтобы люди приходили к нам только с мыслью о материальном стимуле, поскольку это может вызвать проблемы. В нашем случае много людей, которые пришли сами, интересуясь распределенными вычислениями вообще и нашим проектом в частности. Им нравится проект, им нравится идея попробовать создать конкурента Google, и им не нравятся монополии.

Они находят, что руководство проекта, методы нашей работы, направление, в котором мы двигаемся, а также обратная связь между нами и ими это хорошо; настолько, что стоит находиться поблизости. Вот как мы сохраняем людей, которые стали частью этого проекта.

Eric Enge: Сколько у Вас участников?

Alex Chudnovsky: Сегодня у нас более 100 активных участников. Однако, если Вы смотрите с точки зрения компьютеров, у нас есть приблизительно 150 машин, сканирующих Интернет из различных точек мира и анализирующих данные.

Eric Enge: Как у Вас получается поддерживать сервисы на приемлемом уровне?

Alex Chudnovsky: Это очень трудно. Позвольте мне только рассказать Вам, что Вы можете сделать в нашем индексе. Во-первых, Вы можете искать точный URL, и Вам дадут быстрый ответ. Или Вы можете искать домен, введя доменное имя. Например, Вы набрали google.com, в этом случае у нас будут результаты поиска, включающие главные URL этого сайта, а также немного общей статистики, сколько именно ссылающихся бэклинков являются внутренними или внешними.

Также мы тоже показываем, сколько всего ссылающихся доменов, на которые расположены бэклинки, чего например Yahoo не делает. Я думаю, что наше соревнование требует, чтобы мы показывали эту информацию за деньги, но мы показываем это бесплатно. К проекту индекса было приложено много усилий для уверенности, что он может быть соизмерим с количеством URL, которые имеют Google и Yahoo.

Eric Enge: Вам наверняка необходимы мощные аппаратные средства.

Alex Chudnovsky: Проект действительно использует довольно мощные аппаратные средства.

Eric Enge: Сколько серверов участвуют в этом процессе?

Alex Chudnovsky: Первая часть это сканирование и анализ, который делается распределенным сканером. Это приблизительно 150 машин. Не все эти компьютеры работают 24/7, но многие работают, и они делают большую часть работы. У нас много привлеченных аппаратных средств; но выбранный нами путь привел к тому, что мы не обязательно должны иметь эти аппаратные средства непосредственно в компании.

Эти компьютеры делают сканирование, анализ и отсылают данные центральным серверам. Серверы конечно тоже делают довольно большую работу, но мы не нуждаемся в очень многом. У нас менее 10 серверов, которые делают заключительную обработку и обслуживают текущий поиск.

Eric Enge: Большое спасибо, Алекс!

Alex Chudnovsky: Большое спасибо, Эрик!
User is offlineProfile CardPM
Go to the top of the page
+Quote Post
 
Reply to this topicStart new topic
Відповідей(1 - 4)
Algon
Jan 10 2009, 15:06
Пост #2


Ambulance
*******

Група: Trusted Members
Повідомлень: 899
З нами з: 11-November 08
З: Бердянск, СИЗО ГУВД :)
Користувач №: 862
Стать: Чол
Парк машин:
QX9650, Q8400S, Q8200S, Q6600, E6750, E4500, Xeon 5110, X2 5600+, M540, M420.



Перевод по абзацам (в одно сообщение все не вошло)

Alex Chudnovsky Interviewed by Eric Enge

Published: December 29, 2008

Алекс Чудновский в интервью Эрика Энге

Опубликовано: 29 декабря 2008 года.

Alex Chudnovsky is the founder and managing director of Majestic-12 – a UK based firm that specializes in cross-platform .NET/C# development of scalable high-performance data analysis applications with primary focus on creation of the World Wide Web search engine. Majestic also uses the trade name Majestic SEO which publishes a backlinking tool that is a competitor to SEOmoz's Linkscape.

Алекс Чудновский - основатель и управляющий директор Majestic-12 – базирующейся в Великобритании фирмы, которая специализируется в области развития масштабируемых высокоэффективных решений анализа данных на кросс-платформе .NET/C # с приоритетным направлением на создание поисковой машины WWW. Majestic также использует торговую марку Majestic SEO, который издает бэклинк-инструмент, являющийся конкурентом Linkscape SEOMOZ.
Примечание: Бэклинки (бэки) - от слова backlink. Внешние ссылки на сайт или на страницу (т.е. ссылки с других сайтов).

Alex previously worked for a number of well-known retail businesses with primary focus on maximizing sales from their respective retail web sites. Utilizing extensive business and technical skills for Jungle.com (part of the Argos Retail Group), formerly top 10 UK e-tail website that handled over a billion hits annually, Alex led many significant projects with a proven overall economic effect of over £15 m in additional online sales.

Алекс ранее работал на одну из хорошо известных сетей розничной торговли, специализируясь на увеличении продаж интернет-магазинов. Используя обширные деловые и технические навыки для Jungle.com (подразделение Argos Retail Group), некогда возглавлявшего топ-10 британских вебсайтов интернет-продаж и имевшего ежегодно более миллиарда хитов, Алекс руководил многими серьезными проектами с экономическим эффектом от дополнительных онлайн-продаж, составлявшим более 15 миллионов фунтов.

Interview Transcript

Запись интервью

Eric Enge: Tell me a little bit about Majestic-SEO at a company level.

Eric Enge: Расскажите немного о Majestic-SEO как о компании.

Alex Chudnovsky: We have a registered company in the UK, which is called Majestic-12 Limited, and we started a distributed search engine project four years ago. The goal is to build a viable alternative to Google. And because we were small and they were big, we had to find some ways of catching up. The way that we chose was to develop distributed computing on the internet.

Alex Chudnovsky: Наша компания зарегистрирована в Великобритании и называется Majestic-12 Limited. Мы начали проект распределенной поисковой машины четыре года назад. Наша цель состоит в том, чтобы построить конкурентоспособную альтернативу Google. Мы были маленькими, а они большими, но мы должны были найти способы их догнать. Способ, который мы выбрали, состоял в создании проекта распределенных вычислений в Интернет.

Projects such as SETI@Home, distributed.net were the basis of the approach we took. We created software and we started crawling the web using volunteers all around the world. This is our main project, and it has been going on for four years now. About two years ago, when we used the data to create a full-text search index, we had one billion pages indexed. As we were building it bigger and bigger, we realized that relevance was becoming a problem.

Мы взяли за основу подход, примененный в таких проектах как SETI@Home, distributed.net. Было создано соответствующее программное обеспечение и мы начали постепенно сканировать сеть, используя добровольцев со всего мира. Это наш главный проект, и он продолжается уже в течение четырех лет. Примерно два года назад, когда мы создавали полнотекстовый поисковый индекс, мы внесли в него миллиард страниц. Постепенно мы делали его все больше и больше, и мы поняли, что релевантность становилась проблемой…

You can’t beat Google unless you are as relevant as Google. The solution for this was to look more closely at the web graph, look at the backlinks and analyze link text in order to be just as smart about it as Google is. You really have to do that, because when you rank in competitive categories, you have so many matches that you have to discriminate against many of them to decide which ones are the best and most relevant.

Вы не сможете победить Google, если Вы не станете таким же значимым, как Google. Решение заключается в более подробном изучении web-схем, поиске бэклинков и анализе текстовых ссылок, чтобы знать обо всем этом не меньше, чем Google. Если Вы хотите занять место в соперничающее в категории, Вы действительно должны делать это, потому что у Вас есть множество совпадений, к которым Вы должны относиться дифференцированно для решения, какие лучше и наиболее относятся к делу.

This is where backlinks come into play big time, because that’s really one of the key objective ways to differentiate between more popular and less popular sites. When we realized this two years ago, it became clear that we needed a separate index that would help us understand backlinks and link text better. So, we started working on the so-called “anchor index” and we’ve been doing it for two years with many index builds.

В этом деле бэклинки играют важную роль, потому что это действительно один из основных способов дифференцироваться между более популярными и менее популярными сайтами. Когда мы поняли это два года назад, стало ясно, что мы нуждаемся в отдельном индексе, который поможет нам лучше понять бэклинки и текст ссылок. Так, мы начали работать над так называемым “якорным индексом” (anchor index), и мы это делали в течение двух лет, многократно перестраивая индекс.

It was very, very difficult to build a large index that was close to that of Yahoo and Google. But, we built it, and early this year we launched a commercial offshoot to help us fund further R&D activities. This is what Majestic-SEO was designed for. It is the same company, but it’s our trading name that we use to position ourselves in the SEO industry.

Это очень, очень трудно - построить большой индекс, который был бы близок сходному в Yahoo и Google. Но мы построили это, и в начале этого года мы начали коммерческое ответвление, призванное помочь нам в дальнейшем финансировать исследования и разработки. Для этого был разработан Majestic-SEO. Это та же самая компания, просто именно это торговое имя мы используем в области SEO (оптимизации поисковых систем).

So, what we have in Majestic-SEO is the biggest publicly available backlinks index. It allows webmasters to verify their sites and obtain extensive backlinking data for free. If you want information for your competitor websites, then you can pay to obtain reports and compare the websites. It’s essentially like Google Webmaster Tools, but you can get information on competitive sites and we show complete data.

В Majestic-SEO собран самый большой публично доступный индекс бэклинков. Это позволяет веб-мастерам проверять свои сайты и бесплатно получать обширные данные о бэклинках. Если же Вы хотите получить информацию о вебсайтах своих конкурентов, то Вы можете заплатить для получения отчетов и сравнения вебсайтов. В общих чертах это похоже на Инструменты для веб-мастеров от Google, но Вы можете дополнительно получить информацию о соперничающих сайтах, и мы показываем полные данные.

Unlike Google, we show all data that we have, and we actually have quite a lot of sites with many millions of backlinks. We will show you the whole lot if you want it. And, we include a number of analytical options that allow you to focus on the areas you are most interested in. So, in a nutshell, this is what Majestic-SEO is about.

В отличие от Google, мы показываем все имеющиеся у нас данные, и у нас есть значительное количество сайтов со многими миллионами бэклинков. Мы покажем Вам многое из того, что Вы хотели бы увидеть. И мы предоставляем много аналитических опций, которые позволят Вам сосредоточиться на областях, которыми Вы больше всего интересуетесь. Итак, в этом орешке – Majestic-SEO.

Eric Enge: How many web pages have you crawled?

Eric Enge: Какое количество веб-страниц вы собрали?

Alex Chudnovsky: So far we have crawled about 114 billion in total (this figure includes urls that failed to get crawled due to various reasons – 404 Not Found, server was down etc). The total crawled data size is over 2.5 peta bytes. If you look at the number of unique pages that we include within our index in Majestic-SEO, we have over 52 billion unique crawled pages in our current index that will grow again in January 2009. We show all these stats on our website. We consider a url being a page if the URL was successfully crawled. We analyze those urls and pick up links from those pages as well as other metrics.

Alex Chudnovsky: Пока мы обработали примерно 114 миллиардов (это число включает и URL, которые были не обработаны по различным причинам – «404 Не найдено», «Сервер недоступен» и т.д). Общее количество обработанных данных - более 2.5 петабайт. Если Вы посмотрите на количество страниц, которые мы включили в наш индекс в Majestic-SEO, Вы увидите в нашем текущем индексе более 52 миллиардов уникальных обработанных страниц, который с января 2009 года еще будет увеличиваться. Мы показываем все эту статистику на нашем вебсайте. Мы рассматриваем адрес (URL) как страницу, если адрес успешно обработался. Мы анализируем эти адреса и собираем ссылки на этих страницах, а так же другие их характеристики.

If you look at our database in terms of unique URLs, then we have lots more of those than crawled pages. Google recently claimed to have one trillion unique URLs that they knew of, but they have not crawled them all yet. It’s the same with us. For us, the number of unique URLs is 346 billion, 52 billion of which are pages, meaning that these are the URLs that we crawled successfully at least once. Our aim is to catch up with Google by the end of next year.

Если Вы посмотрите на нашу базу данных с точки зрения уникальности URL, то таких гораздо больше, чем обработанных страниц. Google недавно заявил, что они собрали триллион уникальных URL, но еще не все обработали. То же самое и у нас. В нашей базе 346 миллиардов уникальных URL, 52 миллиарда из которых являются страницами. Это означает, что данные страницы как минимум однажды были успешно обработаны. Наша цель состоит в том, чтобы догнать Google к концу следующего года.

Eric Enge: You’ve organized this in a product that people can explore and pull down link profiles for different domains? I presume you do things like pull the anchor text and that sort of stuff?

Eric Enge: Вы собрали это в продукте, который люди могут попробовать и получить профили ссылок различных доменов? Я предполагаю, что Вы также предоставляете «якоря» текста и сортировку материалов?

Alex Chudnovsky: Yes, we supply the link text, if it was present, date when backlink was found ,and a number of flags, such as whether it was an image link, or it was a redirect, or whether it was in a frame. The latter can be very useful because you can actually check backlinks for your own site. You can actually find the people who have embedded your site in a frameset, and you may not necessarily see this information from your log files, because if it’s in a frameset, the referrer may not be set in log files and it may not be obvious to you that your site was quite literally framed.

Alex Chudnovsky: Да, мы предоставляем текст ссылок, если он был, дату, когда бэклинк был найден, а также множество флагов, например, была ли эта ссылка графической, или это была переадресация, и было ли это в структуре фрейма. Последний флаг может быть очень полезным, потому что Вы можете фактически проверить бэклинки на свой собственный сайт. Вы можете фактически найти людей, включивших Ваш сайт в frameset. Вы не обязательно можете видеть эту информацию в файлах системного журнала, потому что если ссылка находится в frameset, referrer может быть не отмечен в файлах системного журнала, и Вы возможно и не обнаружите, что Ваш сайт был включен во фрейм.

We also have a measure of how important the page is, called ACRank. ACRank stands for “A Citation Rank.” What it basically is, is a number from 0 to 15, with higher being better. A higher number shows that there were more referring external domains linking into that page. For example, if both Google and our site’s homepages linked to your site, we will rank the Google link higher than ours because Google itself would have a lot more referring domains that point into them.

У нас также есть указатель того, насколько важна страница, который называется ACRank. ACRank обозначает “Уровень Цитирования.” Это число от 0 до 15, чем выше - тем лучше. Более высокое число означает, что большее количество внешних доменов ссылаются на эту страницу. Например, если начальные страницы Google и нашего сайта ссылаются на Ваш сайт, мы оценим ссылку Google выше, чем нашу, потому что у самого Google намного больше ссылающихся на них доменов.

This allows our customers to focus on the most important links first, because they would know that those links are coming from pages that are themselves very heavily linked to.

Это позволяет нашим клиентам сосредотачиваться сначала на самых важных ссылках, потому что они знают, что эти ссылки идут со страниц, которые в свою очередь сами являются очень популярными.

Eric Enge: Right. You are doing that based on a proprietary calculation method?

Eric Enge: Хорошо. Вы делаете все это, основываясь на собственном методе расчетов?

Alex Chudnovsky: Yes, it is very simple at the moment. It’s basically an indication of how many unique referring domains will link into the page which links to you.

Alex Chudnovsky: Да, в настоящее время это очень просто. Это в первую очередь указатель того, сколько уникальных доменов ссылаются на страницу, которая имеет ссылки на Вас.

Eric Enge: When did you release this product?

Eric Enge: Когда Вы выпустили этот продукт?

Alex Chudnovsky: We launched Majestic-SEO in February of this year. We were not selling data at the time we launched it because it was effectively soft-launched as a test to allow webmasters to come to our site and verify their domains to get information for free. So, we were getting all this feedback. In July we launched new option, which allowed our customers to actually buy reports on domains that they do not own. From the commercial point of view we launched in July 2008.

Alex Chudnovsky: Мы начали Majestic-SEO в феврале этого года. Раньше, когда мы начинали, мы не продавали данные, потому что эффективнее и проще было начинать с теста, позволявшего веб-мастерам заходить на наш сайт и проверять свои домены, получая информацию бесплатно. Таким образом мы получали обратную связь. В июле мы запустили новую опцию, которая позволила нашим клиентам фактически покупать отчеты по тем доменам, которые им не принадлежат. С коммерческой точки зрения мы начали свою деятельность в июле 2008.

Eric Enge: How many people have signed up so far?

Eric Enge: Сколько людей уже воспользовались?

Alex Chudnovsky: We have a lot. It’s exceeded our expectations definitely. We are gaining acceptance right now, and we are converting traffic really well. We get a lot of people who come to our site just to verify their own domain and to check out whether the service is good or not.

Alex Chudnovsky: Довольно много. Это определенно превысило наши ожидания. Прямо сейчас многие присоединяются, и мы действительно хорошо конвертируем трафик. К нам приходит много людей, проверяющих на нашем сайте свои домены и качество обслуживания.

Then we convert them to actual paying customers because they see that they can look at their own domains and the information we have on their own sites. This is where they become believers in our information, because it’s the best way to check.

После этого мы превращаем их в платных клиентов, потому что они видят, что именно могут узнать о своих собственных доменах, и какой информацией мы располагаем об их собственных сайтах. Они начинают доверять нашей информации, потому что это лучший способ проверки.

Eric Enge: What is the commercial model?

Eric Enge: Каков Ваша бизнес-платформа?

Alex Chudnovsky: We have different pricing for different domains. The fundamental issue for us is that some domains are a lot bigger than others. For example, if we take Google as a domain then our database tells me that we have 3.7 billion external backinks to google.com.

Alex Chudnovsky: Наши цены отличаются для различных доменов. Основная проблема для нас в том, что некоторые домены намного больше, чем другие. Например, если мы возьмем Google как домен, тогда наша база данных скажет мне, что имеется 3.7 миллиарда внешних бэклинков к google.com.

When we name this number, it means that we actually have that many backlinks that we can retrieve. This is quite a critical difference from some of our competition. They will often show you a limited number of backlinks, such as what you can get in Yahoo Site Explorer. But in our case, when you buy access to the domain, you get the whole lot, all the information you can retrieve at no extra charge.

Когда мы называем это число, это означает, что у нас действительно есть так количество бэклинков, которые мы можем получить . Это очень разительный разрыв в нашем соревновании. Обычно Вам будет показано ограниченное число бэклинков, примерно такое, которое вы можете получить в Yahoo Site Explorer. Но в нашем случае, когда Вы покупаете доступ к домену, Вы получаете и дополнительную информацию, которую Вы можете получить без всякой дополнительной оплаты.

So, we have very large domains like google.com and we have small domains like our own site www.MajesticSEO.com. We have one thousand external backlinks in our database at the moment, and that is a number that is growing quite quickly. So, we have different domain pricing which depends on how heavily linked the domain is.

У нас есть очень большие домены, как google.com, а также у нас есть маленькие домены, как наш собственный - www. MajesticSEO.com. Сейчас в нашей базе данных всего тысяча внешних бэклинков, но это число, растущее очень быстро. Итак, наши цены различны для доменов и зависят от того, сколько внешних ссылок имеет домен.

We also offer some time based options. You can subscribe to domains data for seven days, 1 month, 3 months, 6 months or 12 months. So for domains that you might just be curious about, it makes sense to buy them for seven days, just to check out the information. Those that you want to keep an eye on for longer, it makes sense to buy for 12 months, as the monthly price gets reduced as you subscribe for longer periods of time.

Мы также предлагаем базовые тарифы, основанные на временных промежутках. Вы можете заказать получение данных доменов в течение семи дней, 1 месяца, 3 месяцев, 6 месяцев или 12 месяцев. Для доменов, о которых вы хотите узнать общие данные, имеет смысл покупать семь дней, только для сбора информации. Те, которые Вы хотите отслеживать долгое время, имеет смысл покупать на 12 месяцев, так как среднемесячная цена получается меньше, поскольку Вы подписываетесь на длительный промежуток времени.

Eric Enge: What’s the cost for a domain that has 10,000 links to it?

Eric Enge: Какова цена для домена, у которого есть 10 000 ссылок на него?

Alex Chudnovsky: Let’s take your site for example. On your site, we have 78,000 external backlinks coming from 2,500 referring domains as of now. If you look at the price, you can get it for 10 credits for 7 days. Now, we sell credits and we have different packages for credits. If you buy a bigger package, you get a bigger discount. For example, if you are our client and you want to use our service a lot, it makes sense to buy a thousand credits, because you would get a 30% discount on that.

Alex Chudnovsky: Давайте для примера возьмем Ваш сайт. Для Вашего сайта в настоящее время у нас есть 78 000 внешних бэклинков из 2 500 доменов. Если Вы посмотрите на цену, Вы можете получить их за 10 кредитов в течение 7 дней. Сейчас мы продаем кредиты, и у нас есть различные пакеты за эти кредиты. Если Вы покупаете больший пакет, Вы получаете большую скидку. Например, если Вы - наш клиент, и Вы хотите использовать наше обслуживание долго, имеет смысл покупать тысячу кредитов, потому что Вы получите 30%-ую скидку.

So, if you are a big buyer, the actual price of domains that you buy will be lower for you. In your case, it will be 10 credits for 7 days. In monetary terms, if you buy one thousands credits, it should cost about a dollar a credit. So that means that data on your site could be had for $10. That would include almost 79,000 external backlinks coming from 2,500 referring domains. So, you’ve got quite a popular website. We are also considering introducing a fixed fee subscription model in Q1 2009.

Если Вы будете оптовым покупателем, то фактическая цена доменов, которые Вы покупаете, будет для Вас еще ниже. В Вашем случае это будут 10 кредитов в течение 7 дней. В денежном выражении, если Вы покупаете одну тысячу кредитов, это будет стоить приблизительно доллар за кредит. Так что данные по Вашему сайту можно получить за 10$. Эти данные включают в себя 79 000 внешних бэклинков, находящихся в 2 500 доменов. Да, у Вас весьма популярный вебсайт. Мы также рассматриваем возможность предоставление фиксированной модели оплаты подписки Q1 в 2009 году.

Eric Enge: That’s interesting. Yahoo reports 94,800 by the way. Of course, is has its own accuracy issues as we all know. When did you go live?

Eric Enge: Это интересно. Yahoo между прочим сообщает о 94 800. Конечно, он тоже имеет некоторые проблемы с точностью, о которых мы все знаем. Когда Вы начнете?

Alex Chudnovsky: Basically we do a lot of research at Majestic. We first launched our index in February of this year, but we only started selling payable information in July. The reason for that is that as we were building different indexes. We were providing quantitative assessment to understand how close we were to Yahoo and Google.

Alex Chudnovsky: Majestic пока в основном проводит исследования. Мы впервые запустили наш индекс в феврале этого года, но информацию мы начали продавать только в июле. Причина этого - построение различных индексов. Мы также проводили количественную оценку, чтобы понять, насколько близко мы подошли к Yahoo и Google.

To do this, we picked 20 URLs, some of which were from well-known websites such as Google, Wikipedia, CNN.com, etc. And, we took backlinks from last year that were reported by Google and Yahoo for these URLs.

Для этого мы выбрали 20 URL, часть из которых были на известных вебсайтах, таких как Google, Wikipedia, CNN.com, и т.д. Мы также взяли прошлогодние бэклинки, о которых сообщили Google и Yahoo для этих URL.

Every time we made an index, we actually found the backlinks reported by Yahoo and Google in our index. So as we were growing our index, we could see whether we were improving our quality or not. And we found out that we were matching more and more . What it was showing was that our index is actually getting closer to that of Yahoo’s and less so to Google’s. And I think this is interesting because I don’t think our competition is doing something like this, at least not publicly.

Каждый раз, когда мы индексировали, мы находили бэклинки, сообщаемые Yahoo и Google, и в нашем индексе. Увеличивая наш индекс, мы наблюдали, улучшаем ли мы этим наше качество, или нет. И мы обнаружили, что мы все более и более эффективны. Показателем служило то, что наш индекс становится все более близок к Yahoo и менее к Google. И я думаю, что это интересно, потому что я не думаю, что наше соревнование является чем-то таким, что нельзя предавать огласке.

Eric Enge: You are continuing to run your own crawlers?

Eric Enge: Вы продолжаете использовать свои собственные сканеры?

Alex Chudnovsky: Absolutely, yes.

Alex Chudnovsky: Конечно да.

Eric Enge: Does your client base currently skew towards Europe or other geographies?

Eric Enge: Большинство Ваших клиентов в настоящее время находятся в Европе или в других местах?

Alex Chudnovsky: I would say we get clients from the United States, Canada and a lot from Europe. I would say maybe it’s 60% from Europe and 40% from America.

Alex Chudnovsky: Я могу сказать, что у нас есть клиенты из США, Канады и конечно из Европы. Я могу сказать, что примерно 60% из Европы и 40% из Америки.

If you look at market size in real terms, it probably should be the other way around really. We are not as strong in the United States as we are in the Europe, but we are gaining more and more customers and definitely growing in North America,

Если смотреть на реальный размер рынка, то вероятно должно быть наоборот. Мы не так сильны в Соединенных Штатах, так как мы находимся в Европе, но мы получаем все больше клиентов и определенно растем в Северной Америке.

Note that in your interview of Rand Fishkin about Linkscape, you asked Rand a question about the bots that they are making use of, whether they are leveraged and if they do custom crawling for themselves. Rand said, in some cases but not all. At Majestic-12, we have our own crawler and we publish information about our own crawler and we are very open about these things.

Заметьте, в Вашем интервью Рэнда Фишкина (Rand Fishkin) о Linkscape, Вы задавали Рэнду вопрос о ботах, которые они используют, выполняют ли они для себя расширенное сканирование. Rand сказал, что в некоторых случаях, но не во всех. В Majestic-12 есть наш собственный бот, мы издаем информацию о нашем боте, и мы очень открыты в этих аспектах.

We are not asking others to crawl for us. We actually crawl the data ourselves, we have the URLs and we decide what we crawl. It’s a hundred percent our effort.

Мы не просим, чтобы другие сканировали для нас. Мы фактически собираем данные самостоятельно, у нас есть адреса и мы сами решаем что сканировать. Это – на сто процентов только наши усилия.

Eric Enge: So you must have a fairly substantial data center in order to be able to do that level of crawling?

Eric Enge: Таким образом, чтобы обеспечить достаточный уровень сканирования у Вас должен быть довольно значительный информационный центр?

Alex Chudnovsky: Because we have a distributed computer network it allows us to offload this complicated task to a lot of computers. So, we do not actually need the data centers you would imagine required to sustain this sort of crawling. That’s our commercial advantage that gives us hope that we can reach Google scale in respect of webgraph (backlinks) analysis.

Alex Chudnovsky: Поскольку у нас есть распределенная компьютерная сеть, это позволяет нам распределить эту сложную задачу на большое количество компьютеров. Таким образом, мы практически не нуждаемся в информационных центрах, которые способны проводить этот вид сканирования. Это - наше коммерческое преимущество, которое дает нам повод надеяться, что мы можем достигнуть масштаба Google в области анализа бэклинков.

Eric Enge: How do you acquire the access to the computers that are within your network?

Eric Enge: Как Вы получаете доступ к компьютерам, которые находятся в Вашей сети?

Alex Chudnovsky: This is done by people who join our project, the Majestic-12 Distributed Search Engine project. They join it and they will use our software on the computers that they own. We are not actually installing it ourselves. It’s one hundred percent volunteer and we have built quite a name in the distributed computing area. There are a number of projects out there, but we are fairly unique in that distributed computing projects would usually are CPU intensive.

Alex Chudnovsky: Это делается людьми, которые присоединяются к нашему проекту, Majestic-12 Distributed Search Engine project. Они присоединяются и используют на своих компьютерах наше программное обеспечение. Непосредственно мы ничего не устанавливаем. Мы создали себе имя в области распределенных вычислений, и это стопроцентные добровольцы. В этой области есть много проектов, но мы уникальны среди проектов распределенных вычислений, обычно интенсивно использующих процессор.

Eric Enge: How do you recruit your participants?

Eric Enge: Как Вы набираете своих участников?

Alex Chudnovsky: Well, we have a website, www.majestic12.co.uk, which is our main project site and they sign up there. We have more than 100 regular users who return results to us. In a full day they usually crawl more than 5 terabytes of data and around 200 million URLs. The first people who found us were the people who saw our bot in their log files.

Alex Chudnovsky: У нас есть вебсайт, www.majestic12.co.uk, который является главным сайтом нашего проекта, добровольцы присоединяются к нам там. Сейчас у нас более 100 постоянных пользователей, которые отправляют нам результаты. За сутки они обычно сканируют более 5 терабайт данных и примерно 200 миллионов URL. Первыми, которые нашли нас, были люди, заметившие наш бот в своих файлах системного журнала.

After they saw our bot, they searched and found our web page, read about our project and liked the idea, then they joined it. This is how we started, and after some time we become known among the distributed computing community. We have active people who are also doing other distributed computing projects.

После того, как они заметили наш бот, они искали и нашли нашу веб-страницу, прочитали о нашем проекте, им понравилась идея и они присоединились к нему. Это описание того, как мы начинали, а по прошествии некоторого времени мы стали известны среди сообщества распределенных вычислений. У нас есть активные люди, которые также участвуют и в других проектах распределенных вычислений.

They talk about us and this helps increase the interest in our project, so we have grown to a point where we sustained high number of volunteers who can come to us.

Они говорят о нас, и это помогает увеличить интерес к нашему проекту, именно таким образом мы достигли точки, когда нас поддерживает большое количество пришедших к нам добровольцев.

Eric Enge: What’s in it for them?

Eric Enge: Что они для себя в этом находят?

Alex Chudnovsky: Remember, our main objective as a company is to build a search engine which can rival Google in terms of relevance, speed and scale. As a part of this, we also need to understand the web better, this is where backlinks come into play. It’s strictly volunteer, we have not paid them anything at the moment. What we do is that we will have a separate company for our partners, which will own 20% of shares in the main commercial company, which also owns Majestic-SEO trading name. I have to stress here that money was not the main motivation for the people who took part in our project.

Alex Chudnovsky: Помните, наша главная цель - компания должна построить поисковую машину, которая сможет конкурировать с Google с точки зрения релевантности, скорости и масштаба. В качестве составной части этого мы также должны понять интернет лучше, в особенности роль бэклинков. Это абсолютные добровольцы, мы сейчас им ничего не платим. У нас будет отдельная компания для наших партнеров, которой будут принадлежать 20 % акций в главной коммерческой компании, которой принадлежит торговая марка Majestic-SEO. Я должен подчеркнуть, что деньги не являются главным мотивом для людей, которые приняли участие в нашем проекте.

We don’t really want people to come to us specifically for a short-term financial incentive in mind, as this can cause problems. In our case, many people who came naturally were interested in distributed computing in general and our project in particular. They like the project, they like the idea of trying to to create a competitor to Google, and they don’t like monopolies.

Мы действительно не хотим, чтобы люди приходили к нам только с мыслью о материальном стимуле, поскольку это может вызвать проблемы. В нашем случае много людей, которые пришли сами, интересуясь распределенными вычислениями вообще и нашим проектом в частности. Им нравится проект, им нравится идея попробовать создать конкурента Google, и им не нравятся монополии.

They found that the administration of the project, the way we work, the direction in which we are trying to move, and the feedback that we give to them is good; so it’s worth sticking around. This is really how we retain the people who are taking part in this project.

Они находят, что руководство проекта, методы нашей работы, направление, в котором мы двигаемся, а также обратная связь между нами и ими это хорошо; настолько, что стоит находиться поблизости. Вот как мы сохраняем людей, которые стали частью этого проекта.

Eric Enge: How many participants do you have?

Eric Enge: Сколько у Вас участников?

Alex Chudnovsky: Today we have more than 100 active participants. However, if you look in terms of computers, we have about 150 machines crawling the Internet and analyzing data from different locations in the world.

Alex Chudnovsky: Сегодня у нас более 100 активных участников. Однако, если Вы смотрите с точки зрения компьютеров, у нас есть приблизительно 150 машин, сканирующих Интернет из различных точек мира и анализирующих данные.

Eric Enge: How do you get the service to perform acceptably well?

Eric Enge: Как у Вас получается поддерживать сервисы на приемлемом уровне?

Alex Chudnovsky: That was very difficult. Let me just tell you what you can do in our index. First, you can search for the exact URL and they give you a quick answer. Or you can search for a domain by typing the domain name. Say you typed google.com, in this case we would have search results showing top URLs from that site with some basic statistics, such as how many referring backlinks are internal or external.

Alex Chudnovsky: Это очень трудно. Позвольте мне только рассказать Вам, что Вы можете сделать в нашем индексе. Во-первых, Вы можете искать точный URL, и Вам дадут быстрый ответ. Или Вы можете искать домен, введя доменное имя. Например, Вы набрали google.com, в этом случае у нас будут результаты поиска, включающие главные URL этого сайта, а также немного общей статистики, сколько именно ссылающихся бэклинков являются внутренними или внешними.

How many referring domains it has is also something we show, but something Yahoo does not. I think our competition wants money to show this information, but we show it for free. A lot of effort was put into design of the index to make sure that it can scale to the number of URLs that Google and Yahoo have.

Мы также показываем, сколько всего ссылающихся доменов, на которые расположены бэклинки, чего например Yahoo не делает. Я думаю, что наше соревнование требует, чтобы мы показывали эту информацию за деньги, но мы показываем это бесплатно. К проекту индекса было приложено много усилий для уверенности, что он может быть соизмерим с количеством URL, которые имеют Google и Yahoo.

Eric Enge: You must need some powerful hardware.

Eric Enge: Вам наверняка необходимы мощные аппаратные средства.

Alex Chudnovsky: It does use fairly powerful hardware.

Alex Chudnovsky: Проект действительно использует довольно мощные аппаратные средства.

Eric Enge: How many servers do you have that are involved in this process?

Eric Enge: Сколько серверов участвуют в этом процессе?

Alex Chudnovsky: One part is the crawling and analysis stuff, which is done by distributed crawler. That is around 150 machines. Now not all of these computers run 24/7, but many do and they do big chunk of work. We have a lot of hardware involved; but because of the way we did it, we don’t need to have this hardware on the premises.

Alex Chudnovsky: Первая часть это сканирование и анализ, который делается распределенным сканером. Это приблизительно 150 машин. Не все эти компьютеры работают 24/7, но многие работают, и они делают большую часть работы. У нас много привлеченных аппаратных средств; но выбранный нами путь привел к тому, что мы не обязательно должны иметь эти аппаратные средства непосредственно в компании.

These computers will do the analyses, the crawl and they will send the data back to the central servers. The servers also do quite a lot of work, but we don’t need that many. We have less than 10 servers that do the final processing and searching at the moment.

Эти компьютеры делают сканирование, анализ и отсылают данные центральным серверам. Серверы конечно тоже делают довольно большую работу, но мы не нуждаемся в очень многом. У нас менее 10 серверов, которые делают заключительную обработку и обслуживают текущий поиск.

Eric Enge: Thanks a lot, Alex!

Eric Enge: Большое спасибо, Алекс!

Alex Chudnovsky: Thank you very much, Eric!

Alex Chudnovsky: Большое спасибо, Эрик!


Проверяем, высказываем замечания, комментируем...
User is offlineProfile CardPM
Go to the top of the page
+Quote Post
nikelong
Jan 12 2009, 00:41
Пост #3


Тера ранчер
**********

Група: Trusted Members
Повідомлень: 12 443
З нами з: 19-March 05
Користувач №: 92
Стать: Чол



Статья опубликована на нашем сайте:
http://distributed.org.ua/index.php?go=Pages&in=view&id=172

Так же дана ссылка на нее на официальном форуме маджестика:
http://www.majestic12.co.uk/forum/viewtopi...p?p=38920#38920

spiteful.gif


--------------------
User is offlineProfile CardPM
Go to the top of the page
+Quote Post
Algon
Jan 12 2009, 00:45
Пост #4


Ambulance
*******

Група: Trusted Members
Повідомлень: 899
З нами з: 11-November 08
З: Бердянск, СИЗО ГУВД :)
Користувач №: 862
Стать: Чол
Парк машин:
QX9650, Q8400S, Q8200S, Q6600, E6750, E4500, Xeon 5110, X2 5600+, M540, M420.



nikelong

Без проверки? blink.gif Конечно спасибо за доверие, но сам я в своих способностях переводчика (особенно в такой специфической области) не совсем уверен.
Или пусть сам Чудновский заходит и проверяет? smile.gif
User is offlineProfile CardPM
Go to the top of the page
+Quote Post
nikelong
Jan 12 2009, 00:46
Пост #5


Тера ранчер
**********

Група: Trusted Members
Повідомлень: 12 443
З нами з: 19-March 05
Користувач №: 92
Стать: Чол



Ты что то лучшее можешь предложить?

Отож.

Перевели, опубликовали. Будут замечены баги - отписывайтесь, исправим!


--------------------
User is offlineProfile CardPM
Go to the top of the page
+Quote Post

Reply to this topicStart new topic
1 Користувачів переглядають дану тему (1 Гостей і 0 Прихованих Користувачів)
0 Користувачів:

 



- Lo-Fi Версія Поточний час: 28th March 2024 - 22:40

Invision Power Board v1.3.3 © 1996 IPS, Inc.