Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия — весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!
Сегодня мы радостно взволнованы тем, что у нас в гостях Рэнд Фишкин, и я хотел бы поблагодарить его за то, что он выделил время, чтобы ответить на несколько наших вопросов, но особенно, — за его профессиональную деятельность до настоящего времени. Рэнд, я долго ждал, чтобы сказать это: спасибо Вам за то, что Вы сделали для продвижения и роста SEO-индустрии, просвещая и наставляя бессчетных SEO-специалистов из всех стран мира.
×