Хотя размер базы в интернете на поверхностный взгляд не кажется критическим фактором, это не так. Недаром рост посещаемости таких машин, как Google и Fast, хорошо коррелирует именно с ростом их баз. Основная причины: «редкие» запросы, то есть те, по которым находится менее 100 документов, составляют в сумме около 30% от всей массы поисков — весьма значительную часть. Этот факт делает размер базы одним из самых критичных параметров системы.
Суффиксные деревья, суффиксные массивы (suffix trees, suffix arrays, PAT-arrays) — индекс, основанный на представлении всех значимых суффиксов текста в структуре данных, известной как «бор» (trie). Суффиксом в этом индексе называют любую «подстроку», начинающуюся с некоторой позиции текста (текст рассматривается как одна непрерывная строка) и продолжающуюся до его конца. В реальных приложениях длина суффиксов ограничена, а индексируются только значимые позиции — например, начала слов. Этот индекс позволяет выполнять более сложные запросы, чем индекс, построенный на инвертированных файлах.
Сегодня мы радостно взволнованы тем, что у нас в гостях Рэнд Фишкин, и я хотел бы поблагодарить его за то, что он выделил время, чтобы ответить на несколько наших вопросов, но особенно, — за его профессиональную деятельность до настоящего времени. Рэнд, я долго ждал, чтобы сказать это: спасибо Вам за то, что Вы сделали для продвижения и роста SEO-индустрии, просвещая и наставляя бессчетных SEO-специалистов из всех стран мира.
×