Google использует интеллектуальную технику анализа текстов, которая позволяет искать важные и, вместе с тем, релевантные страницы по вашему запросу. Для этого Google анализирует не только саму страницу, которая соответствует запросу, но и страницы, которые на нее ссылаются, чтобы определить ценность этой страницы для целей вашего запроса. Кроме того, Google предпочитает страницы, на которых ключевые слова, введенные вами, расположены недалеко друг от друга.
Для того чтобы справиться с этой проблемой, индекс разбивают на части и раскладывают по десяткам, сотням и даже тысячам компьютеров. Сами компьютеры начиная с 1997 года (поисковая система Inktomi) представляют собой обычные 32-битные машины (Linux, Solaris, FreeBSD, Win32) с соответствующими ограничениями по цене и производительности. Исключением из общего правила осталась лишь AltaVista, которая с самого начала использовала относительно «большие» 64-битные компьютеры Alpha.
Контент воровать нельзя. Google это палит, ведь он уже проиндексировал тот сайт, где вы украли текст. Происходит пессимизация – поисковик опускает вас в выдаче, потому что вы крадете чужой контент. Вы не полезны и не помогаете удовлетворять потребности пользователей. Но все же не стоит забывать и про поведенческие факторы. Видео, инфографика, все эти интерактивные вещи увеличивают время, которое пользователь проводит у вас на сайте, и заодно помогают улучшить конверсию. Но хорошо подумайте, что для вас сейчас рентабельней — снять видео за $1000 или налить контекстную рекламу на сайт и быстро получить заявки/заказы.
Некоторое время назад мой друг Boris Wertz написал в своем блоге статью «Есть только 2 способа построить бизнес в $100 млн.». Я хотел бы рассмотреть это вопрос подробнее и предположить, что есть пять стратегий создать интернет-компанию на $100 млн. Это не значит, что я не согласен со статьей Бориса. Я думаю, что наши взгляды очень похожи, и по большей части «мои» пять стратегий лишь немного отличаются и более детализируют взгляд Бориса.
Чтобы у читателя не создалось впечатление, что информационный поиск — исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманный и воплощенный у нас в Яндексе (Ильинский). В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертированного файла (или инвертированным индексом), и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
Обратная связь — отклик пользователей на результат поиска, их суждения о релевантности найденных документов, зафиксированные поисковой системой и использующиеся, например, для итеративной модификации запроса. Следует отличать от псевдообратной связи — техники модификации запроса, в которой несколько первых найденных документов автоматически считаются релевантными.
Замечали навязчивую рекламу, преследующую вас по всему интернету? Большинство поисковых систем следят за вами. Политика конфиденциальности поисковой системы ДзенПоиск не предусматривает записи и хранения какой-либо пользовательской информации и слежения за пользователями. Поисковая система не хранит и, следовательно, не может никому передать журнал поисковых запросов, посещенных сайтов, IP адрес пользователя и т. д.
Прежде всего, стало очевидно, что поиск в вебе не может быть сколько-нибудь корректно выполнен, будучи основан на анализе (пусть даже сколь угодно глубоком, семантическом и т.п.) одного лишь текста документа. Ведь внетекстовые (off-page) факторы играют не меньшую, а порой и бо́льшую роль, чем текст самой страницы. Положение на сайте, посещаемость, авторитетность источника, частота обновления, цитируемость страницы и ее авторов — все эти факторы невозможно сбрасывать со счета.
Большинство веб-поисковиков по Tor бессовестно зарабатывают на рекламе: вы получаете результаты из Tor, и вдобавок — горсть рекламных объявлений и трекинг в подарок. notEvil принципиально этим не занимается. Понятное дело, что об отслеживании IP и использовании cookie речь тут вообще не идет. Сайт пригодится тем, кто хочет познакомиться с содержимым невидимого интернета; хардкорная анонимность гарантируется. Кстати, рекомендуем сразу сохранить себе ссылку в закладки — URL-адреса категории «Tor-to-web» очень недружелюбны в плане запоминания.
Данные типы поисковиков получают списки интернет-страниц. Каталоги включают в себя адрес, заголовок и краткие данные об интернет-ресурсе. Каталоги ищут результаты только из описаний страниц, предоставленных веб-мастерами. Преимущество каталогов в ручной проверке сайтов, что непосредственно влияет на качество контента. В этом случае оно будет выше, чем результаты, автоматически обработанные первым типом поисковиков.
Если вы сторонник открытого ПО и свободного интернета, не подверженного влиянию государственных органов и крупных корпораций, то YaCy — это ваш выбор. Также с его помощью можно организовать поиск внутри корпоративной или другой автономной сети. И пусть пока в быту YaCy не слишком полезен, он является достойной альтернативой Google с точки зрения процесса поиска.
Мы проводим внешний и внутренний SEO-аудит, помогаем сайтам, на которые автоматически или вручную наложены санкции Google, а также страницам, которые потеряли позиции из-за изменения алгоритмов Google (например, Panda и Penguin). Анализируем действия конкурентов и оцениваем риски с точки зрения Google Поиска. Мы работаем и с крупными, и с небольшими сайтами.
Однако поисковая система уже несколько раз предпринимала явные, а иногда и тайные попытки манипуляции поисковой выдачей. Например, в феврале этого года Google заявила, что будет бороться с вербовкой террористической организации ИГИЛ в интернете. В Google не нашли ничего лучшего, чем при запросах, связанных с этой террористической организацией, перенаправлять пользователей на сайты антирадикальной направленности. Такими контрпримерами Google хочет остановить  пропаганду ИГИЛ в интернете. Желание Google похвально и объяснимо. Однако такими способами поисковая система, по сути, превращается в интернет-цензора.
Все факторы, влияющие на положение сайта в выдаче поисковой системы, можно разбить на внешние и внутренние. К внутренней оптимизации (касающейся исключительно внутренней системы сайта) относится работа, направленная на общее повышение качества сайта, пользы, которую он приносит посетителю. Сюда можно отнести работу над структурой проекта, над облегчением восприятия контента и непосредственно над качеством этого контента. Значение общего количества таких факторов в большинстве источников колеблется в районе 200. Функциональный подход к поисковой оптимизации, направленный на подгонку определённых факторов к их целевым значениям, отошел в прошлое в связи с усложнением алгоритмов поисковых систем — стоимость «балансирования» десятков факторов многократно превышает стоимость создания изначально качественного ресурса.

Само название нашего стартапа мы пока не можем упоминать, по просьбе администрации Хабрахабра, сейчас мы подали заявку на присвоение нам статуса «Стартап». Однако, о функционале и наших идеях мы можем рассказать уже сейчас. Наша система обеспечивает актуальность информации о событиях для пользователя и грамотное управление данными – в системе, каждый пользователь сам определяет, что смотреть и читать, управляет поиском и рекомендациями.

×