Фишки из патентов Google, о которых вы могли не знать

Google постоянно совершенствует свои алгоритмы и иногда использует такие подходы, о которых можно было лишь догадываться. Свои разработки Google патентует, поэтому, анализируя опубликованные патенты, можно узнать больше о том, как все устроено на той стороне. Конечно же, не все разработки внедряются полностью или сразу, но оптимизаторам будет полезно с ними ознакомиться. Часть из описанных ниже патентов были рассмотрены на GURUCONF в прошлом году.

Итак, что же интересного можно узнать, изучая патенты гугла?

1. Семантическая близость слов важнее визуальной

Авторы: Harik; Georges R. (Mountain View, CA), Henzinger; Monika H. (Lausanne, CH)
Владелец патента: Google Inc. (Mountain View, CA)
Номер заявки: 10/813,573
Подано: March 31, 2004
Опубликовано: May 11, 2010

Название: Ранжирование документов на основе семантической близости между терминами в документе
(англ: Document ranking based on semantic distance between terms in a document)

Указываются техники, обнаруживающие неявно определенную структуру в документе, например, неявную структуру списков в HTML документе. В расчетах, наряду с расстоянием между терминами может использовать семантическая структура. Значения расстояния может использоваться, например, при рассчете ранжирующих коэффициентов, указывающих уровень релевантности документа поисковому запросу.

Из этого патента мы узнаем, что Google может сам размечать документы. Например, если для списков не указаны HTML-теги <li>, то они могут создаваться на основе других структур.

  • Списки могут создаваться таблицами <table>, <tr>
  • Могут создаваться блоковыми элементами <div>
  • Тегами параграфа <p>
  • Просто с помощью разделителей строк <br>

Заголовки могут идентифицироваться не только из элементов <h1>, <h2> и т.д., но также из отдельных строк, которые выглядят как заголовки (название таблиц, изображений, выделение коротких предложений в <strong> и пр).

Пример неявного списка

В примере выше, Google воспримет этот кусок кода как неявный список с заголовком «Saturn Facts» и элементами, отделенными тегом BR.

Узнать обо всех фишках…

Источник: Девака