вторник, 15 января 2019 г.

Может ли гармоническая центральность быть новым PageRank?


Графики помогают нам лучше понять реальный мир с помощью математических абстракций и моделей, чтобы определить сущности и отношения между ними в структурах.

Многие реальные приложения используют графики, в том числе поисковые системы.

Поисковые системы используют графики для различных целей, таких как понимание популярности страниц или обнаружение спам-ссылок.

Центральность является важной концепцией, используемой для графиков. Мы используем количественную меру, называемую мерой центральности, чтобы обнаружить важность узлов, которые являются существенными единицами, формирующими граф.

Известно, что очень популярная поисковая система идентифицирует популярность узлов (веб-страниц), используя PageRank в качестве меры центральности. PageRank был самым известным показателем центральности для графиков.

В этой статье я остановлюсь на «Гармонической центральности», потому что она является многообещающей и теоретически недорогой мерой центральности.

Гармоническая Центральность
Гармоническая центральность является гораздо более поздней мерой, чем большинство других мер центральности, и вариантом другой меры, которая является центральностью близости.

Впервые он был предложен Массимо Марчиори и Вито Латора в 2000 году, затем Dekker (2005) и Rochat (2009).

Гармоническая центральность - это основанная на расстоянии мера центральности, в отличие от PageRank.

В алгоритме PageRank важность узла определяется важностью окрестности, а не расстояния. Чем более важные страницы указывают на страницу, тем важнее становится эта страница.

Чтобы понять гармоническую центральность в простых терминах, вот пример.

Представьте, что есть страница под названием пример.

Если есть 50 страниц, ссылающихся непосредственно на эту страницу, они называются страницами на расстоянии 1, и вы начинаете считать 50.

Могут быть страницы, ссылающиеся на примерную страницу, но не напрямую, поэтому мы называем их Дистанцией 2. Допустим, есть 100 таких страниц, на этот раз мы считаем 50 и добавляем к 50, что делает наш счет 100.

На этот раз могут быть страницы на расстоянии 3 со 150 ссылками. Таким образом, мы считаем 50, что делает наш общий счет 150.

Это гораздо проще понять, чем PageRank, не так ли?

Лучшая мера центральности
Гармоническая центральность может быть выбрана в качестве одной из самых простых мер центральности для понимания, и мы можем на этом остановиться.

Тем не менее, он также был выбран в качестве лучшей меры центральности в научной статье. Авторы исследования, Паоло Болди и Себастьяно Винья, описывают лучшую меру центральности следующими словами:

«Наши результаты показывают, что измерения центральности, основанные на расстояниях, которые в последние годы игнорировались при поиске информации в пользу измерений спектральной центральности, действительно обеспечивают высококачественные сигналы; кроме того, Гармоническая Центральность появляется как превосходный универсальный индекс центральности для произвольных ориентированных графов ».

Существует убедительное видео под названием «Современный взгляд на меры центральности», где Болди говорит о мерах центральности в целом и гармонической центральности в частности.

В видео он также представляет сравнение измерений PageRank и гармонической центральности на голливудском графике. В его конкретном примере гармоническая центральность выбирает верхние узлы лучше, чем PageRank.

Кроме того, некоммерческая организация Common Crawl, которая сканирует Интернет с 2011 года, предпочитает эту меру централизации.

С 2017 года Common Crawl использует гармоническую централизацию в своей стратегии сканирования для определения приоритетов путем анализа ссылок.

Когда они публикуют информацию об уровне домена в своих сообщениях в блоге, домены ранжируются в соответствии с их гармоническими значениями центральности, а не с их значениями PageRank.

В этой статье я проведу анализ данных, чтобы выяснить, меньше ли его стоимость расчета, чем PageRank.

Существует программное обеспечение, которое аппроксимирует гармоническую центральность для очень больших графиков, чтобы еще больше снизить стоимость вычислений. Я не использовал его, но стоит упомянуть, если вы хотите попробовать это сами.

Для поисковых систем и для SEO гармоническая центральность является полезной мерой центральности, потому что она:

Это просто понять и объяснить.
Дает интригующие результаты на веб-графиках.
Не является метрикой, которая нуждается в итерации, поэтому ее теоретические затраты могут быть меньше.

Комментариев нет:

Отправить комментарий