Машинное обучение (Machine Learning, обучающиеся алгоритмы)

Машинное обучение (Machine Learning, обучающиеся алгоритмы) → Интеллектуальные системы с объёмами данных размером с интернет → Поиск в интернете → Ранжирование →

Более сложный подход. PageRank

Идея, используемая на заре современного интернета компанией Google. Поэтому далее мы говорим об интернет документах, проще говоря о web-страницах. Соответственно документы могут ссылаться друг на друга: просто на web-странице есть ссылки (зачастую отображаемый как синий текст с подчёркиванием) на другую страницу.
Возьмём все документы, найденные по искомому слову. Далее грубо идею вычисления PageRank можно выразить так: чем больше других документов ссылается на данный, тем выше PageRank. Более точно идея формулируется так: чем выше вероятность того, что начиная со случайного документа мы по имеющимся ссылкам попадём на текущий документ, тем выше PageRank. Что даёт такой подход? Пусть на документ А ссылается 5 страниц (А1, А2,... А5), и на документ Б ссылается 5 страниц (Б1, ..., Б5). По грубой прикидке они имеют одинаковый PageRank. Однако, зададимся вопросом: а много ли документов ссылается на А1? Если много, то и ссылка на с А1 на А более ценная. Если на Б1, ... Б5 не ссылается никакой другой документ, то и их PageRank низкий, и тот вес, который они добавляют странице Б, ссылаясь на неё, тоже должен быть небольшим.

Поиск по записям: только в текущем разделе.