Войти



Последние материалы

Золотые партнеры:

Детские электромобили и мотоциклы: детский электромобиль. ABC - товары для детей.

Серебряные партнеры:

скачать бесплатно фотошоп cs

Бронзовые партнеры:

Вероятностные модели информационного поиска
Статьи
Автор: Лукашевич Н.В.   
22.10.2011 19:29

Вероятностные модели информационного поиска

Одним из эффективных типов моделей информационного поиска являются вероятностные модели.

Вероятностные модели базируются на принципе ранжирования на основе вероятности, провозглашенном ван Ризбергеном в 1979 г., который заключается в следующем (Croft и др., 2009):

Если поисковая система в ответ на каждый запрос ранжирует документы в коллекции в соответствии с уменьшающейся вероятностью релевантности документа пользователю, который задал запрос, где вероятности оценены максимально точно на базе тех данных, которые доступны системе для этой цели, то общая эффективность системы по отношению к данному пользователю будет максимальной эффективностью, которая может быть получена на имеющихся данных.

Мы не будем подробно приводить рассмотрения, которые проводятся в рамках данного класса моделей, поскольку это выходит за рамки данной группы статей. Мы укажем лишь наиболее известную модель оценки релевантности  документа запросу, которая сформировалась в рамках этого подхода, а именно, так называемую модель ВМ25, также называемую OKAPI по названию системы, в которой впервые такая схема взвешивания была применена (Robertson и др., 1994):

где f(qi„D) - это частотность терма qi в документеD, |D| - это длина документа D в словах, avgdl - средняя длина документов в коллекции, к1 и b - это параметры формулы, обычно принимающие значения k1=2t.0, b = 0.75. IDF(qi) -это обратная частота встречаемости терма в документах коллекции, которая в данном случае вычисляется как:

 

где N - это общее число документов в коллекции и n(qi) - число документов, содержащих qi