| Вероятностные модели информационного поиска |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 22.10.2011 19:29 | |||
Вероятностные модели информационного поискаОдним из эффективных типов моделей информационного поиска являются вероятностные модели. Вероятностные модели базируются на принципе ранжирования на основе вероятности, провозглашенном ван Ризбергеном в 1979 г., который заключается в следующем (Croft и др., 2009): Если поисковая система в ответ на каждый запрос ранжирует документы в коллекции в соответствии с уменьшающейся вероятностью релевантности документа пользователю, который задал запрос, где вероятности оценены максимально точно на базе тех данных, которые доступны системе для этой цели, то общая эффективность системы по отношению к данному пользователю будет максимальной эффективностью, которая может быть получена на имеющихся данных. Мы не будем подробно приводить рассмотрения, которые проводятся в рамках данного класса моделей, поскольку это выходит за рамки данной группы статей. Мы укажем лишь наиболее известную модель оценки релевантности документа запросу, которая сформировалась в рамках этого подхода, а именно, так называемую модель ВМ25, также называемую OKAPI по названию системы, в которой впервые такая схема взвешивания была применена (Robertson и др., 1994):
где f(qi„D) - это частотность терма qi в документеD, |D| - это длина документа D в словах, avgdl - средняя длина документов в коллекции, к1 и b - это параметры формулы, обычно принимающие значения k1=2t.0, b = 0.75. IDF(qi) -это обратная частота встречаемости терма в документах коллекции, которая в данном случае вычисляется как:
где N - это общее число документов в коллекции и n(qi) - число документов, содержащих qi
|

