Ist WDF * IDF ein Ranking-Faktor?

Finn Hillebrandt

Was ist WDF * IDF?

WDF * IDF steht für Within Document Frequency multipliziert mit Inverse Document Frequency.

Dabei handelt es sich (vereinfacht, aber damit auch nicht 100 % korrekt gesagt) um eine Formel, um die Keyword-Dichte auf einer Seite mit der Keyword-Dichte auf anderen Seiten gegenüberzustellen.

Ist WDF * IDF ein Ranking-Faktor?

Während es wahrscheinlich ist, dass Google IDF-Methoden, wie z. B. TF * IDF oder BM25 im Google-Algorithmus verwendet oder in der Vergangenheit verwendet hat (zumindest in der sog. top-k-Retrieval-Phase, siehe auch Learning to rank), gibt es keinerlei Hinweise darauf, dass WDF * IDF jemals Bestandteil des Algorithmus war.

WDF * IDF wurde von Donna Harman, einer Information-Retrieval-Forscherin am National Institute of Standards and Technology (NIST), als Methode zur dokumentspezifischen Wortgewichtung entwickelt und wird in Kapitel 14 des Buches Information Retrieval: Data Structures & Algorithms vorgestellt:

Early experiments (Salton and Lesk 1968; Salton 1971, p. 143) using the SMART system tested an overlap similarity function against the cosine correlation measure and tried simple term-weighting using the frequency of terms within the documents. These experiments showed that within-document frequency weighting improved performance over no term-weighting (in varying amounts depending on the test collection used).

Allerdings scheint WDF * IDF weder bei Google noch in der Information-Retrieval-Community eine Rolle zu spielen. WDF * IDF wird laut meinen Recherchen in keinem einzigen Patent oder Forschungspapier von Google erwähnt.

Selbst eine allgemeine Suche nach WDF (oder wahlweise within-document frequency) bei Google Patents bringt nur wenige Resultate:

WDF bei Google Patents

Auch bei arXiv.orgdem Archiv zur Veröffentlichung von Forschungsarbeiten rund um BERT und anderen NLP-Technologien, finden sich nur Erwähnungen von WDF im Zusammenhang mit einem Wavelet Detection Filter (der nichts mit Suchmaschinen oder Information Retrieval zu tun hat):

WDF bei arXiv.org

Auch habe ich keinerlei Verbindung zwischen Donna Harman und Google gefunden.