Ist TF * IDF ein Ranking-Faktor?

Finn Hillebrandt

Was ist TF * IDF?

TF * IDF steht für Term Frequency multipliziert mit Inverse Document Frequency.

Dabei handelt es sich, einfach gesagt, um eine Formel, die die Häufigkeit eines Keywords auf einer Seite mit der Häufigkeit des Keywords auf anderen Seiten in einem Dokumentenkorpus gegenüberstellt.

Ist TF * IDF ein Ranking-Faktor?

Es ist wahrscheinlich, dass Google TF * IDF oder ein ähnliche Formel wie BM25 nutzt oder in der Vergangenheit genutzt hat, um zu bestimmen, wie relevant eine Seite für ein bestimmtes Keyword ist.

TF * IDF ist also vielleicht ein Ranking-Faktor (wenn, dann allerdings gemessen am gesamten Textkorpus von Google und nicht an den Seiten in den Top 10 oder 20).

Ein Hinweis darauf, dass TF * IDF vielleicht im Google-Algorithmus verwendet wird oder wurde, findet sich z. B. in Patent US7996379B1:

In some implementations, the term identification module 210 calculates the term frequency—inverse document frequency (TFIDF) scores of the terms in the documents, with the document set for purposes of calculating the IDF being the documents indexed and/or stored in the document repository 222. Terms whose TFIDF scores are below a specified threshold are disregarded. By disregarding terms whose TFIDF scores are below the threshold, relatively common terms (e.g., prepositions, articles, etc.) can be eliminated from consideration. The result is that each document has a set of non-eliminated terms.

Auch Googles Patent US8984006B2, indem es um die Identifikation von Hierarchien bei Entitäten geht, erwähnt TF * IDF, allerdings nur im Zusammenhang mit dem Herausfiltern von Stop-Wörtern:

The seed keyword list for a given seed entity set may include some or all of the N-grams contained in all of the descriptors of the entities of the seed entity set. In some embodiments, certain words/phrases are filtered/removed from the seed-keyword-list. For example, common words and/or phrases, such as “a”, “and”, “the”, and so forth, may be excluded/removed from the seed keywords list using a stop-word list or tf-idf filtering technique.

In einem Webmaster-Hangout von 2019 sagt John Mueller jedoch, dass TF * IDF alte Technologie ist und man sich nicht darauf konzentrieren solle:

So tf-idf is essentially a metric that is used in information retrieval, so if you’re building a search engine, with regards to trying to understand which are the relevant words on a page. We use a ton of different techniques from information retrieval. And there are tons of these metrics that have come out over the years. […] My general recommendation here is not to focus on these kind of artificial metrics. Because it’s something where, on the one hand, you can’t reproduce this metric directly, because it’s based on the overall index of all of the content on the web. […] The other thing is, this is a fairly old metric. And things have evolved quite a bit over the years. And there are lots of other metrics as well. So just blindly focusing on one kind of theoretical metric and trying to squeeze those words into your pages, I don’t think that’s a useful thing.

Patent-Experte und SEO-Legende Bill Slawski äußert sich auf Twitter ähnlich wie John Müller:

[…] There is a reason why SEOs are not using TF*IDF:

1) It does not help with Semantics
2) You need access to Google’s corpus information for it to work.
3) It is old technology
4) This is #SEOMythology