Ist Salienz ein Ranking-Faktor?

Finn Hillebrandt

Was ist Salienz?

Als Salienz (aus dem Englischen salience) bezeichnet man die semantische Gewichtung einer Entität (z. B. Ort, Person oder Objekt) innerhalb eines Dokuments oder Textabschnitts.

Ist Salienz ein Ranking-Faktor?

Enthält das Keyword ein oder mehrere bekannte Entitäten, könnte Google die Salienz dieser Entitäten auf einer Seite mit in das Ranking mit einbeziehen.

Im Research Paper A New Entity Salience Task with Millions of Training Examples stellen Google-Forscher ein NLP-Modell vor, das bisherige keyword-basierte Modelle zur Relevanzbewertung eines Dokuments durch die Salienz ersetzen soll:

Although many NLP systems are moving toward entity-based processing, most still identify important phrases using classical keyword-based approaches. To bridge this gap, we introduce the task of entity salience: assigning a relevance score to each entity in a document.

Und weiterhin:

While traditional techniques treat documents as collections of keywords, many NLP systems are shifting toward understanding documents in terms of entities. Accordingly, we need new algorithms to determine the prominence – the salience – of each entity in the document.

Mit der Natural Language API bietet Google eine Technologie für Cloud-Kunden an, mit der man die Salienz einer Entität innerhalb eines Textes bestimmen kann:

salience gibt den Stellenwert bzw. die Relevanz dieser Entität für den gesamten Dokumenttext an. Dieser Wert kann beim Abrufen von Informationen und bei der Zusammenfassung nützlich sein, indem auffällige Entitäten priorisiert werden. Werte, die näher bei 0.0 liegen, haben eine niedrige Relevanz. Werte, die näher bei 1.0 liegen, haben eine hohe Relevanz.

Wie das in der Praxis aussieht, kann man mit einer Demo der Natural Language API ausprobieren. Im Beispieltext haben die Entitäten Google und Mountain View die höchsten Salienz-Scores (allerdings geht es im Text um ein neues Android-Smartphone, woran man sehen kann, das die Salienz alleine nicht ausreicht, um das Thema eines Textes zu bestimmen):

Salience in der Natural Language API Demo

John Müller streitet sowohl in diesem Tweet als auch in diesem Tweet von Dezember 2019 nicht direkt ab, dass Salienz ein Ranking-Faktor ist. Er merkt aber an, dass die APIs nicht unbedingt eins zu eins in der Google-Suche verwendet werden:

I wouldn’t worry about that. Feel free to play with our APIs, there’s lots of cool things you can learn & make with them, but don’t assume that everything is used 1:1 in search.