Sind automatisch generierte Inhalte ein Ranking-Faktor?

Finn Hillebrandt

Was sind automatisch generierte Inhalte?

Automatisch generierte Inhalte, sind Inhalte die durch ein Programm und nicht durch einen menschlichen Autor erstellt wurden.

Laut Google zählen dazu folgende Methoden:

  • Nonsense-Texte, die Keywords enthalten
  • Maschinell übersetzter Text, der ohne Lektorat veröffentlicht wird
  • Texte, die maschinell generiert wurden (z. B. durch Markow-Ketten)
  • Texte, die mit automatisierten Techniken zur Synonymisierung oder Verschleierung generiert werden (sogenannter “Spun-Content”)
  • Texte, die durch Kopieren von Atom-/RSS-Feeds oder Suchergebnissen generiert werden
  • Zusammenfügen oder Kombinieren von Inhalten aus verschiedenen Webseiten, ohne Mehrwert hinzuzufügen

Sind sie ein Ranking-Faktor?

Ja, automatisch generierte Inhalte sind sehr wahrscheinlich ein negativer Ranking-Faktor für Google.

In den letzten Jahren gab es jedoch große Entwicklungssprünge bei der maschinellen Textgenerierung, die klassische Methoden wie Markow-Ketten alt aussehen lassen.

Tools wie GTP-3, die auf Deep Learning aufbauen, werden es für Google in Zukunft immer schwerer machen, automatisch generierte Texte algorithmisch (oder sogar manuell) zu erkennen.

Ich rechne deshalb damit, dass Google diesbezüglich in den nächsten Jahren härter durchgreifen wird.

Automatisch generierte Inhalte verstoßen gegen Googles Richtlinien für Webmaster. Im dazugehörigen Hilfedokument schreibt Google:

Automatisch generierte Inhalte sind Inhalte, die durch ein Programm erstellt wurden. Wenn Suchrankings manipuliert werden sollen und nicht dazu gedacht sind, Nutzern zu helfen, kann Google entsprechende Maßnahmen bezüglich dieser Inhalte ergreifen.

Automatisch generierte Inhalte können auch eine manuelle Maßnahme seitens Google auslösen und werden in der offiziellen Auflistung unter dem Punkt “Minderwertige Inhalte mit geringem oder gar keinem Mehrwert” aufgeführt.

In Google-Patent US8554769B1 wird eine Technologie beschrieben, um automatisch generierte Nonsens-Texte zu erkennen. Dafür wird ein sogenannter Gibberish Score berechnet:

[…] calculating a gibberish score for the resource using the language model score and the query stuffing score; and using the calculated gibberish score to determine whether to modify a ranking score of the resource.

Dies soll laut Patent vor allem Spammer und gehackte Websites aus den Suchergebnissen fernhalten:

Spammers typically generate gibberish content such that the search engine returns an identification of resources associated with the gibberish content as relevant to the submitted query. Gibberish content refers to resource content that is likely to represent spam content.