Information Gain
„Erstelle Inhalte mit Mehrwert“, diese Phrase begleitet einen SEO im Laufe seiner Karriere vom Junior bis zum Senior und selbst die Google-Repräsentanten werden nicht müde, diese Aussage fast schon gebetsmühlenartig zu wiederholen. Das Thema ist also im Grunde nichts Neues und doch beschäftigt es uns bis heute. Denn eine zentrale Frage wurde nie in der kompletten Tiefe beantwortet: Was ist überhaupt dieser Mehrwert von denen alle sprechen und kann man diesen gar messen?
Eine Teilantwort auf diese entscheidende Frage soll der sogenannte Information Gain geben. Dieser gibt nämlich an, wie viel zusätzliche Informationen ein Dokument im Vergleich zu einem Set von anderen relevanten Dokumenten besitzt. Vereinfacht gesagt, umso höher der Information Gain, umso wertvoller kann dieses Dokument sein und umso höher kann es am Ende auch in den Suchmaschinen gerankt werden. Was aber nun genau hinter dem Information Gain steckt, wie man ihn berechnen und vor allem die vorhandenen Inhalte dafür optimieren kann, das erfährt man nachfolgend.
Was ist der Information Gain und was hat er mit Entropie zu tun?
Erst einmal ist es wichtig zu verstehen, dass der Information Gain kein neues Konzept ist. Er entstammt ursprünglich der Informationstheorie. Wird allerdings im Online Marketing-Kontext vom Information Gain gesprochen, meint man damit aber meist ein Konzept, das in einem Patent von Google im Jahr 2020 das erste Mal ausführlich beschrieben wurde. Wir werden später uns das Patent näher anschauen, davor macht es aber durchaus Sinn, sich erst einmal mit dem ursprünglichen Information Gain aus der Informationstheorie vertraut zu machen.
Neben dem Begriff des Information Gains, spielt die sogenannte Entropie eine wichtige Rolle in der Informationstheorie. Die Entropie ist ein Maß an Unsicherheit in einem System. Umso größer die Unsicherheit, desto höher ist die Entropie. Der Information Gain zeigt nun, wie viel die Unsicherheit abnimmt, wenn man mehr Informationen dazu bekommt.
Überträgt man das ganz nun auf die Suchmaschinenoptimierung, kann man sich am Beispiel einer Keyword-Suche sich die Konzepte noch einmal verbildlichen:
Shorthead-Suchanfragen mit beispielsweise nur einem einzigen Suchwort besitzen eine sehr hohe Entropie. Zwar suchen viele danach, man weiß aber nur sehr schlecht, welche Suchabsicht genau sich dahinter befindet. Long-Tail Suchanfragen geben hingegen schon mehr Informationen mit, weshalb die Entropie niedriger ist. Der Informationsgewinn (Information Gain) durch die zusätzlichen Wörter in der Suchanfrage helfen diese besser zu verstehen und damit bedienen zu können.
So ist es für Suchmaschinen beispielsweise schwierig die richtigen Ergebnisse für die Suche nach „Leopard“ (ist damit das Tier, der Panzer oder doch der Roman gemeint? > hohe Entropie) anzuzeigen, während nur durch das Hinzufügen der Information „lebensraum“ klar ist, dass wenn jemand nach „Leopard Lebensraum“ sucht, man damit mehr über das Tier erfahren möchte (=niedrige Entropie). Der Information Gain durch zusätzliche Keywords bei einer Suchanfrage hilft damit also nicht nur der Suchmaschine, was der User finden möchte, sondern auch den Webseitenbetreiber, welche Inhalte für welche Suchbegriffe benötigt werden.
Gewusst? Ist die Entropie bei einer Suchanfrage sehr, sehr gering, dann ist die Wahrscheinlichkeit, dass Google ein Feature Snippet oder gar eine Direct Answer ausspielt sehr hoch. Da genau verstanden wird, was der Suchende finden möchte, kann gleich die Antwort direkt ausgespielt werden.
Und damit wären wir beim eigentlichen Thema. Denn nun hat Google ein relevantes Set an möglichen passenden Webseiten zu dem Suchbegriff ermittelt, doch welche Seite befriedigt nun am besten das Bedürfnis des Suchenden? Ihr merkt schon, mal wieder steht die Unsicherheit (Entropie) im Mittelpunkt und mal wieder kann der Information Gain der ausschlaggebende Punkt sein.
So langsam arbeiten wir uns also zu den praktischen Auswirkungen des Information Gains vor, bevor wir aber dazu gelangen, müssen wir noch kurz in der Theorie verbleiben und einen tieferen Blick in das schon erwähnte Google-Patent wagen, das erklärt, wie der Information Gain als Rankingkriterium funktionieren könnte.
Ein Blick in das Google Patent: „Contextual estimation of link information gain”
Das wohl interessanteste Google-Patente zum Thema Information Gain und auch der Auslöser, warum die SEO Community am Thema so interessiert ist, lässt sich unter der Nummer US20200349181A1 (bzw. US11354342B2) finden und hört auf den Namen „Contextual estimation of link information gain“:
Dort heißt es im Abstrakt unter anderem:
„Techniques are described herein for determining an information gain score for one or more documents of interest to the user and present information from the documents based on the information gain score. An information gain score for a given document is indicative of additional information that is included in the document beyond information contained in documents that were previously viewed by the user.”
Übersetzt bedeute das so viel wie:
„Es werden hier Techniken beschrieben, um einen Informationsgewinn für ein oder mehrere Dokumente zu bestimmen, die für den Benutzer von Interesse sind, und um Informationen aus den Dokumenten auf der Grundlage des Informationsgewinns zu präsentieren. Ein Informationsgewinn-Score für ein bestimmtes Dokument ist ein Indikator für zusätzliche Informationen, die in dem Dokument enthalten sind, die über die Informationen hinausgehen, die in Dokumenten enthalten sind, die zuvor vom Benutzer angesehen wurden.“
Da haben wir nun also eine Antwort darauf, was Google denn unter diesem ominösen „Mehrwert“ versteht: Neue Erkenntnisse und/oder Informationen, die man so auf den anderen Webseiten (Dokumenten) nicht vorfindet. Dabei gilt es zu beachten, dass es keinen Sinn macht den vorhandenen Text mit komplett irrelevanten Informationen zu erweitern. Google kann Entitäten und damit auch Themen eines Textes sehr gut bestimmen und damit auch Distanzen zwischen verschiedenen Themen/Entitäten. Ist die Entfernung zu groß, ist dies ein Anzeichen für die Irrelevanz der Informationen.
Eigentlich ist das Konzept hinter dem Information Gain also keine große Überraschung und auch eine Selbstverständlichkeit. Dennoch bekam man gerade von schlecht bezahlten Textern in der Vergangenheit oft nur ein umgeschriebenen Wikipedia-Text oder eine Zusammenfassung der Top 10 Ergebnisse zurück. Bzw. auch heute schaut man sich oft nur die top rankenden Seiten an und versucht exakt diese Themen abzudecken, die dort auch zu finden sind. Schließlich ranken ja die Webseiten, also muss es auch funktionieren, so die Idee dahinter. Auf die Spitze treibt es nun die von LLM’s generierten Texte. Warum das so ist, erfährt man im nachfolgenden Exkurs.
Exkurs: GenAI generierte Inhalte und das Problem mit dem Information Gain
Begrenzt man den Information Gain nur auf den Informationsgehalt eines Textes, dann haben GenAI generierte Inhalte ohne spezielle Prompts häufig nur einen sehr niedrigen bzw. überhaupt keinen Information Gain. Je nach Qualität und Aktualität der Trainingsdaten produzieren LLMs nämlich dann nur Informationen die es so schon gibt. Gerade bei Themen die schon sehr ausführlich auf existierenden Internetseiten behandelt worden sind, reproduziert ein LLM hier nur die schon vorhandenen Informationen.
Anders sieht es aus, wenn das Thema bisher im Internet kaum bis gar nicht behandelt wurde und das LLM den Text basierend auf nicht online verfügbaren Informationen generiert, wie beispielsweise eingescannte Bücher oder Multimedia-Inhalten. In dem Fall können zumindestens bei der initialen Generierung Texte mit aus Suchmaschinensicht hohen Information Gain-Scores kreiert werden, sofern die Suchmaschine diese Inhalte nicht schon selbst kennt. Alle weiteren Generierungen würden dann aber wieder die selben Informationen besitzen, weshalb der Information Gain Richtung null gehen würde. Man muss also schnell sein, um Nischen zu besetzen, sofern es diese überhaupt noch gibt.
Das bedeutet allerdings nicht, dass man mit LLMs keine Inhalte mit hohen Information Gain-Scores generieren lassen kann. Wie immer kommt es hier auf das richtige Promting an. Mehr dazu gibt es aber weiter unten in den Praxis-Tipps.
Fun Fact: Theoretisch kann ein LLM auch bei einem Standardprompt einen Text mit einem hohen Information Gain-Score kreieren (wenn auch nicht streng nach Definition). Dann nämlich, wenn das Modell halluziniert und diese Halluzination nicht als fehlerhafte Informationen erkannt werden. Umso wichtiger ist es für den Menschen und auch für die Suchmaschine, zu erkennen, ob neue, bisher nicht bekannte Informationen überhaupt wahr und damit wirklich hilfreich sind. Diese Problematik zeigt aber auch, warum es einfach keinen Sinn macht, einzelne mögliche Rankingkriterien nur singulär zu betrachten.
Wie berechnet sich der Information Gain?
Die Berechnung des Wertes (Scores) für den Information Gain lässt das Patent offen. Je nach Implementierung kann aber dafür der gesamte Inhalt des Dokuments, Entitäten oder andere semantische Repräsentationen, wie beispielsweise
- Embeddings,
- ein Merkmalsvektor,
- Bag-of-Words-Repräsentationen (BoW),
- ein Histogramm, das aus Wörtern/Phrasen aus dem Dokument generiert wurde
usw. einfließen. Über ein Machine Learning Model wird dann der Information Gain Score bestimmt.
Vorsichtig sollte man deshalb auch sein, wenn man im Internet Tools findet, die den Information Gain berechnen. Hier handelt es sich nämlich um den oben vorgestellten Information Gain aus der Informationstheorie, der vor allem für den Aufbau von Entscheidungsbäume relevant ist. Nicht aber, wie eine Suchmaschine wie Google den Information Score berechnen könnte.
Welche Rolle spielt der Information Gain für das Ranking?
Im genannten Patent wird der Information Gain als Rankingkriterium immer wieder explizit erwähnt. Dennoch ist es nicht bestätigt, dass Google wirklich den Information Gain-Wert als Rankingfaktor anwendet und selbst wenn, bleibt weiterhin offen, wie stark dieser Faktor gewichtet wird.
Hält man sich streng an das Patent, dann würde der Information Gain vor allem dann eine Rolle spielen, wenn der User schon mindestens eine oder mehrere Webseiten angeschaut hat. Denn auf dieser Basis berechnet sich der Information Gain-Score für ähnliche weitere Dokumente aus dem gleichen Themenfeld. Denkbar wäre es deshalb auch, dass der Information Gain bei der ersten initialen Suche eines Users erst einmal kaum bis gar keine Auswirkung hat und erst wenn der User nicht fündig geworden ist und seine Suche noch einmal neu stellt und verfeinert, für die nun neuen gefundenen Dokumente der Information Gain-Wert in das Ranking mit einfließt. Natürlich ist es aber auch denkbar, dass der Information Gain-Score schon bei der Zusammenstellung der Top-10 Ergebnisse eine Rolle spielt.
Klar ist auch, dass der Information Gain nur eine Stellschraube von vielen ist, wenn es um das beste Ranking geht. Mit einer schlechten technischen Infrastruktur der Webseite oder fehlenden Autorität für das Thema, wird man häufig den Kürzeren beim Ranking ziehen, selbst wenn der Information Gain für den einzelnen Artikel vielleicht ganz gut ist.
Wie dem auch sei, unabhängig ob Google den Information Gain in das Ranking einfließen lässt oder nicht, macht es auf jeden Fall Sinn den Information Gain-Score für die eigenen Inhalte zu erhöhen. Wie das möglich ist, erfährt man im nachfolgenden Abschnitt.
Wie kann man den Information Gain erhöhen?
Nachdem wir nun wissen, was der Information Gain ist, soll nun von der Theorie in die Praxis gewechselt werden. Nachfolgend findest du einige Möglichkeiten, wie du den Information Gain für deine eigenen Texte erhöhen kannst:
Veröffentlichte Inhalte regelmäßig aktualisieren
Dass Google neue und vor allem auch aktualisierte Inhalte mag, ist kein Geheimnis. Dinge sind ständig im Wandel und was heute noch gilt, kann morgen schon von etwas Anderem abgelöst sein. Deswegen ist es so wichtig, dass man regelmäßig die schon vorhandenen Inhalte durchgeht, und wo nötig, sie aktualisiert. Wer das macht, sollte im Vergleich zu den Mitbewerbern über die Zeit einen deutlich höheren Information Gain-Wert haben, da die Veränderungen im eigenen Text reflektiert und eingearbeitet wurden.
Interne Insights in die Inhalte einfließen lassen
Internes Wissen und Insights sind wahre Schätze, die ein Wettbewerber so nicht einfach duplizieren kann. Das kann das Feedback vom Kundenservice sein, vom Sales-Team oder auch Daten direkt von der Produktnutzung. Häufig fallen im Unternehmen Daten an, die später aber nie genutzt werden. Damit muss Schluss sein. Um den Information Gain der eigenen Inhalte zu erhöhen, muss aktiv nach diesen exklusiven Daten im Unternehmen gesucht und diese anschließend aufbereitet werden. So erhöht man deutlich den Mehrwert der eigenen Inhalte und kann sich damit von der Konkurrenz absetzen. Es muss sich dabei auch nicht immer um reine Daten handeln, auch ein Interview mit einem internen Fachexperten kann neue Perspektiven in einen vorhandenen Text bringen.
Externe Nutzerinsights nutzen
Wer selbst noch nicht auf interne Insights zurückgreifen kann, der sollte zumindestens externe Daten nutzen, um damit die eigenen Inhalte aufzuwerten. Hierfür bieten sich die Kundenrezensionen auf öffentlichen Plattformen, wie Review-Seiten aber auch Marktplätze an. Was bewegt die Nutzer vor und nach dem Kauf und greifen die eigenen Inhalte diese Aspekte auch wirklich angemessen auf? Gibt es unbeantwortete Fragen die immer wieder auftauchen und durch dich beantwortet werden können?
Bei Produkten bietet sich natürlich die Rezensionen auf Amazon als wahrer Datenschatz an. Über AI kann man sich diese dann hervorragend automatisiert auswerten und thematisch clustern lassen.
Spannende und manchmal auch sehr polarisierende Einblicke bekommt man bei Reddit. Hier sollte man sich vor allem auf die englischsprachigen Subreddits konzentrieren, da hier mehr Informationen zu finden sind. Alternativ lohnt sich auch ein Blick in Quora.
Tipp: Ganz spannend ist ein Blick in Alexa Answers. Hier bekommt man nämlich nicht nur einen Einblick, welche Fragen Nutzer zu einem bestimmten Thema Alexa fragen, sondern auch, auf welcher dieser Fragen Alexa keine Antwort hat. Auch wenn Alexa kein Maßstab in Sachen Wissensspeicher ist, können davon doch spannenden Ableitungen getätigt werden. Auch hier kann es sich übrigens lohnen, einen zweiten Blick in das englischsprachige Alexa Answers zu werfen.
Ebenfalls immer interessant ist Google Trends. Gar nicht einmal wegen dem zeitlichen Verlauf des Interesses an dem Thema, sondern an den “Verwandten Themen” und “Ähnlichen Suchanfragen” die man jeweils am Ende der Seite findet. Hier sollte man sich beim Drop Down auch immer die Ergebnisse für “Top” und “Zunehmend” anschauen.
Tipp: Wenn man nicht einen Suchbegriff, sondern das Thema eingibt, dann kann man über den oberen Länderfilter auch sehr länderspezifische Ergebnisse erhalten, ohne den Suchbegriff übersetzen zu müssen. Das ist besonderes für Themen interessant, wo bestimmte Länder schon deutlich weiter sind. Beispielsweise kann man sich für das Thema “Grüner Tee” die trendenden Themen und Suchanfragen aus Japan, dem “Tee-Land” schlechthin, anzeigen lassen. Zwar müssen die Ergebnisse erst aus dem Japanischen übersetzt werden, so kann man aber auf Themen kommen, die noch niemand in Deutschland so auf dem Schirm hat.
User-Feedback aktiv einholen
Wer selbst noch keine internen Daten hat und auch extern nichts zu finden ist, der sollte aktiv den User um Feedback bitten. So kann auf der eigenen Webseite relativ unkompliziert Nutzerbefragungen implementiert werden (z.B. mit dem Tool Hotjar oder SurveyMonkey), die den Nutzer beim Verlassen der Webseite oder nach einer gewissen Zeit fragen, wie er mit den Inhalten zufrieden ist und ob etwas gefehlt hat. Letzteres kann man dann wiederum aufgreifen, um damit den Artikel immer wieder zu aktualisieren und so zu erweitern.
Erstelle anderen Inhalte, nicht bessere
Nicht immer ist es nötig, den allerbesten und ausführlichsten Inhalt überhaupt zu schreiben. Es kann auch ausreichen, vorhandene Inhalte anders aufzubereiten. Das kann sowohl gestalterisch als auch inhaltlich sein.
So kann man die Inhalte auf eine ganz bestimmte Zielgruppe ausrichten. Man verliert damit zwar einen Teil der Suchenden, kann aber dafür für den anderen Teil eine sehr zugeschnittene Lösung präsentieren. Das macht beispielsweise das Kinderlexikon Klexikon (https://klexikon.zum.de/) und rankt damit auch zu Themen, die nicht nur Kinder suchen.
Auch andere Perspektiven, kontroverse Standpunkte oder auch eine besondere Präsentation der Informationen kann zu einem gesteigerten Information Gain Score führen, auch wenn der Informationsgehalt ähnlich bis gleich zu schon vorhandenen Artikel ist.
Hier kann ein LLM gute Denkanstöße bieten oder auch bei der Transformation der Informationen helfen.
Alternative Quellen nutzen
Um an weitere Informationen zu kommen, die es so im Web nicht so einfach zu finden sind, macht es keinen Sinn sich nur auf die Top 10 Ergebnisse zu konzentrieren. Stattdessen sollte man auf Quellen zurückgreifen, die nicht so einfach zugänglich bzw. konsumierbar sind. Das können beispielsweise Fachbücher sein, wissenschaftliche Paper oder auch Videos und Podcasts.
Es lohnt sich also das gewünschte Thema auch bei anderen Plattformen einmal einzugeben, also beispielsweise bei Spotify, bei YouTube, bei Google Scholar oder Consensus.app, bei Slideshare, bei Google Books, bei Statista oder auch bei der Bilder-Suche. Zwar kann man hier nicht immer einfach nur abschreiben, die in diesen alternativen Quellen enthaltenen Informationen können aber stellenweise richtige Schätze darstellen. Und auch die Google-Suche kann spannende Erkenntnisse auch außerhalb der Top 10 bieten. Mit bestimmten Such-Operatoren, wie beispielsweise “keyword filetype:pdf” oder “keyword filetype:ppt” können sich ebenfalls neue Schätze auftun.
Nutze auch alternative Suchmaschinen oder Suchsysteme, bei Perplexity.ai kann man beispielweise auch Videos durchsuchen.
Tipp: Bei informationellen Artikeln wird oft der rankende Wikipedia-Eintrag zum Thema als erste Quelle genutzt. Teilweise sind aber nicht die Wikipedia-Einträge zu exakt dem Thema spannend, sondern viel mehr die Wikipedia-Einträge die auf diesen Beitrag verlinken, im eigentlichen Artikel aber keine Erwähnung finden.
Man bekommt diese verlinkenden Einträge per API beispielsweise mit folgender Abfrage: https://de.wikipedia.org/w/api.php?action=query&format=json&list=backlinks&bllimit=max&bltitle=DER_RELEVANTE_WIKIPEDIA-ARTIKEL
Nun kann man überprüfen, ob diese Themen/Informationen aus dem verlinkenden Eintrag auch im eigentlichen Wikipedia-Eintrag genannt werden. Falls nicht, dann hat man Informationen gefunden, die im eigentlichen rankenden Wikipedia-Artikel nicht zu finden sind, dennoch aber thematisch dazu gehören. Anbei ein Beispiel um das zu veranschaulichen.
Möchte man beispielsweise zum Thema “Deep Learning” ranken. Dann sieht man, dass auf den Wikipedia-Artikel zum Thema Deep Learning auch unter anderem der Wikipedia-Artikel zum Thema Pokern verlinkt (siehe hierzu die Ergebnisse von https://de.wikipedia.org/w/api.php?action=query&format=json&list=backlinks&bllimit=max&bltitle=Deep%20Learning). Im Poker-Artikel findet man bei der Deep Learning-Verlinkung die Information, dass die auf Deep Learning basierende Künstliche Intelligenz „DeepStack“ unter anderem in 3.000 Partien 10 der 11 Profispieler deklassiert hat. Eine interessante Information für den eigenen Deep Learning-Artikel, insbesondere, weil der Wikipedia Artikel dazu diese Information nicht besitzt (obwohl das Wissen ja eigentlich im Wikipedia-Projekt vorhanden ist).
Wer den händischen Abgleich automatisieren möchte, der kann sich per API auch die ausgehenden Links aus dem eigentlichen Artikel ziehen und per Diff nur die verlinkenden Artikel anzeigen lassen, die im Hauptartikel nicht verlinkt werden.
Neue Informationen erschaffen
Der absolute Königsweg um den eigenen Information Gain-Score zu erhöhen ist neue Informationen selbst zu erschaffen. Das kann beispielsweise durch die Durchführung von Studien, einer Auswertung eines großen Datensets oder eine Durchführung eines Experimentes sein. Klar, diese Methode ist nur schwer bis gar nicht skalierbar und auch sehr aufwendig, dafür generiert man aber so Informationen die nicht kopierbar sind, da man selbst der Urheber davon ist. Wer sich langfristig also von der Konkurrenz abheben möchte, der kommt um diese Methode kaum herum.
Zusammengefasst: Das solltest du zum Information Gain wissen
Auch wenn weder der Begriff Information Gain, noch das Konzept hinter dem betreffenden Google-Patent etwas Neues ist, sollte einem mit dem Verständnis des Information Gains wieder einmal in Erinnerung gerufen werden, auf was es bei guten Inhalten eigentlich ankommt.
Gerade in Zeiten, in dem durch WDF-IDF mit akademischer Begeisterung die Vereinheitlichung der Top-10 Ergebnisse vorangetrieben wurde und in der durch LLM’s nun jeder die Möglichkeit der Skalierung der Content-Erstellung auf einem durchschnittlichen Niveau hat, sollte erst recht die Frage nach dem oft zitierten “Mehrwert” der erzeugten Inhalte gestellt werden.
Schon 2015 postulierte Rand Fishkin in einer seiner “Whiteboard Friday” Episode den sogenannten 10x Content, also Inhalte die zehnmal besser sein müssen als die Inhalte die gerade für ein bestimmtes Keyword ranken. Trifft das für deine aktuellen Inhalte zu? Bzw. kannst du das mit einem neuen Text erreichen? Falls nicht, dann sollte man sich definitiv Gedanken machen, ob es Sinn macht, den Artikel überhaupt produzieren zu lassen. Google wird zukünftig immer wählerischer, welche Inhalte in den Index aufgenommen werden und welche nicht. Und der Information Gain Score kann als eine Kenngröße für diese Entscheidung zukünftig immer stärker herangezogen werden.