Når du bruger ContentBeak til at skrive dine tekster, har du sikkert bemærket de to faner WDF*IDF og TF*IDF i højre side af editoren. De lister hver især en række vigtige ord, som du bør have med i dine tekster, hvis du skal have teksten til at ranke bedst muligt i søgeresultaterne.
Ud for hvert ord kan du se en søjle, der viser det maksimale og gennemsnitlige antal forekomster, som ordet optræder i top 10-placeringerne for søgeordet. Samt en prik der viser, hvor tit ordet forekommer i den tekst, du har skrevet.
Jo flere af de vigtige ord du får flyttet prikken ud i området lige omkring eller over gennemsnittet, jo bedre chancer har teksten for at komme til at ranke højt i søgeresultaterne for den angivne søgning.
Ordene er vi som sagt kommet frem til ved at trævle alle søgeresultaterne i top 10 igennem for det pågældende søgeord og score dem ved hjælp af TF*IDF-algoritmen. Den beregner en værdi, der viser, hvor vigtigt hver eneste ord i teksten er i forhold til de andre ord.
Samme algoritme kan også bruges til at vise, hvor vigtig siden er i forhold til de andre sider på hjemmesiden. Eller en hvilken som helst anden dokumentsamling. F.eks. hele internettet.
Ud fra den beregning kan vi skrælle alle de mest almindelige ord fra – dem som kaldes for stopordene. Det gør vi ved at holde TF*IDF-værdien op mod en tilsvarende beregning på tusinder af danske ord. Ligger værdien af algoritmen højt, er der tale om et stopord.
Men ligger værdien i den lave ende, er der tale om et af de ord, der er vigtige at få med, hvis din tekst skal de bedste forudsætninger for at ranke godt for det pågældende søgeord. For når disse ord har betydning i de tekster, der allerede ranker godt, er der en stor chance for, at de får din egen tekst til at ranke lige så godt eller bedre, hvis du også bruger dem i din tekst.
Resultatet af vores analyse vises på WDF*IDF-fanen. TF*IDF-fanen viser kun den rene TF*IDF-værdi uden at tage hensyn til, hvor meget ordet vægter i søgninger på den danske del af internettet.
Vil du f.eks. skrive en tekst, der skal ranke godt for ”græsslåmaskine”, viser WDF*IDF-fanen, at ord som f.eks. ”plæneklipper”, ”tilbud, ”selvkørende”, ”pris”, ”cylinderklipper” og så videre er vigtige at have med. Og ”græsslåmaskine” selvfølgelig.
Men faktisk viser det sig, at hvis du skal have en stor sandsynlighed for at komme til at ranke højt for ”græsslåmaskine”, skal du anvende ordet ”plæneklipper” mere i teksten end dit mest betydende søgeord ”græsslåmaskine”.
Det kan ses af, at ”plæneklipper” står højere på listen på WDF*IDF-fanen end ”græsslåmaskine”, samt at søjlen for både gennemsnitlig og totalt antal anvendelser er længere.
Det virker umiddelbart lidt ulogisk. Men netop fordi ContentBeak kan spotte den slags detaljer, giver den dig en fordel frem for dem, som ikke anvender værktøjet, når de skriver tekster.
Altså giver ContentBeak dig en genvej til at ranke bedre i søgemaskinerne, som ellers er meget svær at spotte.
Som allerede omtalt kan TF*IDF-algoritmen beregne, hvor vigtigt et bestemt ord er i forhold til alle de andre ord i et dokument – f.eks. en side på din hjemmeside. På samme måde kan algoritmen også regne sig frem til, hvor vigtig siden er i forhold til alle de andre sider på din hjemmeside. Og for den sags skyld, hvor vigtig siden er på hele internettet for det pågældende søgeord!
Algoritmen består af to forskellige komponenter, nemlig ordfrekvensen (på engelsk Term Frequency = TF) og den omvendte dokument frekvens (På engelsk: Inverse Document Frequency = IDF). Og selve algoritmen ganger de to tal sammen.
Hvor svært er det lige at forstå?
Nej, det sidste trin i beregningen er langt den nemmeste del af det. Det er vejen frem til de to parametre, der kræver lidt hjernegymnastik.
Første del er den mest enkle at forstå. Ja, faktisk bruger du den sikkert allerede i dag.
TF angiver hvor mange gange et givent ord optræder i et dokument. Har du f.eks. et dokument på 500 ord, hvor ordet ”græsslåmaskine” optræder 12 gange, vil TF være:
TF(græsslåmaskine) = 12/500 = 0,024
Eller på godt dansk udgør ordet ”græsslåmaskine” 2,4 % af dokumentets 500 ord.
Altså er det nøjagtig samme beregning, som når du skal beregne søgeordstætheden i dit dokument.
IDF-delen af gangestykket angiver, hvor mange gange det pågældende ord optræder i en given samling dokumenter.
Grunden til at vi tager den omvendte værdi, skyldes at, et bestemt ord kan kvantificeres af den omvendte funktion af antallet af dokumenter, som ordet optræder i. Ved at bruge logaritmefunktionen får vi samtidig gjort tallet kortere, og dermed lettere at overskue.
Derved får vi de ord, som må anses for at have en vis signifikans for, hvad dokumentet handler om, til at træde frem i forhold til de mest anvendte ord. Det er dem, vi normalt bruger til at binde dokumenterne sammen med. Altså spotter algoritmen på den måde betydende ord for dokumentets emne som f.eks. ”plæneklipper” og sorterer alle de almindelige ord (stopordene) som f.eks. ”og”, ”for”, ”at” og så videre fra.
Samme beregning for samtlige sider på din hjemmeside vil give dig en ide om vigtigheden af den enkelte sides emne på din hjemmeside. På samme måde kan vi også tage udgangspunkt i alle dokumenter på den danske del af internettet. Dem har vi analyseret for at skabe en tabel over TF*IDF-værdier for tusindvis af danske ord. Derved har vi noget at holde de fundne TF*IDF-værdier op imod.
Når Google benytter algoritmen, tager de alle sider på internettet i betragtning. Og siger vi, at internettet består af 10 billioner sider, og der er 300.000 sider, der står ”plæneklipper” i, bliver den omvendte dokument frekvens:
IDF(græsslåmaskine) = log(10.000/300)=1,52
For overskuelighedens skyld har vi ”ensbenævnt” tallene på antal betydende nuller. Det gør det lidt nemmere at holde beregningen på en enkelt linje – selv på en mobiltelefon.
Tager vi den TF, som vi beregnede før, og ganger samen med IDF-værdien for ”græsslåmaskine” får vi:
TF*IDF(græsslåmaskine)= 0,12 * 1,52 = 0,182
Det resultat holder vi så op imod resultaterne for alle de danske ord, vi har scoret med algoritmen. Det fortæller os, at ordet har en høj betydning for, hvad siden handler om.
Samtidig spotter vores gennemgang af top 10-søgeresultaterne for ”græsslåmaskine”, at der også er et andet ord, der skiller sig ud. Nemlig ”plæneklipper”. Meget logisk egentlig, eftersom det jo i dag anvendes som synonym for ”græsslåmaskine”, endskønt den ret teknisk bruger en anden metode til at afkorte græsset.
Signifikansen af ”plæneklipper” er så høj, at det SKAL tages med i teksten. Faktisk så meget, at ”plæneklipper” gerne skal optræde oftere end ”græsslåmaskine”, for at siden skal have en rimelig chance for at komme til at ranke for ”græsslåmaskine”.
Det gør ikke noget. For heldigvis behøver du ikke forstå TF*IDF-algoritmen for at kunne bruge ContentBeak. Vi har bare brugt algoritmen til at lave alt regnearbejdet, så vi har fundet de vigtigste ord frem for dig.
De vises i grafen på WDF*IDF-fanen. Så kan du nemt se, hvilke ord der har betydning for din teksts placeringer, og hvor tit du har fået dem brugt i din tekst i forhold til det gennemsnitlige og den maksimale brug af ordet, i de tekster der allerede ranker i top 10.
Jo flere af ordene, du får til at optræde i teksten, så de er brugt lige omkring den gennemsnitlige antal gange eller lige over. Jo bedre chancer har din tekst for at komme til tops i Google.
Se! Det gør det nemt at skrive tekster, der får gode placeringer i søgeresultaterne.
Brug Contentbeak til at slå dine konkurrenter