Stor Google-läcka ger nya insikter om hur algoritmen fungerar

Google drabbades förra veckan av en stor läcka som ger nya insikter i hur Google Sök fungerar. En del av det som kommit fram i läckan tycks gå stick i stäv med det Google officiellt har kommunicerat genom åren.

Hela den här märkliga historien började den 5:e maj när Rand Fishkin, grundare av Sparktoro och Moz, blev kontaktad av en anonym källa som sade sig ha tillgång till intern API-dokumentation från Google’s Search-avdelning.

Efter att Fishkin pratat med läckan och bedömt personen som trovärdig lämnades dokumentationen över till Mike King från byrån iPullRank för vidare analys. De har båda släppt sina perspektiv och tankar vilket jag rekommenderar alla att läsa här och här.

Den anonyma källan har sen dess trätt fram som Erfan Azimi och det verkar otroligt nog vara Google själva som under en tid haft dokumentationen upplagd helt publikt på sin egen Github, under open source-licens dessutom, vilket gjort att den kunnat spridas vidare.

Google har sedan dess indirekt bekräftat läckan som äkta när de sagt att mycket av innehållet är taget ur sin kontext.

Innehåll

Läckan innehåller 2569 dokument innehållandes 14014 namngivna attribut/funktioner Google kan använda för att bedöma hur innehåll ska rankas. Det är dock inte exakt beskrivet hur de olika funktionerna används och vilken viktning de har i den övergripande algoritmen. Oavsett är det väldigt intressanta saker som nu kommer ut i ljuset.

Mycket av det som nämndes i monopolrättegången mot Google i november dyker upp även här, bland annat användandet av användardata såsom klick för ranking (vilket Google fram till dess helt hade förnekat).

Att ge sig på en fullständig sammanfattning av innehållet så här tidigt är snudd på omöjligt – det är så pass omfattande och SEO:are lär återkomma till den här dokumentationen under lång, lång tid framöver.

Några intressanta punkter som kommit fram, helt utan någon särskild rangordning.

  • Google bedömer en hel domäns auktoritet, bland annat baserat på hur mycket trafik sajten har i Chrome, via en funktion de kallar siteAuthority.
  • Google har ett speciellt filter för att filtrera ut personliga sajter / bloggar (dvs. mindre sajter).
  • pageQuality kallas en aspekt av sök som bedömer hur mycket ansträngning som krävts för att skapa en viss typ av innehåll.
  • Klick in till sajten och troligtvis huruvida de besökarna är kvar på sajten påverkar hur Google rankar din sajt.
  • Sandbox mer eller mindre bekräftas genom att Google har funktionalitet för motverka nytt innehåll från att snabbt ranka (för att motverka spam).
  • Google verkar ha tre olika nivåer av länkindex. Sajterna i det främsta indexet blir mest betrodda.
  • Twiddlers kallas de funktioner som tar hänsyn till ytterligare kontext för att omvärdera rankingen av ett visst innehåll.
  • Googles primära rankingsystem har ett namn – Alexandria (säkerligen döpt efter det gamla biblioteket)

Vad betyder läckan?

Även om det inte är helt tydligt hur dokumentationen ska tolkas (det handlar mer om fragment av funktioner snarare än exakt hur dessa fungerar) bidrar det som kommit till ytan till att göra sprickan mellan SEO-branschen och Google ännu djupare.

Mycket av det som listas är sådant som Google i många år har förnekat skulle ha någon som helst betydelse för ranking överhuvudtaget. De har också publikt varit väldigt spydiga mot personer som lyft denna typ av teorier vilket är extra tråkigt givet det vi nu ser. Även om vi inte nu heller får hela bilden är det uppenbart att Google borde tagit en mer diplomatisk inställning i dessa frågor.

Sen kan vi såklart inte utesluta att personerna hos Google som uttalat sig i dessa frågor inte heller haft koll på dessa delar och gett svar de trott varit korrekta.

Går informationen att lita på?

Vissa har hävdat att det är Google själva som läckt dokumenten för att styra bort den negativa publicitet som uppstått i samband med lanseringen av AI-overviews i USA. Den teorin kan vi dock stryka då dessa dokument verkar ha legat uppe på Github långt innan dess.

Med det sagt är det svårt att veta vilka delar som används i algoritmen och som sagt hur de viktas. Informationen verkar dock vara uppdaterad så sent som 2023 så det är ingen dum gissning att stora delar av det är aktuellt fortfarande 2024. Men helt säkra kan vi såklart inte vara.

Förändras approachen till SEO?

Ja och nej, men det beror helt på vilken sajt det handlar om och hur du gör SEO idag. Givet hur centralt användarsignaler såsom klick och Chrome-data ändå verkar vara är det uppenbart att du jobbar i uppförsbacke om du enbart dig förlitar dig på ”traditionell” SEO för att driva trafik till sajten.

Troligtvis gör du inte bara det idag men det är ändå bra som en påminnelse att se SEO mer som en helhet och även väva in andra aspekter såsom efterfrågan på varumärke, digital PR, etc. och skapa något som användare aktivt söker sig till och inte bara är beroende av ranking på generiska sökord.

Detta behöver givetvis ske i samarbete med andra discipliner men det är bra om vi som SEO:are driver på det från vårt håll. Den här läckan tycks bara ge mer vatten på vår kvarn gällande det och rimmar på så sätt bra med det håll hela branschen rört sig de senaste åren, vilket jag tycker är positivt.

Sen finns det mycket material i läckan som berör helt andra delar också. Misstänker att vi kommer få se en hel del analyser och tester kring sådant framöver. Det finns mycket mer att säga om det här men för stunden sätter vi punkt här. Vi siktar på att snacka om detta ännu mer i nästa veckas avsnitt av Sökpodden – lyssna gärna in då.

Lämna ett svar

Läs våra regler för kommentarer. Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *