Obsah
Unikla dokumentace o rozsahu více než 2 500 stran, která poskytuje vhled do faktorů, které Google pravděpodobně používá při hodnocení webových stránek. V dokumentaci API je zastoupeno 2 596 modulů s 14 014 atributy (funkcemi).. Ačkoli nelze určit váhu jednotlivých faktorů, dokumenty popisují různé hodnotící systémy a funkce. Google potvrdil pravost úniku.
Rand Fishkin a Mike King toto zanalyzovali ve svých článcích – odkazy níže – a já se snažil texty zkompilovat, přeložit, eventuálně doplnit svými komentáři. Tak prosím k tomuto článku přistupujte. A pokud se objeví nové informace, budu článek aktualizovat (k 10.6. jsme aktualizoval 6x).
Jakkoliv jsou tyto informace zajímavé, neměly by být brány jako definitivní vodítko pro optimalizaci pro vyhledávače. Víme, že se jedná o autentické materiály, není ale jisté, zda Google všechny popsané signály skutečně používá a s jakými váhami. Při interpretaci těchto informací je důležité být skeptický a spoléhat se především na názory skutečných odborníků s přístupem k podkladům, jako jsou Rand Fishkin, Dan Petrovič či Mike King. Dokumenty nicméně poskytují cenný vhled do uvažování Googlu ohledně vyhledávacích signálů.
Prokliky odkazů
Dokument ukazuje, že odkazy jsou tříděny do 3 kategorií podle toho, jestli na odkazující stránku někdo kliká. Odkaz ze stránky, na kterou nikdo nekliká, je k ničemu, zatímco odkaz ze stránky, na kterou lidi chodí, může být velmi přínosný. S tím souvisí i NavBoost. NavBoost je systém, který využívá informace o kliknutí ke zvýšení, snížení nebo jinému posílení pořadí v SERP. Také informace o počtu hledání ukazují trendy pro Google.
NavBoost také vyhodnocuje dotazy podle záměru uživatele. Například určité míra pozornosti a kliknutí na videa nebo obrázky spustí funkce videa nebo obrázku pro daný dotaz a související dotazy spojené s NavBoost. Pokud mnoho uživatelů hledá “SEOloger”, nenajde Pavel Ungr a okamžitě změní svůj dotaz na “Pavel Ungr” a klikne na PavelUngr.cz ve výsledku vyhledávání, PavelUngr.cz získají ve výsledcích vyhledávání na klíčové slovo “SEOloger” propojení a lepší hodnocení.
Všechny tyto data mohou také být použity pro Pandu a vést k zhoršení hodnocení webu.
A na závěr můžeme klidně říci, že snaha Google tvrdit, že CTR, dwell time a podobné signály nehrají roli nejsou pravdivé, alespoň dle informací z tohoto úniku. Mnoho modulů v dokumentaci odkazuje na funkce jako „goodClicks”, „badClicks”, „lastLongestClicks”, zobrazení, kliky a tzv. jednorožčí kliknutí atp. Ty jsou spojeny s Navboost a Glue, která znají ti, kteří četli Google’s DOJ testimony (thecapitolforum.com).
Doménová autorita
Pomocí souhrných signálů o kvalitě, které jsou různé pro každou URL, má Google funkci, kterou vypočítává pod názvem “siteAuthority”. Jo, takže doména má význam a s ní i odkazy, které z ní vedou. V Google se také ukládají nejnovější registrační informace. Pravděpodobně se používá k propojení se sandboxem. Do toho musíme zařadit signál “BabyPanda”, kdy typické spamové domény jako levne-panské-hodinky.cz mají automaticky spam signál. Existuje také něco jako Home Page Rank, což je hodnocení z kterého se vypočítává v základu hodnocení každé nové stránky.
Data z Chromu jsou pro Google důležitá
Vždy jsme mysleli, že hodnocení webů vychází z crawlingu, indexace a chování SERPu. Zjevně k tomu musíme přidat i data z prohlížeče Chrome, protože dokumentace popisuje měření zobrazení na úrovni webu z prohlížeče Chrome. Google sleduje počty zobrazení, a může to
K tomu si můžeme připočíst i informaci, že na velikosti písma záleží. Jan Kvasnička na Reshoperu potvrdil, že Google se snaží o co nejlepší čitelnost obsahu a pokud máte písmo menší než 13px, tak za to máte menší postih. Doporučení zní na 15-17px, a také používat zarovnání na levou stranu. Honza toho popisuje mnohem více, doporučuji od něj získat dokument, kde to popisuje.
Sitelinks
Známe také funkci topUrl, což je “Seznam top url s nejvyšším two_level_score, tj. chrome_trans_clicks”. Je tedy pravděpodobně, že počet kliknutí na stránky v prohlížečích Chrome určuje nejoblíbenější/důležitější adresy URL na webu, které vstupují do výpočtu, které zahrnout do funkce sitelinks.
URL
Vzory a tvary URL adres mohou být Googlem využívány k odhadování důležitosti stránek, stanovení priorit při procházení webu, určování jazyka stránky a dalším podobným účelům.
Obsah
Neexistuje nic jako ideální délka obsahu. OriginalContentScore naznačuje, že krátký obsah je hodnocen podle své originality. To je pravděpodobně důvod, proč tenký obsah není vždy funkcí délky. Google si udržuje posledních 20 změn URL, a dle nich ji hodnotí. Dělejte změn hodně a často .-)
V dokumentaci je uvedeno, že existuje titlematchScore. Popis naznačuje, že to, jak dobře odpovídá název stránky dotazu, je stále něco, čemu Google aktivně přikládá hodnotu.
Stránky s video obsahem se hodnotí jinak, než ty bez něj. Nicméně embedovaný obsah, nejen videa, se používá na hodnocení tématu stránky. Existuje také specifické označení – malá osobní stránka, která se také hodnotí jinak.
Obecně umí (a dělá to) klasifikovat weby dle obsahu a taky dle aktivit uživatelů (UGC).
Sandbox
Ano, existuje. V kapitole PerDocData je v dokumentaci atribut hostAge, který se používá speciálně “pro sandbox pro aktuální spam”.
Autorství
Ano, je to tu! Signál, kterému roky fandím. Google opravdu ukládá informace o autorech spojených s obsahem. Sleduje také, zda tato entita na stránce je autorem téže stránky. Authorship žije!
Odkazy a odkazový spam
V dokumentech je cca 30 zmínek o tom, jak může být určité chování negativně hodnoceno. Tak třeba Anchor Mismatch. Kvůli phraseAnchorSpamDays může Google sledovat významné skoky nárůstu spamových anchor textů v odkazech.
Nikde v dokumentaci nebyla jediná zmínka, že by odkazy byly méně důležité, spíše naopak. Spíše se řeší jaké jsou a kde jsou umístěné a zda se na ně kliká. Takže linkbuilding je a bude stále velmi důležitý. Jo a nikde nebyla zmínka o Disavow tool. Vezměte si z toho, co uznáte za vhodné 🙂
Snížení hodnocení a “penalizace”
Krom výše popsaných, toto jsou další dokumentovaná snížení hodnocení.
- Demotion SERP – pokud není uživatel spokojen s výsledkem, stránky mohou mít snížené hodnocení.
- Demotion Nav – Pravděpodobně se jedná o snížené hodnocení aplikované na stránky vykazující špatné navigační postupy nebo problémy s uživatelským prostředím.
- Demotion Exact Match Domains – Na konci roku 2012 Matt Cutts oznámil, že domény v přesné shodě nebudou mít takovou hodnotu jako v minulosti. Existuje specifická funkce pro jejich zhoršené hodnocení.
- Product Review Demotion – Nejsou k ní žádné konkrétní informace, ale je uvedena jako degradace a pravděpodobně souvisí s nedávným Updatem z roku 2023.
- Degradace umístění – Je zde uvedeno, že “globální” stránky a “superglobální” stránky mohou mít horší hodnocení. To naznačuje, že se Google pokouší přiřadit stránky k lokalitě a podle toho je hodnotit.
- Porn demotions – Tohle je asi jasné 🙂
Datum publikace i aktualizace
Časové značky spojené s publikací obsahu jsou důležité. Google sleduje bylineDate (uvedené přímo v obsahu), syntacticDate (z URL nebo title) a semanticDate (nalezeno někde v obsahu).
YMYL – EAT
Tohle není novinka ani nic šokujícího, ale je dobré to zmínit. Google má nástroje, které počítají skóre pro témata YMYL zdraví a YMYL zpravodajství (news).
Výjimky – whitelistování
Během pandemie Covid-19 používal Google whitelisty pro webové stránky, které se mohly zobrazovat vysoko ve výsledcích vyhledávání souvisejícího s Covidem. Stejně během demokratických voleb používali whitelisty pro stránky, které by se měly zobrazovat (nebo degradovat) v případě informací souvisejících s volbami.
Modul “Good Quality Travel Sites” je také zajímavý, je totiž možné, že pro Google existuje i whitelist v oblasti cestování (není jasné, zda se jedná výhradně o kartu vyhledávání “Cestování” nebo o vyhledávání na webu obecně).
Co si z toho vzít dle Randa Fishkina?
- Značka a její síla je nyní důležitější než cokoli jiného.
- Na zkušenostech, odborných znalostech, autoritě a důvěryhodnosti (“E-E-A-T”) nemusí záležet tak přímo.
- Obsah a odkazy jsou druhotné (pokud je identifikovatlený user-intent), důležitější je záměr uživatele týkající se navigace (a vzorce, které tento záměr vytváří).
- Tradiční faktory hodnocení: PageRank, texty odkazů (tematický PageRank založený na textu odkazu) a shoda v obsahu, klíčových slovech nebo anchor textu již několik let ztrácejí na významu. Titulky jsou ale stále kriticky důležité.
- Pro většinu malých a středních podniků a novějších tvůrců/vydavatelů bude mít SEO pravděpodobně slabou návratnost, dokud si nevytvoříte důvěryhodnost, navigační poptávku a silnou reputaci mezi značným publikem.
- + jeden bod za mne, Google lze věřit čím dál tím méně. Tvrdili, že neexistuje sandbox, nepoužívají Chrome, neexistuje žádná autorita domény a CTR ani dwell time nemají vliv. A ejhle, kecali.
Díky Randovi i Mikeovi za úžasnou práci, pomůže nám všem.
Velký únik kauza pokračuje
Google potvrdil pravost úniku, spekuluje se, že aby Google zakryl a znehodnotil všechny data z úniku, že může všechny nebo valnou většinu signálů devalvuje, tomu odpovídá statistika výkyvu z Algoroo Dana Petroviče.
Původní zdroje:
- An Anonymous Source Shared Thousands of Leaked Google Search API Documents with Me; Everyone in SEO Should See Them – SparkToro
- Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked – iPullRank
- Google Ranking Signals * Dixon Jones
Doplňující zdroje:
- Google’s 14,000 Search Ranking Features Leaked (seroundtable.com)
- Google won’t comment on a potentially massive leak of its search algorithm documentation – The Verge
- HUGE Google Search document leak reveals inner workings of ranking algorithm (searchengineland.com)
- Google Data Leak Clarification (searchenginejournal.com)
- Google Search Leak: Conflicting Signals, Unanswered Questions (searchenginejournal.com)
- Leaked Documents Reveal How Google Search Gatekeeps the Internet (gizmodo.com)
- Google Validates Leak, Igniting Questions Around Search Transparency (searchenginejournal.com)
- Google Documents Leaked & SEOs Are Making Some Wild Assumptions (ahrefs.com)
- 2,596: How To Make The Most Out Of Google’s Leaked Ranking Factors (searchenginejournal.com)
- Google API Leak – Detailed Analysis (keywordspeopleuse.com)
- How SEO moves forward with the Google Content Warehouse API leak (searchengineland.com)
- 5 local SEO insights from Google’s API documentation leak (searchengineland.com)
- Spotibo: Google Document Warehouse leak – poznámky (verejné) – Tabulky Google
- HUGE Google Search document leak reveals inner workings of ranking algorithm (searchengineland.com)
Další články, které vás budou zajímat
Jsem konzultant online marketingu a specializuji se na SEO a inbound marketing. Od roku 2009 jsem pracoval jako senior SEO konzultant pro největší klienty agentur Ataxo a H1.cz. Úspěšně publikuji, školím a přednáším o online marketingu, který doopravdy miluju. Jsem důsledný, zodpovědný, kritický, se smyslem pro detail.
“+ jeden bod za mne, Google lze věřit čím dál tím méně. Tvrdili, že neexistuje sandbox, nepoužívají Chrome, neexistuje žádná autorita domény a CTR ani dwell time nemají vliv. A ejhle, kecali.”
Tak to jste byl “dost” naivní… A myslel jsem si, že jste kapacita.
Zdravím Vás, Pavle.
Mohl byste mi, prosím, vysvětlit tuto větu u autorství?:
“Sleduje také, zda tato entita na stránce je autorem téže stránky.”
Předem děkuji.
PK