Přepis rozhovoru s Dušanem Janovským o vyhledávání na Seznam.cz

Unikátní SEOloger plný otázek a odpovědí s Dušanem Janovským z fulltextu Seznam.cz, proběhl v říjnu 2016. Řešili jsme přechod na https, duplicitu, samotného robota, indexaci, stránkování a mnohé další. Níže najdete jak audio nahrávku, tak celý přepis rozhovoru.

Unikátní SEOloger plný otázek a odpovědí s Dušanem Janovským z fulltextu Seznam.cz se uskutečnil v říjnu 2016. Řešili jsme přechod na https, duplicitu, samotného robota, indexaci, stránkování a mnohé další. Níže najdete jak audio nahrávku, tak celý přepis rozhovoru.

Na začátek mám dvě otázky, na které se lidé často ptali. Seznam Webmaster tools a jejich aktuální status.

Seznam Webmaster tools se v Seznamu připravuje. A pokud vím správně, měly by se v nějakém stavu spouštět do konce roku. Ten stav bude spíš minimální než to, co si představujete. Pro nás jsou Webmaster tools způsob, jak navázat nějakou komunikaci s weby a dnes to jde přes helpdesk, což také nějak funguje. My to chceme zintenzivnit, proto děláme Webmaster tools a nechceme udělat tu chybu, že tam spustíme najednou všechno a ono to prostě bude fungovat špatně. Takže chceme udělat nějaké minimum, navázat komunikaci, spoustu věcí poskytovat třeba jenom ve formě API a nějaký začátek by měl být do konce roku. Pokud byste měli zájem o testovací provoz o nějaký ten týden dřív, tak mi pak můžete říct a já vám dám adresu, kam máte napsat žádosti, že to chcete zkoušet.

Do konce roku 2016?

Tak to je správná poznámka. Tentokrát jsem myslel rok 2016.

Shrnutí: Seznam spustí Webmaster Tools v nějaké jednodušší podobě do konce roku 2016.

A druhá otázka: Co nějaká rozšířenější podpora strukturovaných dat podle schema.org. apod., plánuje se?

Tak mi, Pavle, popiš, co by sis od toho představoval. Přesněji. Dej mi příklad.

Mně by se třeba v případě e-shopu líbilo, kdyby se dalo vypisovat něco podobného, co má třeba Google. Takže třeba recenze, hodnocení, kolik to stojí, eventuálně nějaké další parametry, které by tam dávaly smysl.

Teď nevím o ničem, co by mířilo k zapojení strukturovaných dat, ale protože jednou z našich priorit na příští roky je podpora nákupu, tak je dost dobře možné, že tato strukturovaná data z e-shopu nějakým způsobem potřebovat budeme. Když se na to podívám produktovým pohledem, velmi z dálky, tak já mám hlavní problém s ověřováním pravosti těch dat. Když nad tím nepostavíme opravdu velkou elektrárnu, která by to ověřovala, jestli na těch stránkách opravdu je to, co je napsané v metadatech nebo mikrodatech a zároveň je to na stránce, tak ta data půjdou příliš snadno falšovat. A než bychom se dostali do stavu, že budeme mít výsledky vyhledávání zahlcené falešnými mikrodaty, tak raději zůstaneme u toho, že zobrazujeme snippety.

Shrnutí: Není vyloučeno, že rozšířenější podpora strukturovaných dat bude, ale bylo by dobré mít ověřenou jejich pravost.

Co personalizace? Bude nebo nebude?

V dohledném horizontu se nedá říct, jestli bude, nebo nebude. Už teď jste si mohli všimnout, že personalizujeme, zejména co se týče regionu, upoutávky, dříve se tomu říkalo hinty. To znamená, že mapový firemní hint už dostává uživatel podle toho, kde je jeho lokalita. Tento princip chceme do budoucna nějakým způsobem rozšířit a rozvést. Nicméně, dělat personalizaci takovým způsobem, že bychom znali každého uživatele a měli k němu nějaký profil, to v nejbližších plánech není. Ne, že by to nešlo.

Shrnutí: V nejbližších plánech personalizace není. V tuto chvíli mají personalizaci dle lokality.

Když je stránka kanonizovaná nebo když je označená noindex, znamená to: chodí na něj crawler?

Jasně, protože musí ověřit, že tam ten kanonický link nadále je, případně že tam nadále je noindex. Jak často? Může trochu zvolnit. Není to pro něj v tu chvíli zase taková priorita. To znamená, že když mám noindex a udělám to třeba omylem a po měsíci ho vypnu, tak za nějakou dobu Seznam mu to zjistí. Jasně, on tam přijde znovu. Jo. Ale ta doba může být delší. Když potřebuješ rychle přeindexovat jakoukoli URL, tak ji dej do předávacího formuláře. A ten robot tam přijde, i když je tam noindex, a ví to.

Shrnutí: Crawler na kanonizovanou nebo noindex stránku chodí, ale méně často.

Když jsme si kvůli indexaci kdysi volali, ty jsi mi vysvětloval, že crawler nestahuje úplně všechno a že u stránek, které mu třeba z nějakého důvodu nepřijdou jako důležité, může říct, proč je pro crawler stránka nezajímavá a nechce ji stáhnout.

URL adres může být fakt strašně moc. To znamená, že ten robot si principiálně musí hodně vybírat. Takže: Z těch všech URL, které najde typicky z odkazů, musí být nějaký způsob, jak rozhodnout, že ta stránka se bude stahovat, že se pro ni bude zakládat záznam, že se bude indexovat, že půjde do vyhledávání. A tohle děláme nějakým postupem, kterému říkáme zakládací skóre nebo indexační skóre. Ke každé té URL vypočteme nějaké číslo. Ale napřed vysvětlím to číslo. Jaké číslo je které. Pokud je větší než nějaký práh, tak tu stránku založíme, případně zaindexujeme, a pokud je menší, tak ji nezaložíme. Buď ji vůbec nezaložíme, nebo ji založíme, ale nestáhneme, případně ji stáhneme, ale nezaindexujeme. Ještě tam hraje roli nějaký prvek náhody a celé to navíc budeme předělávat tak, že se vrátíme k něčemu, čemu se v anglické literatuře tuším říká crawling budget, čili nějaká kvóta, kterou má každý web a my se budeme rozhodovat vlastně na každém webu, které stránky jsou důležitější a které jsou méně důležité. Ty z těch dobrých webů zaindexujeme všechny. Z těch horších webů zaindexujeme třeba nějakou část. Ale pořád neodpovídám na to, jak se to číslo vlastně postaví. Já ti na něj neodpovím úplně detailně, ale dá se zjednodušeně říct, že lepší tohle číslo, to zakládací skóre, mají URL, které jsou krátké, hezké, obsahují česká slova, vede na ně hodně odkazů. Třeba že jsou starší nebo celá autorita toho webu se tam projevuje. Třeba jak často umírají URL na daném webu. Jak často se mění ve 404, nebo kolik je duplicit na tom webu. Když je tam moc duplicit, tak my si říkáme: „Ty jo, to je vysoce pravděpodobné, že obsah na téhle stránce bude zase duplicitní.“ Tak se to tam nějak započítá. Teď neřeknu z hlavy, jestli je to naučené umělou inteligencí nebo jestli je tam nějaký vážený součet těchto parametrů. Myslím, že část je naučená umělou inteligencí, stanoví se číslo a pak ještě se tam v posledním kroku hází kostkou, že se k tomu připočítává nějaká náhoda. Typicky pro situaci, kdy mám tisíc stránek v trochu strukturovaném webu. Mám tisíc stránek, každá z nich má stejné skóre, protože mají stejně dlouhou URL, podobná slova v ní, vede na ni stejný počet odkazů, tak aby se tam dostala nějaká část. Aby se zaindexoval alespoň nějaký vzorek.

Shrnutí: Každé URL vypočte Seznam tzv. zakládací skóre (též indexační skóre), dle kterého je URL zaindexovaná nebo nezaindexovaná. Lepší zakládací skóre je u krátkých, hezkých, URL, na které odkazuje hodně webů. Zakládací skóre zohledňuje duplicity na webu, četnost 404, četnost zániků URL na daném webu.

Je tam nějaký příznak freshest jako nějaké aktuálnosti čerstvosti, aby nový web byl schopný alespoň trochu porazit ty staré?

Z hlavy nevím. Zvažovali jsme to, ale nevím, jak to dopadlo.

Berete v potaz, když je v sitemapě důležitost té stránky napsaná?

Podle toho, co si pamatuji, tak ano. Ale to bych musel ověřit přes Martina.

Mně připadá, že ne.

Je to možné, na tuto otázku nejsem připravený. Nevím.

V pořádku.

Jo? To je prostě hluboká otázka na robota.

Liší-li se Google v počtu odkazů, myslím i interní odkazy.

Ano, ty zejména. Protože tohle se týká hlavně hloubkových stránek. Pokud máš stránky, někdy blízké hlavní stránce nebo ty důležitější, tak si troufám tvrdit, že ty dokážeme najít a jim dáváme nějakou autoritu. A já si nedokážu představit, jak bych mohl sehnat přirozený odkaz pro nějakou webovou stránku. Z externích. Prostě dneska na tebe nikdo neodkáže. Do hloubky webu Seznam indexovat nechce. Ale interní odkaz je také. Z toho se hodně pozná.

Shrnutí:

Google i Seznam se liší v počtu získaných odkazů, u komerčních webů se Seznam do hloubky webu bez interních odkazů málokdy dostane. Dobrá struktura a interní prolinkování je zásadní.

V rámci těch interních odkazů: Záleží na technologii, jak je postavená třeba navigace toho webu, jestli je třeba celá vypsaná nebo poschovávaná csskami nebo jestli si vytahuje JavaScriptem ty odkazy. Tedy jestli to technické řešení navigace webu ovlivňuje tohle rozkládání skóre na jednotlivé stránky.

Tak cssky téměř jistě nehrají roli. Určitě hraje roli počet stránek, počet odkazů na té stránce. Můžete si to představit jako 20 let starý paper o PageRanku. Je to hodně podobné, ty základy jsou vždycky stejné. Takže když máš web, který má sám o sobě nízkou autoritu, a dáš si na něj 200 tisíc URL, tak prostě je jasné, že se na některé nedostane. A naopak, když máš web, který má třeba 2000 URL, tak se může vyplatit udělat mělčí tu odkazovou strukturu, nejít na 6 skoků, ale třeba jenom na tři. To roli hrát může. A co je hrozně důležité v technických otázkách, obzvláště u e-shopu, opravdu si pohlídat parametry. Aby tam nepřibývaly parametry, protože když se podíváš na problematické weby, tak to je vždycky o tom, že jim tam bobtná řada parametrů, které nic nedělají. A my umíme poznat, že ty stránky jsou stejné, pokud mají stejné parametry se stejnými hodnotami. Nezáleží na pořadí, my si je seřadíme, ale už nedokážeme poznat, jestli je ten parametr kočička = ano, jestli něco dělá, nebo nedělá. To bychom tam museli jít a tu stránku stáhnout. Což se na začátku nedělá. Na začátku se rozhoduje, jestli tu stránku vůbec založíme. Takže u těch stránek, kdy už opravdu si nejsme jistí, že se k nim chodí, tak tam další parametr to může úplně zabít.

Shrnutí: CSS nehrají v rozkládání skóre roli. Roli hraje počet odkazů na stránce, u e-shopů hrají důležitou roli parametry.

Ještě takový nápad – nemohlo by tohle být v Webmaster Tools, vyloučení nějakých parametrů toho webu?

No, mohlo. Ale říct nástroji „Tenhle parametr ignoruj,“ je v podstatě to samé jako říci to na jiné úrovni a v podstatě ho nedávat do žádné URL, do žádného odkazu. Mohlo by to tam být, ale myslím si, že v první verzi to nebude.

Souhrn: V první verzi Webmaster Tools nebude možnost ignorace vybraných parametrů.

Ono s tím souvisí další téma a to je obecně indexace. Já mám zkušenost, že na Seznamu je proindexovanost výrazně horší než na Google (rozumím tomu, že prostě Google má větší výpočetní výkon, pracuje s tím jinak). Je třeba něco, co je častá chyba? Co nedělat? Moje zkušenosti jsou právě miliony parametrů, filtrace a duplicitní stránky nebo výrazně podobné stránky. Je tam ještě něco, co bys doporučil majitelům webů nedělat a co je častou příčinou toho, že Seznam něco neindexuje?

Dost často jsou stránky, na které nevede odkaz. Tím, že my se nezabýváme až tak do hloubky pitváním JavaScriptů, bereme jenom ty základní JavaScripty, které umíme rozpoznat z nějakých patternů, když tam je URL, tak ji vidíme, ale jinak se tím moc nezabýváme, tak je možné, že se na nějakou stránku ten robot vůbec nedostane. A pak jsou dost častou chybou obrácené kanonické linky, nebo vůbec nesprávně použité kanonické linky. Někdo tomu nerozumí a nastrká je tam, kam ho napadne. A také může hrát roli, jakým způsobem do navigace zasahují cookies. Když měníš URL uživatele na základě toho, jaké dostane cookie, tak riskuješ, že Seznam si to cookie také zakceptuje, protože náš robot když vyhodnotí některé cookies, že mají vliv na URL, tak je akceptuje. Takže když měníš URL nebo přesměrováváš na základě toho, jaký uživatel má nebo nemá cookie, tak se může stát, že prostě nás to zavede někam úplně jinam. Na tohle vám můžu dát pár příkladů. Typicky co se stalo asi před rokem: Měníme velký server a ten má hodně geografických variant. Třeba pro každý kraj měl jednu variantu. Třeba měl example.com/liberec, example.com/brno. Prostě nabízel něco lokálního. A předpokládal, že ten uživatel, který se zajímá o Liberec, tak už ho vždycky bude zajímat jenom Liberec. To znamená, že když ten robot potom přišel na adresu ubytování, tak on ho automaticky poslal na ubytovani/liberec. A když z jiného odkazu jsme našli adresu, která někde měla Brno, tak on ho příště z té stránky „ubytování“ přesměroval na ubytovani/brno. Takže prostě takovéto věci z počátku vypadají jako úžasný nápad, ale pak je to strašný blok, protože když se nějaké URL 4x přesměruje pokaždé někam jinam, tak si můžeš představit ochotu, s jakou to ten robot bere. Nebo další problém: Hlavní stránka přesměrovává pokaždé na jinou URL. Dělaly to velké weby, že tam chtěly mít novinky, tak pokaždé, když tam přišel uživatel, tak ho přesměrovávaly na čerstvou verzi novinek. (z publika: Forpsi to má takhle, má tam nějaké motto před každým článkem a má to jinou URL) Myslím ještě jiný problém, ale v podstatě také. To je v podstatě nějaká vstupní stránka ještě před webem.

Shrnutí: Častými chybami, kvůli kterým nejsou stránky zaindexované, jsou: Stránky, na které nevede odkaz, nesprávně použité kanonické linky, cookies, přesměrovávání z hlavní stránky na jiné URL.

Jak správně řešit stránkování, aby to bylo pro Seznam v pohodě?

Jak teď řešíš stránkování, kdybys ignoroval Seznam?

Rel=prev/next.

Dobře. A co očekáváš, že ten vyhledávač s tím udělá?

Že v případě, že je zadaný dotaz, který by normálně vedl na jednu z těch stránek stránkování, že mě převede na tu hlavní stránku třeba té rozstránkované kategorie.

A ten předpoklad je, že vlastně na té první stránce toho výpisu je to, čím má ten uživatel začít. Je to tak?

Asi. Může to tak být. Nemusí to asi platit vždycky, ale v zásadě si myslím, že…

Ony jsou totiž dvě situace a to je důvod, proč to neděláme. Jedna situace je, když skutečně stránkujete zboží. To je jasné: Já toho uživatele skutečně chci dostat na tu hlavní stránku, aby začal od začátku. Ale pak existuje druhý případ stránkovaného obsahu a to jsou diskuze. A v případě diskuzí, když někdo chce konkrétní informaci a my bychom ho poslali na první stránku té diskuze, tak to je špatně. A tohle je to důvod, proč jsme se v tomhle ještě nijak neposunuli. Dneska jsem mluvil s Martinem o tom, jaký je stav v tomhle. A on říká, že teď krátkodobě s tím nic dělat nebudeme, ale dlouhodobě bychom chtěli to Rel=prev/next akceptovat tím způsobem, že ho dostaneme na tu první stránku, ale jak to dopadne u těch obsahů, které se tak chovat nemají, to teď nevíme. Vlastně by bylo dobré zjistit a v tom nám můžete pomoci, jak se chovají konkurenční vyhledávače.

Shrnutí: Seznam momentálně stránkování přes Rel=prev/next nedělá, protože je problém s diskuzemi, kde je nežádoucí přesměrování na první stránku. Dlouhodobě by ale chtěli Rel=prev/next akceptovat.

Já bych se teď dostal k věcem, které považuji za chybu. Třeba mi vysvětlíš, že to chyba není, že je to nějaká vlastnost, ale poměrně často se mi stává, že z výsledků vyhledávání se hlavní stránka propadne kamsi úplně k čertu, i když podle mého názoru všechny signály hovoří pro to, že by na daný dotaz měla být třeba… neberu nové dotazy. Já jsem to kdysi řešil u Pricemanie, kde opravdu byl nový dotaz. To znamená: Podle mě úplně nejvíc relevantní na brand je úvodní stránka, počet odkazů, všechny ostatní signály, které mně jsou známé, odpovídaly tomu, že by ta úvodní stránka byla, ale ona byla někde v čertu. Proč se to děje, nebo co s tím můžeme udělat, aby se to nedělo? V čem je problém, že se to takhle spočítá?

Ono je velmi těžké mluvit k případu, který neznám. Takže to teď nevidím, ale mohu vyjmenovat hlavní situace, co se tam stává. My máme nějakým způsobem tu hlavní stránku uloženou jako záznam v databázi. A když se na tom webu nebo někde jinde vyskytne chyba, tak se prostě stane, že ona se propadne, nebo úplně z toho indexu vypadne. Takže my s tím pracujeme jako s entitou jedné URL. Není to tak, že bychom si zasedli na ten web a řekli si: „Ty jo, to je nějaký parchant.“ To je úplná blbost, takhle to není. Je to tak, že se něco stane s tou jednou konkrétní URL. A teď ty nejčastější věci, něco jsem již zmínil: Typicky se může stát, že se to třeba přesměruje pro nějaké zařízení někam. My tam přijdeme s robotem, nějaká chytristika to chybně vyhodnotí, že jsme tam byli mobilem nebo že jsme nějaký zlý robot. A třeba nás odřízne. Že jsme zlý robot a nic nám nedá. Nebo si myslí, že jsme mobil, tak nás přesměruje na mobilní verzi. V tu chvíli se rozbíhá nějaký veliký přepočet, kdy se tam znovu počítají ranky atd. a ta URL dočasně vypadne a pak druhý den nám dá tu ostrou, tu desktopovou verzi. Problémy s cookies tam můžou nastat. Třeba teď jsme řešili s jedním webem, že mu vypadla hlavní stránka a bylo to tím, že si ukládal do cookie, jestli uživatel je mobil nebo desktop, jestli chce mobil nebo desktop. A robot neví, že se to do cookie ukládá, ale akceptuje a šel pro nějaké URL, zase ten server si řekl „aha, tenhleten uživatel je na mobilu“. A když si sáhl pro hlavní stránku, tak ho přesměroval na mobilní verzi a ta měla noindex. Takže prostě když to ten webmaster nedomyslí, když to trochu překombinuje, tak se tam tyto věci mohou stávat.

Shrnutí: Za propad ve výsledcích vyhledávání může být velmi často chyba na webu (špatně vyhodnotí zařízení, kterým se web navštěvuje, cookies).

Ty už jsi několikrát říkal, že váš robot přijímá cookies a někam si je ukládá?

Náš robot přijímá cookies a někam si je ukládá. A je tam nějaké ověřování, jestli to má cenu a myslím, že to ukládá tehdy, když to cookie dostává na převážné většině obsahu, který na tom webu je. Ale pokud bychom to měli ověřit, tak se musím zeptat nebo podívat do kódu.

Shrnutí: Robot přijímá a ukládá cookies tehdy, dostává-li cookie na převážné většině obsahu webu.

Pořád platí, že není možné zjistit, a ani mi to ničím nepotvrzujete, zda web je, nebo není penalizován?

Existují dva druhy penalizací. Jedna penalizace automatická, tu vyhodnocuje nějaký robot s umělou inteligencí. Druhá penalizace je ruční, tam náš administrátor – živý člověk – zaklikne „tenhle web poniž nebo ho tam vůbec nedávej“. Kdybychom si promítli časově, jak moc se děly které penalizace v historii, tak jsme začínali ve stavu, kdy jsme penalizovali ručně. Tam seděl ten člověk a většina těch věcí šla ručně, to byl nějaký ten rok 2005. Dostali jsme se do stavu roku 2016, kdy ručně penalizovaný není téměř žádný obsah. A když říkám téměř žádný, tak to znamená, že existuje pořád nějaký ručně penalizovaný obsah, ale jestli nejsi fakt šílený doménový spekulant, který krade obsah a dává ho na nově vytvořené domény na zvláštně poskládanou URL a má na to software, který mu takových domén plní obsahem desítky a stovky, tak se tě to fakt netýká. Tak teď jsem v podstatě odpověděl na dotaz, co penalizujeme ručně. Ručně to penalizujeme zejména z toho důvodu, že tam weby redirect. Já nevím, jak to přeložit, no prostě zavádějící redirect. Udělá se to tak, že si naplníš stránku obsahem a dáš na ni javaScriptové přesměrování, které my neumíme zdetekovat, prostě nějaké reloadurl. Přijde tam náš robot, myslí si, že je tam obsah, tím pádem tam posílá uživatele. Ale to přesměrování okamžitě vede na nějaký přeprodávač trafficu, na nějaké v podstatě až reklamní řešení a od něj to pak kupují i docela velké weby. Takže takový zvláštní byznys a my tam nedokážeme, pokud bychom nezpracovávali JavaScript úplně detailně a i možná potom bychom měli problém, tak pokud se tam takhle to přesměrování děje, my nemáme žádný způsob, jak zjistit, že tam je roboticky. To znamená, že my to děláme potom poloautomaticky, ručně, že si prostě napíšeme nějaký script, který nám najde 90 %, spíš 99 % té link-farmy, a smázneme ji ručně. A dá se to tedy nějak poznat? Pokud jsi ručně penalizovaný, tak my z naprosto logických důvodů nic takového nesdělujeme. Protože, jestliže se někdo snaží oklamat náš vyhledávač, tak my nemáme žádný zájem mu pomáhat. A pokud jde o tu automatickou penalizaci, tak tam si myslíme, že bychom také neměli dávat vodítko k tomu, jestli někdo je, nebo není penalizován. Protože i ta automatická penalizace je postavená tak, aby nějakým způsobem znevýhodňovala weby, které jsou postaveny způsobem, o kterém si nemyslíme, že je pro uživatele dobrý. A kdybychom začínali posílat nebo umožňovat varování ve smyslu „Podívejte, na téhle stránce jsme zdetekovali signály, které znamenají, že si myslíme, že nás oklamáváte“, tak bychom jenom dávali těm nepoctivým návod, jak to oklamat.

A nemůže tam být nějaké procento těch false-pozitiv, že někdo je penalizovaný ne kvůli tomu, že by něco dělal vědomě, ale že si prostě třeba dostatečně nepřečetl nápovědu, nebo mu to přijde jako dobré řešení a ono není?

Já vím přesně, kam míříš. Tak nějaké procento false positiv tam je a obvykle to není žádná tragédie. Protože obvykle to není v ostře komerčních a konkurenčních sektorech, takže pokud někdo píše něco velice specializovaného a omylem toho klasifikátoru je lehce penalizovaný, tak to zas tak nezkazí zážitek toho uživatele, protože ten tyto úzké informace většinou najde.

Rád bych poznal, jestli třeba daný web není jenom dostatečně dobře hodnocený, nebo už je penalizovaný. A to ten výsledek, jak to vypadá, může být velice blízko sobě.

Ne, nemůže. To jsi řekl to samé. Toto hodnocení a penalizace. Takhle. Automatická penalizace není závislá na dotazu. To znamená, že ty se vlastně ptáš jenom, jestli jsi hodně přesně zacílený na obsah. Nebo jak poznat, jestli máš zlepšovat všechny stránky nebo jen jednu nebo já nevím, na co se ptáš.

No, jestli to znamená, že mám pracovat na obsahu, získávat zpětné odkazy atd., anebo že jsem porušil něco, co Seznam říká, že se dělat nemá a já si musím najít stránky, kde jsem to třeba omylem porušil. Což jsou podle mě dvě úplné rozdílné aktivity.

To druhé téměř dělat nemusíš (jako něco porušit omylem), to si fakt nedokážu představit.

To ti můžu říct spoustu případů.

Tak mi nějaký řekni.

Třeba že „Mně vydělává e-shop, tak se rozhodnu, že ho třeba 4krát rozkopíruji, že mi to přijde jako dobrý nápad“. Takže mám 5 duplicitních webů a tomu člověku to nepřijde vůbec divné. Což za tohle není asi penalizace, ale je to jasný případ, kdy…

Ten automat si řekne „to je divné“ a typicky se stane, že náhodné části zahodí nebo nezahodí, ale že si je třeba nezaindexuje.

Nicméně rozumím tomu, že to v podstatě není možné nějak zjistit aktuálně. No, a je to záměr. Já to chápu, jen jsem chtěl vědět, jestli se náhodou ta filozofie nezměnila, jestli je to pořád konzistentní.

Ne, nemyslím si, že se bude měnit.

Když jsme u toho záměru, alespoň nějaké takové lehké věci, které by alespoň šly říct: „Hele, jste fakt blbý a neumíte kanonika. Nám se to nelíbí…“. Pár takových základních nejčastějších blbostí, které nejsou přímo podfukové, spíš je to technického rázu a říct „v těchto pěti jste fakt technicky trochu pozadu a podívejte se na ně“.

Nejsem produkťák webmaster tools, nicméně si myslím, že v nějakém dlouhodobém horizontu by tahle komunikace měla probíhat právě tam. A víme, že to potřebujeme. Otázka je jiná: Jakou to má prioritu?

Shrnutí: Penalizace se dělá převážně automaticky. Informace o penalizaci nejsou sdělovány, aby nebyl poskytnut návod, jak robota oklamat. Pokud jsou nějaká false-positives, tak jsou většinou u specializovaných webů (nikoli u komerčních, konkurenčních sektorů) a penalizace není takový problém (uživatel si tyto informace stejně najde). Výhledově se počítá s tím, že Webmaster Tools by měl fungovat i pro komunikaci v ohledu technických nedostatků, které můžou penalizaci způsobovat.

To znamená, abych to zjednodušil, když si nenajdu na nic tak je něco špatně. A pravděpodobně tam může ta penalizace být. Když si najedu na něco…

… promiň, to znamená, když dám se site operátorem tvoji doménu a nenajde se nic, tak to znamená, že tam není…?

Nebo když nemám žádné přístupy ze Seznamu a nenajdu se třeba na unikátní frázi, o které vím, že nikde jinde není…

Větší operátor site je lepší, anebo i teď už máme info.

A i ten operátor site ti řekne, že jsi penalizovaný?

Ne, neřekne. Site ukáže stránky, které má indexované.

Site ti ukáže stránky, které máš indexované, ale ne že jsi penalizovaný. To znamená, že se nenajdeš na klíčové slovo, tak to není to, jako když si dáš hledat přes site.

Není.

Ty si umíš porovnat, co máš v site mapě a co je na Seznamu. Alespoň část map tam máš. Když jsme mluvili o té penalizaci, jestliže mi prostě ze Seznamu nechodí nic a mám třeba na webu fráze, které jinde nejsou, a nejsem schopný se na ně dohledat, tak je to pravděpodobně průser.

Ne. Ono se třeba může stát, že máš web, který cílí na publikum, které není na Seznamu. Mohu ti dát příklad. Já mám web jakpsatweb.cz a tam ze Seznamu chodí mnohem méně uživatelů, než by odpovídalo podílu Seznamu na trhu. A je to prostě tím, že lidé, kteří hledají věci, jak se dělají stránky (a to není záležitost tohoto roku, to už je prostě od začátku, co ten web píšu, někdy od roku 2000), tak ti prostě hledají jinými cestami. Ti to nehledají přes Seznam. Těchto odvětví může být víc.

Já myslel třeba klasický e-shop.

Ale i e-shopy – prostě existují obory, kde ten Seznam má fakt silné odvětví. Parfémy, prostě takové věci. A pak jsou obory, kde to Seznam spíš má míň, než by odpovídalo pozici na trhu. A také je možné, že máš web plný věcí, které lidi prostě nehledají. Lidi tam můžou hledat jiné věci.

Shrnutí: Když se nelze dohledat na Seznamu, neznamená to automaticky, že je web penalizován. Může tam hrát roli publikum – není na Seznamu, obsah webu – není hledaný publikem Seznamu, odvětví – některá má Seznam silně pokrytá, jiná méně.

Podle mě Seznam neumí poskytovat moc dobře aktuální výsledky. Občas ještě fungují zpravodajské hinty. Ale dost často aktuální téma není Seznam schopen vůbec pokrýt. Je šance, že se to do budoucna nějak zlepší?

Jo, rozhodně. Já můžu vysvětlit, proč se ten vyhledávač chová způsobem, který tam je, ale musel bych k tomu vysvětlit, jak funguje celý vyhledávač. Můžu? Jak učíme relevanci. My učíme relevanci tak, že tam máme nějakou komponentu strojového učení. V našem případě to jsou součty rozhodovacích stromů a my tomu říkáme rozhodovací les. Má to dvě fáze. My to napřed naučíme a ono to pak funguje samo. Takže když mu tam pošleme známý dotaz a k tomu známé výsledky, které nám brigádníci odklikají, že jsou dobrý/špatný. Tak ten automat – rozhodovací les – se naučí, které výsledky na základě nějakých signálů, které se tam někde v pozadí spočítají, považujeme za dobré a které za špatné. Když tam přijde nový dotaz, který nezná, který nikdy neviděl, a těch unikátních dotazů je samozřejmě naprostá většina, tak se umí rozhodnout sám a takhle funguje celý vyhledávání. A my si sbíráme datovou množinu správných výsledků, které považujeme za dobré. U nějakých desítek tisíc dotazů, myslím, že jich je 40 000. A děláme to tak, že dáme brigádníkovi dotaz, on pochopí ten dotaz, dostane stránku a podle toho, jak ta stránka je relevantní k tomu dotazu, tak dá nějaké hodnocení jako ve škole. S čerstvými dotazy máme problém ten, že nám v té databázi z logických důvodů chybí. Protože my používáme data zhruba za poslední rok, ale kdybychom používali data z posledního týdne a učili to jenom na nich, tak se to nenaučí dostatečně rychle, protože úplně nové dokumenty nemají napočítané signály, které třeba bereme z nějakého historického chování, nevidíme tam ještě všechny odkazy, které na to vedou, protože jsme neprocrolovali všechny jejich interní sousedy, neprocrolovali jsme externí stránky. Takže pomalu sbírají signály. My, abychom to vyřešili, musíme postavit vedle ještě jeden vyhledávač, který budeme učit na jiných datech a poskytneme jiné signály, které nemají tu latenci. Takže ten plán máme, ale kdy to bude…

To znamená, že problém je, jestli to chápu dobře.

Problém je v celé té metodě, kterou používáme.

A je to tedy tím, že třeba Seznam má malý výpočetní výkon.

Ne, vůbec ne. To je metodická záležitost, ale my jsme na tu metodu, ačkoliv v tomto případě neposkytuje optimální výsledek, my jsme na ni pyšní, protože nám umožňuje nádhernou generalizaci přes spoustu dotazů a průhlednost, tam může kdykoliv nakráčet auditor nebo Úřad pro ochranu hospodářské soutěže a to funguje krásně průhledně. Prostě tady jsou data a tady jsou výsledky. Ale ta metoda nepřímo vede k tomu, že neumí správně ohodnotit dokument, který si nestihne nasbírat nějaký signály. Budeme teď dělat kroky, které vlastně udělají napřed to, že si odčlení část indexu, na kterých se to bude počítat jinak. A ty výsledky se pak budou nějakým způsobem míchat.

Jasně. Rozumím. Ale teď to prostě není. A kdy to bude, je tam nějaký časový horizont, který můžeš říct?

Já nevím. Můžu ti to teď odhadnout, ale bylo by to nepřesné. Nás to samozřejmě trápí a možná i víc než vás, co tady jste. Motivace je na naší straně.

Pak trochu ke statistikám. Možná to dodělal Google, co pro Vás teď testnul mobilním indexem, že bude extrémně rychlý.

To je něco úplně jiného.

Ale, teď jsi říkal, že úvaha by byla ještě udělat něco, že oni mají teď, že mají ten fresh, který bude hodně rychlý.

To vůbec takhle není. Můžeme probrat, co bude dělat Google, ale teď možná…

Shrnutí: Aby Seznam poskytoval aktuální výsledky, musí proběhnout změna metodiky vyhledávání, jelikož nepoužívají aktuální data z důvodu malého množství signálů. Změna metodiky je naplánovaná, ale neví se zatím, kdy bude. Problém není ve výpočetním výkonu Seznamu.

Můžu se ještě zeptat k tomu předchozímu tématu? Jste schopni, interně, jednoznačně identifikovat důvody penalizace? Důvod, nebo důvody? Anebo to prostě…

Penalizace říkáme ten algoritmus, který nějakým způsobem určí, jestli to je nebo není spam. V případě že je, tak sníží hodnocení.

Čili jste schopni identifikovat, pokud se do toho někam podíváte na tom webu, tak tenhle web je prostě jednoznačně problém.

Ano. A můžeme dokonce říct a interně to občas děláme, že se potřebujeme ujistit, že to funguje správně. Takže když si vezmeme nějaký web, u kterého víme, že je automaticky penalizovaný, tak jsme schopni se podívat na jeho signály, ze kterých se to spočítalo, těch je asi 300 a pořád přibývají. A vidíme třeba, že má špatně tenhle signál, tenhle signál. A můžeme se zamyslet nad tím, jestli je to správně, ale tu automatickou penalizaci určíme zase velmi podobně té relevanci. Ta úloha je mnohem jednodušší, protože v tuhle chvíli tam není ten dotaz, takže se stačí podívat na stránku, případně na celý web a říct, jestli je nebo není udělaný za účelem klamání vyhledávače. Pokud je, tak prostě řekneme: „Tohle je spam,“ případně ještě počkáme. A pak to dáme do nějakého stroje, zatočíme klikou a padají nám z toho hodnocení pro jednotlivé weby. A my jsme schopni samozřejmě zpětně debugovat, jestli ten daný web má některé signály větší nebo menší. A děláme to samozřejmě kvůli tomu, abychom se přes vychytání false-positiv zamysleli nad tím, jaké signály tam musíme přidat a jak musíme doplnit data, aby to bylo ještě lepší. V tuhle chvíli na tom pracují v podstatě dva lidé.

Shrnutí: Seznam je schopen ze signálů daného penalizovaného webu vyčíst, proč byl penalizován. Signály vyhodnocují, doplňují, aby byl celý systém penalizace lepší.

Jak často aktualizujete ty algoritmy? Jednou spadne do žumpy a jak dlouho tam je?

To je zajímavý dotaz. Ten model aktualizujeme zhruba jednou za čtvrt roku, ale přepočet URL se děje při každé její indexaci. To znamená řádově týden, dva, tři. Nicméně, abychom nedali těm, kdo nás chtějí oklamat, příliš pečlivou zpětnou vazbu, tak si s sebou nesli historii, a když měli historii ze žumpy, jak říkáš, tak jsme mu ji tam ještě chvilku nechali, ačkoliv jsme věděli, že už v ní není. Ještě jsme ho nechali chvilku smrdět. A ta chvilka byla v horizontu několika týdnů. Aby se nemohlo stát, že ten útočník změní web a na denní bázi pozoruje, co se děje, tak tam musí být ta historie se zpožděním.

Shrnutí: Přepočet URL se děje při každé její indexaci (tzn. řádově týdny). Ale klamavé weby zůstávají na základě jejich historie penalizované o něco déle (opět horizont týdnů).

Já mám teď dva statistické dotazy, na které mě extrémně zajímá odpověď, a jsem zvědavý, jestli můžeš a dokážeš říct: Kolik procent kliků z výsledků vyhledávání sežerou PPCčka ve srovnání s organikem.

Na takto položenou otázku, kde se vyskytuje slovo „sežerou“, se mi odpovídat nechce. Ne, já vím, nač se ptáš. Ty se ptáš, jaký je poměr organiku v odchozích kliknutích PPC a ještě interní upoutávky seznamácké. Já ti na to skutečně nechci odpovídat. Já ta čísla znám, ale můžu ti to říct takto: Těch odkliků, které vedou přes organik, je pořád naprostá většina a když porovnám PPC s interními upoutávkami, tak těch interních upoutávek, to znamená upoutávky na obrázky, videa, mapy, firmy, zboží, tak těch je nejméně, jsou to nějaké jednotky procent.

A jaký je tam trend?

Nevím. Chápu tuhle otázku, ale na tu jsem se nepřipravil.

Shrnutí: Stále je naprostá většina odkliků přes organik, interních seznamáckých upoutávek je nejméně (jednotky procent).

S tím souvisí ta druhá otázka. Před časem e-Visions spustili svůj vlastní průzkum v poměru vyhledávačů v ČR. Moje vlastní čísla, když jsem si to dělal, docela dobře odpovídají, že to vychází zhruba 60–65 % Google, někdy i trochu víc, a kolem 30–35 % Seznam. Když to vezmeme v té nejobecnější rovině, můžete ta čísla potvrdit, vyvrátit, nebo nemůžete říct nic?

Já je potvrdit nemohu, protože neznám jejich metodiku. Kdykoliv děláš takovýto výzkum, tak je strašně obtížné správně odlišit třeba traffic, který jde ze zahraničí a nezapočítáváme ho, a protože prostě v zahraničí Seznam není, tak při odfiltrování zahraničního trafficu Seznam vždy tratí. Nechci ta čísla zpochybňovat, mě samozřejmě zaujalo, co jsem tam četl a v některých oborech to pravděpodobně tak bude, ale pro nás není poměřování s jiným webem důležité. Protože pro nás je důležitý náš vlastní objev vyhledávání nebo nějaké jiné parametry.

Já se zeptám takto: Víte, jaký máte podíl na českém trhu?

Nevíme. Já to řeknu jinak. A to je opravdu hodně upřímné. Nás to vlastně nezajímá. My sledujeme naši návštěvnost a způsoby, jak pomáháme uživatelům a kolika. A tam je to vysoce stabilní.

Takže to tam neklesá, nebo neroste?

V takových rozměrech, aby se o tom dalo mluvit globálně, se na to nedá odpovědět.

Ten trend, jestli je rostoucí – čistě vaše návštěvnost.

Jistá volatilita tam je i uprostřed toho roku a ten grif je v podstatě velmi stabilní.

A nemění se to ani s příchodem mobilu?

Nad vyhledáváním máme méně mobilů – mobilního trafficu – než odpovídá penetraci. To jsem vlastně odpověděl kompletně. Na mobilech musíme zapracovat.

To znamená, že Seznam browser nepomohl nijak?

Ne, vůbec ne. Seznam browser je skvělá věc.

O tom pochopitelně nikdo nepochybuje. Kdo z vás ho používá? Alespoň já jsem to vnímal tak, že Seznam browser včetně mobilního je snaha dostat ty lidi na Seznam i z mobilu.

Také samozřejmě ano. Hlavně usnadnit jim tu cestu na mobilu. Ve chvíli, kdy ten mobil mají, tak jsou zvyklí na nějaké služby, tak jim je dát.

Shrnutí: Seznam neví, jaký má podíl na českém trhu vyhledávačů a ani jej to nezajímá. Sledují jejich návštěvnost a ta je vysoce stabilní. Nemají tak dobrý mobilní traffic, jaký by zřejmě mohli mít.

Já bych se teď dostal ke zpětným odkazům. To doufám, že můžeš říct. Vy za zpětné odkazy penalizujete – jako že poškozujete web, nebo jenom zanedbáváte?

Tak napřed musí přijít analýza té otázky. Oni jsou, tak proč bychom vůbec za zpětný odkaz měli něco dělat. Nebo proč bychom se vůbec měli dívat na odkaz. Ty v otázce rovnou předpokládáš, že ten zpětný odkaz je nějak špatný.

Ne, jako že odkaz může mít různou kvalitu.

No, jasně.

A v případě, že třeba většina odkazů na danou URL nebo na danou doménu má hodně špatnou kvalitu, tak bych asi jako vyhledávač o tom přemýšlel. A jsou dvě možnosti. Jasně, jasně. Buďto to zanedbat a takovéhle odkazy ignorovat, anebo s tím nějak víc pracovat.

Rozumím té otázce. Tam jsou skutečně tři roviny. Tři levely toho přístupu, který můžeme… v první řadě ty odkazy, které rozpoznáme jako nepřirozené, skutečně můžeme zahodit. Nebo je nějakým způsobem umenšit jejich váze. Potom je druhá rovina, kdy si řekneme: „Hele stránky, které obsahují nepřirozené odkazy, můžeme nějakým způsobem penalizovat.“ Teď už dost normativně. Že řekneme: „To nechceme, aby dělali, tak je za to zesmahneme…“ To je druhý level a třetí level, který můžeme dělat, je, že si řekneme: „Tak teď máme nepřirozené odkazy a budeme se koukat nejenom, na kterých stránkách jsou, ale budeme se dívat i tam, kam míří s předpokladem, že ten cíl je nějak pokoutně nakoupil. A ten cíl zesmahneme.“ Tak to jsou tři roviny. Ty jsi rovnou už v té první otázce naznačil, že ta první rovina tam skutečně je. Skutečně ty odkazy, které shledáme nepřirozenými, nějakým způsobem zahazujeme, ne že bychom je úplně smazali, ale něco si z nich počítáme. A do těch finálních relevancí, které vstupují do vyhledávání, ty nepřirozené odkazy vstupují opravdu mizivě nebo vůbec nebo také možná lehounce záporně. To je první level a to nikdo neví, protože to jsou doslova trendy, do kterých nevidíš. To jsou ty stromy a tam nějaká jedna dvě promile vlivu nebo inverznost, už prostě nevíš, co se tam ve 48. stromu děje. A to je ten první level – jenom je zahodit nebo zanedbat. Pak je druhý level a to je nějakým způsobem potrestat ty stránky, které obsahují nepřirozené odkazy. Teď je ale otázka, proč je za to trestat. A odpověď je: Protože pravděpodobně, když tam přijde uživatel, tak mu ty odkazy nějakým způsobem vadí. A sám tušíš, že pokud jsou ty odkazy v patičce, tak mu nevadí úplně tolik, takže spíš tohle zapojujeme nějakým způsobem, že dost často tyhle weby přidáváme do těch učících množin, co je spam, nebo že je odmítneme dát do učících množin toho, co je ham, jako hezká stránka, šunčička. A různě laborujeme v průběhu času, jestli je penalizovat víc nebo míň za to, že ty odkazy – divné, většinou patičkové, prostrkané textem – tam někde mají. Nemám vůbec nic proti odkazům v patičkách. Takové ty klasické patičky jako kontakt, ceník, nabídka, najdete nás, to je úplně košer. Ve chvíli, kdy je tam na webu o krmení pro kočky napsáno: Potřebujete půjčit na krmivo, navštivte náš krásný server a zájezdy do Libye atd., tak to už tušíme, že jsou nepřirozené odkazy a vlastně se dá říct, že takové weby rádi zařazujeme do těch učících množin buďto, že je to spam, je to jako bod navíc pro to je tam zařadit. Ne že bychom normativně rozhodli: tenhle web, ale říkáme tomu algoritmu: Hele, uč se z toho! Případně je odmítneme dát do těch případů hezkých webů. A potom tady mám tu třetí rovinu. Tu poslední, o které jsem ještě nemluvil, to znamená penalizovat i ty, co si to koupili. To ještě neděláme, zejména z důvodu, že v takovém případě nedokážeme zabránit nějakému útoku proti někomu, teoretickým útokům. Že by nějaký útočník nakoupil nekvalitní odkazy na web, který chce poškodit. A tam si myslíme, že to nedokážeme ohlídat natolik, abychom se do toho v tuto chvíli pustili. Samozřejmě nástroje jako disavow … tool by nám v tom pomohly, ale…

Shrnutí: Jsou tři úrovně, jak se vypořádávají s nekvalitními – nepřirozenými – zpětnými odkazy: Mohou je buď zahodit, nebo zmenšit jejich váhu – zanedbat je, nebo penalizují stránky, které obsahují nepřirozené odkazy, anebo penalizují cíl, kam nepřirozené odkazy vedou (do toho se ale v tuto chvíli moc nepouští, protože cíl nemusí být vždy viníkem). Nepřirozené odkazy používají k učení algoritmu – dají je do příkladu špatných webů nebo je nedají do příkladu hezkých webů.

Dokážete identifikovat jednoznačně nekvalitní odkaz?

Jednoznačně nikdy nic nejde. Vždycky je to nějaká pravděpodobnost, která navíc ve chvíli, kdy padá z těch algoritmů strojového učení, má vždycky nějakou chybu. Ale ono je to mnohem chytřejší, než bys kolikrát čekal. Takže občas se podíváš na nějakou klasifikaci a říkáš si: „Ty jo, proč tohle je tady zařazené, to je přeci úplně divné.“ Pak to chvilku studuješ a zjistíš, že „Aha, on tam jede direct“ nebo prostě něco takového zjistíš. Ono to vidí dál než ty.

Shrnutí: Jednoznačně nelze nekvalitní odkaz identifikovat. Vždy se tam vyskytuje nějaká chyba.

Kdy začnete postihovat očividné prasárny jako servlet odkazy z patičky nebo ze sidebaru? A to je vlastně to, co jsi říkal. Že pokud to uživatelům nevadí, tak vám to nevadí taky?

V té úloze rankovací, kde máš dotaz krát web, respektive dotaz krát stránka, určuješ relevanci toho dotazu k té stránce, tak tam to skutečně nevadí, tam to nevadí vůbec. Ten uživatel může zaregistrovat, že někde dole se točí nějaké odkazy. U té úlohy, když se díváme na kvalitu těch stránek nebo na spam, tak tam to hrát roli může a rozhodování anotátora to může ovlivnit. A následně to může ovlivnit klasifikátor. Dává to smysl?

Shrnutí: Servlet odkazy z patičky nebo sidebaru můžou hrát roli při hodnocení kvality stránek nebo spamu.

Mám ještě jednu otázku: Třeba v případě vývojáře, který má v patičce odkaz na svůj web a má to na stovkách webů, může to poškozovat web toho vývojáře?

Já si tuhle otázku kladu také. Spíš ne, ale nevím. Ono mu to může i přidat třeba pagedek, ale pak jsou zase složité signály, které se třeba počítají z šíře odkazového profilu – jako kolik různých domén, kolika odkazy na ně odkazuje a teď ten algoritmus, to už nedělají lidi, ten algoritmus tam na to koukne a řekne si: „Ty jo, to je divný.“ Ale jestli z toho usoudí, že to má dát nahoru, nebo dolů, nebo doprostřed, to já už nevím. A to neví nikdo, nebo mohl by to zjistit, kdyby opravdu debugoval ten algoritmus, ty lesy a ono se mu to po čtvrt roce změní.

Shrnutí: Dušan neví, jestli v tomto případě bude web vývojáře poškozen.

Mám možná hloupou otázku: My jsme minulý týden spouštěli jeden web s nábytkem a majitel říkal: „Já nechci shánět žádné odkazy, já nechci nakupovat žádné odkazy. Já mám dobrý sortiment, budu rád, když spokojení zákazníci na mě dvakrát třikrát za rok ukážou.“ Má vůbec nějakou šanci se prosadit?

To záleží, jestli má nebo nemá konkurenční pozici na tom trhu s nábytkem. Pokud má pravdu a lidé si ho najdou, budou aktivně hledat jeho výrobky a bude jediný prodejce, tak samozřejmě šanci má. Vyhledávač ho prostě najde. Ale pokud prodává skříně a lidi zadají jenom skříň, tak není žádný důvod, aby byl jeden z deseti těch, kdo budou v popředí vyhledávačů, když je prodejců skříní tisíc. Je to odpověď? Asi ano. Jasně, když máš nový web, tak každý odkaz, který tam přibude – nějaký odkazový juice, typicky může být jeden. Prostě mít jeden odkaz, který tam na první chvíli přivede nějaký důvod, proč si ten vyhledávač má myslet, že to stojí za to. To se prostě podle mě vyplatí. Když se dívám do adminu nebo spíš do těch logů těch rozhodovacích stromů, vidím tam silný práh u odkazových signálů. Kdy ten graf z vašeho pohledu vypadá takhle, téměř taková gama funkce. Kde na ose Y mám přínos a na ose X mám počet odkazů. Čili je to strašně konkávní a říká mi: první odkaz přinesl, teď si vymyslím číslo, 90 % důležitosti. A druhý přinesl 4 a třetí a další se podělily o ten zbytek. A to jsem si nevymyslel já, tuhle funkci lze vidět v tom debugu rozhodovacího lesa a podle mě to znamená, že rozhodovací lesy nám říkají, že zrno od plev se odděluje ve chvíli, kdy na to někdo odkáže a nikdo neodkáže. A dokonce to nemusí být externí odkaz. Tam se zrno od plev láme tehdy, když mám obsah bez odkazu a obsah s interním odkazem. Co z toho plyne? Plyne z toho, že my už teď indexujeme hrozně moc URL, na které nevede žádný odkaz, který jsem někde našel, ten odkaz nevytknul.

A neplyne z toho, že externí odkazy v podstatě nejsou důležité?

Já nechci být už specifičtější. Ano, rozdíl mezi interním a externím odkazem se podle mě zveličuje, ale přece jen nějaký rozdíl tam je. Takže my tam nějakou logiku máme, to už ale odkrývat úplně nechci.

Takže na začátku tedy firmy a další dva tři.

Ty firmy znamenají co?

Firmy.cz.

Třeba, prostě takový ten začátek, ale je nutné říct, že algoritmus odkazu z Firmy.cz váží překvapivě hodně. Pro mě jako zástupce Seznamu by to mělo být samozřejmé, ale já vám mohu říct, že ten odkaz je silný sám o sobě.

Shrnutí: Na pozici v SERPu má vliv odkazování – externí i interní (mezi nimiž je nějaký rozdíl, ale dle Dušana se ten rozdíl zveličuje).

Mám tady ještě jeden dotaz, který mě také samotného zajímá. A to se týká duplicity. První věc je, jestli odlišujete nebo dokážete odlišit hlavní blok textu ve srovnání s menu, s patičkou, se sidebary a jestli se ta duplicita hodnotí z toho hlavního bloku nebo z té celé stránky.

Kde začít? Takže ty jsi říkal, jestli dokážeme označit, najít text na stránce a jaký to má vliv na duplicity.

Jestli tu duplicitu hodnotíte z toho hlavního obsahového bloku nebo z celých stránek.

Pak si také musíme říct, proč se na to ptáme, jakou duplicitnost hledáme, protože my používáme asi pět různých duplicitností. Pro každou úlohu jinou. Tam jakou má logiku. Hlavní obsah stránky se na Seznamu nazývá BTE, což je nějaká historická zkratka body, text, extraction… říkáme tomu BTE a je to také úloha strojového učení, kde učící data jsou ta, že vezmeme 1000 stránek, nějaký anotátor na tom vyznačí hlavní text a pošle to do stroje a ten zatočí klikou a řekne, co z toho vypadne. V tuhle chvíli máme ty BTE dvě, protože jsme zjistili, že pro obecný obsah je to strašně těžké naučit. Pokud máš úlohu, kde se ti pletou shopy, diskuze, zpravodajské články, fotogalerie, kolikrát tam ani člověk neví, co je hlavní obsah, tak ta úloha je těžká a má relativně velkou chybovost. Přesto něco takového počítáme a u mnoha úloh, kdy potřebujeme vědět, jestli je duplicita, tak se orientujeme kombinací z celé stránky a z toho BTE. Případně ještě občas se zaměřujeme jenom na některé odstavce. A z toho počítáme nějaké hashe, většinou používáme midhash, a ty porovnáváme mezi sebou. A pak u otázky, jestli dokument indexovat, používáme jiný typ duplicit než při rozhodování, které nalezené stránky zařadit nebo nezařadit do serveru. Takže, abych odpověděl korektně, tak bychom museli mnohem víc do hloubky.

Shrnutí: Seznam používá asi pět různých duplicitností. Ze stránky využívají BTE (body, text, extraction) ke strojovému učení (anotátor vyznačí na x stránkách hlavní text a pošle to stroji). BTE má Seznam dvě, protože se do toho pletou shopy, diskuze, fotogalerie… kde je těžké oddělit hlavní obsah. Mnoho úloh, kde řeší duplicitu, řeší kombinací z celé stránky a z BTE, případně se zaměřují na nějaké konkrétní odstavce a z toho počítají hashe – midhashe. Pro indexování používají jiný typ duplicit než pro zařazení/nezařazení do serveru.

Zkusím jiný dotaz. Kde začíná a končí duplicita? Chci zjistit, když mám dvě stránky, které jsou si opravdu hodně podobné, i významově, ale chci, aby byly nalezené na jiné fráze. To znamená: Ty samé boty, ale jednou jsou červené a podruhé jsou zelené. To znamená, že ta stránka se liší opravdu jen v té barvě. Jak zařídit, aby se nelišilo těch pět znaků, což je ta barva, protože předpokládám, že z logiky věci uživatelsky není potřeba tam změnit…

Na jasnou otázku ti říkám: ty duplicity nebo ty dvě stránky budou rozeznány jako duplicity, pokud ta jejich odlišnost bude spočívat v tom, na co se lidé neptají. Takže pokud se ty stránky liší v tom, nač se lidi ptají, tak to není duplicita. Jestli se ptají na červený typ těchto bot, tak to pravděpodobně neskončí jako duplicita.

Počkej, ale vy přece… jak se to pozná…

To už nechám na vás.

Přece nemůžete hodnotit duplicitu až v tu chvíli, kdy někdo položí dotaz.

Ne, to ne. Proto jestli to zaindexujeme nebo neoindexujeme, to už máme vyhodnocené před tím. To je jasné. Ale potom ve chvíli, kdy se ptá červený, zelený, tak něco už musíme vyhodnocovat ve chvíli toho výsledného hledání.

Shrnutí: Stránky budou vyhodnoceny jako duplicity, pokud jejich odlišnost spočívá v tom, na co se lidé neptají.

Můžeš nám říct, jaké jsou ty signály, ty první duplicity? Znamená to, že se to třeba vůbec nedostane do indexu? Nějaké hranice?

Tady nejsem 100% kovaný, to můžeme když tak rozebrat, já ti můžu říct relativně přesně, jak funguje ten algoritmus, který to vyřizuje při tom vyhledávání. Ten má spočítané hashe z textové části té stránky z nějakého typu odstavců, prostě zahodí odstavce, které vypadají jako menu, zjednodušeně řečeno. A vezme si z toho každý engram čili každou stejně dlouhou posloupnost slov a zahashuje je nějakou hashovací funkcí. Uloží si z toho poslední dva bity, někam si uloží tenhle hash. Pak to samé udělá pro 32 dalších jiných hashovacích funkcí. Takže každá stránka je nakonec interpretovaná 32 hashy, které nějakým způsobem popisují text té stránky. A dá se ukázat, že dvě stránky, které jsou z polovičky stejné a druhou polovičku mají jinou, mají 16 stejných hashů z těch 32 hashů. A když mají ¾ obsahu textu shodné, tak se jim shoduje 24 hashů z 32. A ten algoritmus, který to filtruje při tom výdeji, má hranici někde kolem těch 23, 25, takže už tam nepustí ty stránky, které na ¾ mají stejný obsah. A když se ptáš na tu indexaci, tak ta míra duplicitnosti pro dvě stránky není tak důležitá jako spíš míra duplicitnosti skrz celý web. Protože to se promítne do toho indexačního skóre, o kterém jsem mluvil na začátku tohoto povídání. Takže ono se dá nadefinovat něco jako entropii. Když ten web má vysokou entropii, my ho budeme rádi indexovat. Ale když to bude pořád to samé a představ si to, jak snadno to půjde zazipovat. Když to půjde zazipovat hodně, tak my víme, že ten web mlátí prázdnou slámu, že je tam pořád to samé. A když to půjde zazipovat málo, tak se do toho rádi zakousneme. Takový jednoduchý trik, jak si zvýšit entropii, je dát tam něco francouzsky, ale to my zase zahodíme, že je to francouzsky. Francouzština také indexuje, tak maďarsky, když tam dáš něco maďarsky, tak to zahodíme.

To jsem rád, že už se mi nevypisují na české dotazy maďarské výsledky.

To bylo v kroku vpřed automaticky. To jsi myslel asi s tou naší metodou učení, my jsme tam měli maďarskou Ikeu na prvním místě. To bych zašel do moc velkých detailů.

Shrnutí: Rozhodující míra duplicitnosti je, když mají stránky ¾ obsahu textu shodné. Pro indexaci je důležitá duplicitnost skrz celý web – tzn. jestli se tam opakují stále ty samé informace dokola.

Poslední téma, které mám, je obecně mobilní hledání, mobilní weby, respektive mobilní weby. Pokud se neměnily informace, tak neplánujete žádný mobilní index ani nic dalšího. To neplánujeme. Mobilní weby by v podstatě neměly být na mobilní vyhledávání ani nijak zvýhodňované, jako to má třeba Google, nebo ano?

Takhle: Mobily a to, jak naše hledání funguje na mobilech a možná i jak budeme indexovat a zpracovávat informace, jsou naše priorita číslo jedna do příštího roku, to vyhledávání. Takže tam vůbec nic nemohu vyvrátit, protože teď si něco myslíme a až to pořádně rozpracujeme, tak zjistíme, že to musíme dělat jinak, takže já fakt nevím. Ale pojďme po těch jednotlivých otázkách, prosím.

To znamená: mobilní index.

Mobilní index, nemyslím si, že budeme stavět dva indexy, jako to teď třeba říká Google, to jsme se už trochu bavili. Ale dokážu si představit, že se k těm stránkám budeme hlásit jako mobil. Ještě jsem to s ostatními neprobíral, takže mě neberte…

To znamená, že budete mít dva roboty, nebo bude jeden?

Ne, že by se přestal hlásit jako desktopový klient a začal by se hlásit jako Samsung.

Souhrn: Vyhledávání na mobilu je pro Seznam pro příští rok prioritou. Zřejmě nebudou mít dva indexy, ale robot se bude hlásit jako mobilní zařízení.

Druhý dotaz: jestli v mobilním vyhledávání budou líp hodnoceny weby, které jsou přívětivé pro mobilní zařízení. Nebo jestli to může být jeden ze signálů, který jim nějak pomůže.

Dokážu si představit i v naší stávající metodologii cestu, jak se k tomu dobrat, a totiž tak, že bychom těm brigádníkům, co nám hodnotí weby, nedávali k hodnocení počítač, ale mobil. Čímž by se nám promítlo do té učící množiny, že ty stránky, které jsou na mobilu rozpadlé, budou mít horší hodnocení. Nemyslím si, že budeme mít normativní přístup, jako má třeba některá konkurence. Že řekneme: „Co je na mobilu hezké, tak bude výš.“ Já si to prostě nemyslím, že to takhle má být. Ale jak říkám: Přesto, přes ta data si myslím, že dokážeme ten stroj naučit, že on uvidí, „Hele, ta stránka je hodnocena líp než ta druhá. Proč?“ A bude muset pátrat. A my mu tam nasypeme nějaké signály, které třeba budou souviset se šířkou viewportu nebo s takovými věcmi a on to najde, on na to přijde. My už tam jsme skutečně v roli takového dozorce, který nad tím algoritmem práská bičem a říká mu: „Hledej!“ a on hledá, jako ve smyslu signálu a postupů.

Souhrn: Dle Dušana by neměly být dobře zobrazené stránky na mobilních zařízeních výš ve výsledcích vyhledávání. Ale chtějí do učící množiny zahrnout, že stránky se špatným zobrazením na mobilních zařízeních mají horší hodnocení.

Ale to jsi narazil na jednu skutečně zajímavou věc. Teď zrovna jsem četl, že Google, dřív to bylo tak, že máme 250 signálů, které jsou více či méně známé. A on teď v podstatě signály navíc ještě personalizuje pro každý případ, pro každý segment a někdy nějaké signály jsou, někdy nejsou podle toho, jak mu to jeho umělá inteligence spočítá. To znamená, že taková ta logika „Ta klíčová slova tam má tady, potřebuje tolik zpětných odkazů atd.“ přestává dávat smysl a dává smysl v podstatě udělat co nejlepší stránku pro toho uživatele v té dané situaci pro ten daný problém nebo pro řešení toho problému. Půjdete i vy nějakým takovým směrem?

Pavle, úplně jsem nepochopil, nač se teď ptáš. Jasně, že to budeme rozvíjet, ale nevím, na co se ptáš. Už teď je to vevnitř hrozně složité a my tam nevidíme. My sami tam nevidíme. Já musím číst hodinu log, abych pochopil, co tohle dělá. A ty signály nebo tamto třeba. Teď máme rozhodovací stromy, ty se dají ještě nějakým způsobem číst. Ale může se stát, že do půl roku tam začneme používat neuronku. A tam už vůbec nevíš, co se děje. A ta fakt funguje tak, že se v jednu chvíli, když zjistí, že nějaký signál dosahuje jedné hodnoty, tak se vydá úplně jinými cestami než něco jiného. Stromy jsou aditivní, ty můžeš sčítat, pořád něco vidíš, a mít v tom nějaký smysl. Ale pokud tam budeme mít neuronky, jakože Google, který tam pravděpodobně teď neuronky má, anebo je ještě má ručně nějak laděný, tak možná do nich vidí. Ale prostě jakmile je tam dáme, tak to bude chytřejší, ale my sami nebudeme rozumět tomu, co to dělá.

Jasně. A dají se tedy vůbec v dnešní době říct třeba tři nejsilnější signály ve vyhledávání?

Jako tobě teď? Ne.

Nemůžeš, nebo nechceš?

Nechci.

Tak to je v pohodě.

My jsme schopni nad tím klasifikátorem, který je buďto neuronka, nebo rozhodovací strom, teď už máme obecné řešení, zatočit klikou, aby nám řekl nejsilnější signály. On nám je řekne a řekne nám je, jestli jsou inverzní, nebo přímé. To znamená, jestli větší hodnota znamená lepší výsledek nebo horší výsledek. Kolikrát uděláš nový signál, říkáš si: „ Zvýhodníme weby, které mají vlastnost ABC,“ a ten klasifikátor si na tom pochutná, řekne: „To je skvělý signál, děkuji!“ A pak, když se podíváš co, tak on dělá přesně pravý opak.

Jasně, jasně.

Takže ano, můžeme říct, které signály jsou nejsilnější, víme to. Docela dost často se to mění tím, jak přidáváme nové signály nebo jak se mění struktura internetu. Takže mohu říct, že ty, co byly nejsilnější před dvěma lety, tak jeden z nich už tam skoro není. Ty další dva se posunuly někam na páté, šesté místo.

Já jsem se chtěl dostat k tématu, že Google údajně před časem zveřejnil své tři nejsilnější signály…

Ty budeš mít radost, až tu budeš mít někoho od Google.

No ne, mě totiž zajímá, jaký je ten rozdíl.

Jo.

Právě jeden z nich je právě ta jejich umělá inteligence.

Zkusím sem zatáhnout nějakou teorii. Je to terminologie naše, částečně spíš moje, kdy ty signály, které vstupují do vyhledávání, se dají rozdělit na popisné a normativní. Popisné signály jsou takové: jak je to staré, kolik to má odkazů, kolik to má rank atd. A ty normativní jsou takové, kdy my svým produktivním rozhodnutím řekneme, chceme, aby nahoře byly weby, které mají nějakou vlastnost. Takže třeba si můžeme říct: „Chceme, aby nahoře byly weby, které jsou relevantní k dotazu.“ A uděláme to jako Google, to znamená: Řekněme, že nejsilnější signál je ta relevance, která vyjde z té umělé inteligence, a to skutečně je. A pak je tam to druhé rozhodnutí, ten druhý signál, na který jsme dneska narazili – normativní, kdy my říkáme: „Chceme, aby nahoře nebyly weby, které jsou spam.“ Takže to je naše normativní rozhodnutí. Když ten spam přidáš do té umělé inteligence, tak on tam nezafunguje, protože ta učící množina, která do něj vstupuje, se neorientuje na spam. Ta se orientuje na to, jestli to odpovídá na ten dotaz. A pak je tam třetí normativní signál, který třeba říká: „Chceme, aby to bylo česky.“ Na to umělá inteligence také neodpovídá. Takže tam vyhodnocujeme shodu jazyka dokumentu s jazykem dotazu. Ale třeba před rokem nám to havarovalo na takových slovech jako Coca-cola, protože to byl bohužel anglický dotaz. Teď už je to nějakým způsobem opravené. A pak jsou tam kontroverzní věci, kdy třeba ty si řekneš: „Chci, aby tam byly čerstvější stránky.“ A my to skutečně můžeme udělat. My můžeme normativně říct bez ohledu na to, jak vyšly hlasy: „Budeme tam více dávat dopředu čerstvé dokumenty.“ Ale v tu chvíli, kdy to uděláme, tak nám klesne ta celková relevance, kterou vyhodnocujeme. V podstatě s každým normativním zásahem klesá ta relevance, kterou my měříme vlastně shodou toho vyhledávače s těmi brigádníky. Já nevím, co tam Google říkal za signály, tohle jsou ty normativní signály, kdy k tomu přijde nakonec produkťák a řekne: „Chci, aby to hledání mělo tuhle vlastnost.“ A pokud někdy přidáme tu přívětivost mobilu jako normativní signál, tak to prostě může být, tak my si někde nějakou externí komponentou, třeba screenshotovačem, naměříme nějaké parametry. Nebo rychlost. Rychlost teď nezohledňujeme, jako rychlost načítání stránky. Ale kdybychom chtěli, tak to tam musíme přidat jako normativní signál. Musí přijít produkťák a říct: „Chci tam weby, které jsou rychlejší.“ Protože kdybychom dali tu informaci těm stromům, tak ony řeknou: „Co je to za signál?“ Protože ten brigádník prostě na to těch deset sekund počká, aby věděl, co na té stránce opravdu je. A jemu je to jedno a on to nijak nezanáší do toho hodnocení, dle kterého se to pak učí. Ale kdybychom my pak řekli: „Tady máme nepočítanou rychlost načítání, tak tam musíme přidat normativně.“ Říct jako: „Ano chceme, aby se to takhle stalo.“ Nevím, teď jsem možná zaběhl někam, kam jsem neměl. Takže pokud Google zveřejňuje něco takového tak se domnívám, že on zveřejnil tu nejvyšší rovinu normativních signálů.

Shrnutí: Dušan nejsilnější signály zná, ale neprozradí. Pořadí signálů se často mění se strukturou internetu, s přidáváním nových signálů atd. Signály, které vstupují do vyhledávání, dělí na popisné a normativní. Popisné signály ústí v relevanci a jsou například: jak je to staré, kolik to má odkazů, kolik to má rank atd. Vycházejí z umělé inteligence, která se to naučila na základě hodnocení stránky brigádníky. Normativní signály přidávají „ručně“, jelikož je umělá inteligence neumí vyhodnotit – brigádníci tyto signály nezahrnují do hodnocení stránky a umělá inteligence se to nemá jak naučit.

Jasně. Ono totiž v podstatě, alespoň tak jsem to pochopil, neexistuje něco jako hodnotící faktory, které by byly obecně platné, ale je nějaká suma signálů, která se podle toho, co on si spočítá, aplikuje na tu danou situaci. To znamená, že někdy něco platí.

Ano.

A někdy to platit vůbec nemusí.

A tohle je úplně stejně jako u nás. S tím rozdílem, že my to ještě pořád máme aditivní. To znamená, že tam máme…

Aditivní je co?

To je sčítací. Že ten rozhodovací les vypadá tak, že tam je jeden rozhodovací strom vedle druhého a je jich tam třeba 300 nebo 1000 a výsledky těch jednotlivých stránek jsou takové, že jaká hodnota ti vyjde v kterém listu, tak to sčítáš. To znamená, že pokud nějaký web dostane od začátku nějaké hodnocení z nějakých signálů, tak už mu je potom nikdo nesebere. Ale myslím si, že to do nějakého časového horizontu, který je ještě dohlédnutelný, předěláme na nějaké jednoduché neuronky, které ještě tuhle aditivní logiku nemají. Shrnutí: Ani u Seznamu neexistují obecně platné hodnotící faktory, ale rozhodovací les na rozdíl od neuronek (dle všeho používaných Googlem) zaznamenává výsledky hodnocení stránek z různých signálů a sčítá je (je tzv. aditivní), což neuronky nedělají. Seznam však v dohledném časovém horizontu bude používat jednoduché neuronky.

Obecenstvo k tomu asi bude mít dotazy. Já mám jeden, který mě strašně trápí. A nevím, jestli mi dokážeš dobře odpovědět. Ale mně to nedává vůbec žádný smysl. V roce 2016 mám spoustu klientů, kde na Googlu jsem na první pozici a na Seznamu 60+. A já vlastně nevím, jak si s tím mám poradit. Já třeba vím, že bych to dokázal nějakým způsobem ohackovat, protože vím, co ještě na Seznam platí, ale půjdu přímo proti tomu, co říká Google, a i když jsem myslel, že to bude trošku lepší, tak pořád ty nůžky jsou docela rozevřené. A že už není jeden dobrý web pro všechny vyhledávače. Je to třeba poslední 3 roky. Třeba rok 2010 to tak nebylo. Můžeš na to nějak zareagovat?

Musíš si uvědomit, že ty vyhledávače jsou prostě jiné. Ty si to uvědomuješ hluboce.

Já vím.

Právě. Řeknu předem, že ty případy detailně neznám, takže se k tomu mohu vyjadřovat omezeně. Ale když zapojím běžný selský rozum, který říká, že stoupá konkurence a že dřív se něčemu věnovalo deset firem a dneska se tomu věnuje 1000 firem, tak je obrovská pravděpodobnost, že tenhle stav bude nastávat, že na jednom vyhledávači budu první a na druhém 60. Prostě ta přirozená variabilita toho světa povede k tomuhle stavu. Nehledě na to, já věřím tomu, že ty to děláš dobře, ale spousta lidí si myslí, že jsou první v Google a nejsou. A je jich veliká spousta, opravdu veliká. Samozřejmě, když se na to podíváš anonymním browserem, tak většinu toho šumu, který je způsoben personalizaci, roztřídíš. Já nevím, jestli se na to ti klienti dívají anonymním browserem. Věřím, že ti tvoji už ano, když jim to řekneš.

Ale tady podle mě personalizace nemůže mít, nebo podle mých zkušeností nemá, tak obrovský rozstřel.

Tak to jsou naše zkušenosti zcela odlišné.

Nikdy jsem neviděl, že bych v jednom městě to měl na první pozici a v dalším na osmdesáté.

Ale víš, že když si něco na Google pustíš v personalizovaném browseru a v anonymním, tak se to liší velmi.

No, jednotky pozic.

Noo.

Desítky jsem nikdy neměl. Asi záleží na segmentu.

To je jedno, to je jedno. Ale to tvrzení, že jsem první na Google je tímhle tím… no jistě… ale.. oni jsou třeba sedmý nebo čtvrtý.

Jasně. A pořád mi přijde v pohodě mít ten rozdíl první, sedmý v rozmezí třeba prvních tří stránek vyhledávání…

No, jasně, ale teď si vezmi konkurenci, kde na stejný dotaz není deset webů, ale je jich tam třeba tři sta. A čistě selská pravděpodobnost, že ty výsledky budou stejné na obou vyhledávačích, je prostě nízká.

Shrnutí: Dle Dušana jsou tyto rozdíly v pozicích v různých vyhledávačích jednak v tom, že každý funguje jinak, ale také v tom, že stoupá konkurence, a na dotaz tedy vyjede mnohem víc výsledků než v době, kdy tyto rozdíly v pozicích nebyly. Vliv má také personalizace, která výsledky uzpůsobuje lokalitě.

Tohle je jedna věc, to je jedna rovina toho problému. Druhá rovina problému je, na co se pravděpodobně ptáš. A totiž, že existují praktiky, které když použiješ na Seznamu, tak poskočíš nahoru, ale uškodíš si na Google. No, ale to je prostě blbý. Můžeš nám pomoc tím, že nám ty praktiky popíšeš. Že nám řekneš: „Udělal jsem tohle, tohle a tohle, u vás jsem poskočil, jinde jsem se zhoršil, zkuste mi to debugovat.“ Ale přijde mi to jako podnikání, které je podobné čemukoliv jinému, kde máš víc hráčů. Ale můžeme tohle rozebrat. Já naneštěstí neprovozuju ty praktiky, které jsou vhodné na šplhání na Seznamu, takže já jsem v tomhle trochu slabší, takže já vlastně nevím.

Ale všechny tvoje soukromé weby jsou na Seznamu na prvních příčkách.

A na Googlu?

Na Googlu nevím. To tam někdo psal.

Tak si to přečtěte.

Jo. „V Seznamu i Googlu také. To je moc hezké. Čím myslíš, že to především je?“ tady píše.

To, že jsou ve vyhledávačích na prvních příčkách moje soukromé weby? Já si myslím, že je to tím, že to dělám s láskou.

Ok. Dobře.

Ne, samozřejmě, já jsem přesvědčený, že mi rozumíš. Já si dělám srandu.

Já také.

Můžu vyjmenovat jednotlivé technické aspekty. Skutečně jsem přesvědčený o tom, že míra nějakého entuziasmu toho autora nebo webmastera se může strašně projevit, pokud náhodou není entuziasmus, který se projevuje obskurními řešeními, korelací a přesměrováním. Což se také objevuje.

Podle mě entuziasmus totiž znamená větší aktivitu a větší aktivita dost často souvisí s tvorbou nějakého obsahu.

Stránky, které dělám já, tak obvykle mám statické, to znamená, tam se nic negeneruje z databáze, tzn. že jsou bleskurychlé, tím pádem mají jedno URL, nemají žádné parametry a vydrží přes věky. Já jsem za 20 posledních let smazal 10 svých stránek, nějaké nevýznamné. Z nějakých malých tisíců. Ta URL je prostě fest. Jediné, čím jsem si to teď rozbil, že jsem zaváděl https, přesměrovával na https, tak mám nové URL.

A v pohodě?

Hele, to je zajímavé. Třeba jakpsátweb: Tam jsme zmiňovali, že u něj nedokážu změřit, kolik na Seznamu, protože tam skutečně ze Seznamu v důsledku jiného demografického složení chodí málo uživatelů, ale na Googlu jsem zaznamenal celkem významný pokles. Na dva měsíce.

A vrátilo se to?

V podstatě těžko říct. Já neumím odfiltrovat přirozený trend od nějakých sezonních věcí, ale je tam nějaký pokles. Asi 30% pokles na 2 měsíce. Překvapivé. A jsem si jistý, že jsem to udělal dobře. Checklist jsem prošel.

Mě také za to naboostoval.

Já si také myslím, že mě boostuje, ale asi jiný algoritmus než… Třeba https je dobrá ukázka toho, jak my můžeme s normativními a deskriptivními signály. V tuhle chvíli máme https jako popisný deskriptivní signál, tzn. řekneme tomu rozhodovacímu lesu: „Toto je nebo není na https.“ A necháme to na něm, aby si to rozhodl, to je jeden z možných přístupů. Druhý přístup, který jsme mohli zvolit, je říct: „Všechno, co bude na https, tak tomu dáme bodíky navíc.“ To jsme neudělali a je to čistě proto, že se těch normativních produktových zásahů tam snažíme udělat co nejmíň. Abychom byli průhlední. A abychom si to udrželi jednoduché, ale i ta chytrá krabička, ten rozhodovací les, nám říká, že weby, které mají https, tak jsou na tom o něco málo líp než weby, které https nemají a inverznost byla jenom 8 %, tzn. že v 92 případech ze 100 tohle platí. Ta inverznost je vlastně nějaký sklon té křivky, když ten signál převedu na relevanci. Je to počet případů, počet procent, kdy to neplatí. Ale to je jedno, to nebudeme rozebírat.

Takže nějaký, i když třeba malý, vliv tam je.

Je tam nějaký malý vliv.

Protože já jsem během prázdním převáděl na https tuším asi 21 webů. Na žádném z nich jsem na Seznamu nezaznamenal propad a všechny mi mírně vzrostly.

To jsem moc rád, protože takhle to má teď fungovat. My bychom skutečně byli rádi, kdyby si český internet osvojil myšlenku, že slušný web je prostě běžně na https. A také třeba já osobně, mám to jako svoji osobní aktivitu, bych byl moc rád, kdyby to pochopily webhostingy.

Ale tím, že to je jen informativní, tak ve výsledku nemusí být pozitivní vliv.

Přesně tak. Ve většině případů, jak jsem pochopil, je, ale nemusí to tak být. Tím, že my to normativně neříkáme, tak to necháváme na tom rozhodovacím lese a on si to přesto myslí. On k tomu dospěje.

To, že na hodně konkurenční dotazy je na první straně nebo prvních dvou stránkách velká část stránek s https, je vlivem toho, že se to hromadně dělá? Anebo tam může být, že se tam dostaly stránky, které tam dříve nebyly a to, že se převedly na https, mělo nějaký vliv na ty pozice?

Tak já řeknu, že nevím. Ale myslím si, že to je tím, že těch konkurenčních dotazů prostě záleží na každém flusu. Tam kolikrát jsou konkurenční dotazy typicky u výrobků. Prostě máš výrobek, ten se nějak jmenuje a je to na 60 webech se stejným popiskem, stejným obrázkem, se stejným titulkem, liší se maximálně cena v řádu korun a podle čeho to máme sakra řadit a tu samu otázku si klade ten rozhodovací les a on neví, ale z jiných dotazů mu tam přijde, že z těch https dotazů bývají lepší, tak je tam pošle. A když mám typicky na ten dotaz 10 výsledků, které jsou všechny užitečné a všechny mají relevanci 4200 a druhý 4019.5, 4019.2, čili o nic se to neliší, a teď tam přijde https, který tam najednou přidá 5 bodů, no tak on je prostě předběhne. A ty, co to mají na http, tak zůstanou na dalších pozicích. A tohle platí v 92 % případů v době, nebo kdy jsem se na to díval, tak to platilo, což bylo někdy na jaře. Ale to se tolik nemění. A já věřím, že existují segmenty, kde to tak třeba být nemusí, těch 8 % situací, ale spíš bych řekl, že to pozorování odpovídá tady tomu malému vlivu, který udělá u konkurenčních dotazů velký vliv.

Shrnutí: https má pozitivní vliv na pozici ve vyhledávání -> slušný web má běžet na https. (Tento signál není rozhodovacímu lesu normativně nařízen, on jen rozpozná, je-li nebo není-li stránka na https, přesto vyhodnocuje stránky s https jako lepší, a to v 92 případech ze 100). Toto je důležité u konkurenčních dotazů, které jsou v relevanci velice podobně hodnocené a https tedy poskytuje určitou výhodu.

Mám takový zajímavý dotaz – mobily. Co mobily? A nejlepší pohled na mobily z pohledu Seznamu. Jestli zvlášť doménu, nebo dysfunkci, nebo AMP, který je krásně cacheován na Google. Anebo nějaký super malý minimalistický responziv třeba. Co by Seznam měl nejradši?

V podstatě jsou tři přístupy. Buď stejný obsah servíruješ na jednom URL a mobilní verzi uděláš přes CSSka. Druhý přístup, který jsi zmínil, je mít jednu adresu pro mobil, druhou adresu pro desktop. A třetí případ je, že si očucháš user agenta a na základě toho na tu stejnou URL…

V podstatě takové minimalistické obrázky a tak dále.

No. Mně se nejvíc líbí to první, případně to poslední. A verze s přesměrováním se mi líbí nejmíň. Nicméně AMP do toho vnáší docela zajímavý hokej, který ještě těžko nějakým způsobem popisovat. Já osobně, a to je můj osobní postoj, bych se do budoucna nebránil tomu, aby Seznam také cacheoval do stránek.

To je strašně rychlé…

… a na druhou stranu nepochopil jsem AMP natolik, abych si o tom troufal mluvit nějak víc.

Toho ani moc na tom není. Z mého pohledu myšlenka, že by Seznam poskytoval svoji infrastrukturu jiným subjektům, je naprosto smysluplná.

Při té velikosti, tam je minimální velikost, tudíž…

A dokonce si i myslím, že by to do budoucna nemusely být AMP stránky. Mně se AMP líbí tím, jak jsou to hezké nápady ohledně JavaScriptů, ale nelíbí se mi tím, že vlastně zavedl další jazyk. Já si třeba dovedu představit, že by Seznam poskytoval cacheování některých věcí i normálním HTML stránkám.

Nevadí ti z principu, že je to další verze webu, že je to odklon?

V podstatě mě to trochu mrzí.

Že je to vlastně od té doby, co se začaly řešit responzivní weby, kde byl vlastně jeden web nebo adaptivní, což mi přišlo strašně elegantní.

Já si myslím, že na tohle měl Google vydat spíš novou verzi HTML než dělat nějakou odnož HTML a přidávat do toho JavaScripty, ač jsou jakkoliv dobré. A pak to tlačit do prohlížečů, protože… ale to jsme hodně mimo moji expertízu.

Shrnutí: Seznam by preferoval buď stejnou URL pro desktop i mobilní verzi s mobilní verzí udělanou přes CSS, nebo minimalistické řešení. Nebránili by se AMP, ale nelíbí se jim, že je to v podstatě jiný jazyk než HTML.

Rád bych se vrátil ještě k těm dotazům, co měl Pavel k té duplicitě a uvedl dobrý příklad s variantami produktů, kdy jeden je třeba zelený, jeden bílý… A zmiňoval, že vlastně hodnotíte textový obsah toho webu, když vracíte ty duplicity. To znamená, že nehodnotíte ani rozdíl třeba v obrázcích, ale jen v textovém obsahu.

Rozumím otázce, ale neznám odpověď. Když je obrázek, tak se bere jeho URL a do některých textových derivátů se dává pro výpočet té duplicity. -Myslím, že tohle tam je nebo do té entropie se to počítá. Něco z toho. Teď si fakt nejsem 100% jistý, jak to je.

Shrnutí: U řešení duplicit se někdy může zahrnovat URL obrázků do textových derivátů – tedy nemusí nutně záležet jen na textech.

Pak se ještě Pavel ptal na rychlost webu. A vy jste zmiňoval, že brigádníci to nehodnotí. Opravdu to nehodnotí, nebo nemůžou, nebo dokonce nesmí?

Když se ta stránka nenačte po nějaký čas, který oni nejsou ochotní čekat, tak je jasné, že…

Tak třeba podvědomě to hodnotí.

Ale my tam máme spíš u toho pravidlo, že když se jim to nenačte, tak to mají vyřadit. Protože ten web může být přechodně nedostupný a my bychom tak pak měli chybné hodnocení u něčeho, co jindy funguje.

Teoreticky se mi načítá dlouho, ale ještě jsem v nějakém limitu, takže podvědomě můžu nějak hodnotit. Tu rychlost toho načtení.

Já neříkám, že ta úloha by se nedala zformulovat a nedala by se tam zapojit. Já jenom říkám, že jsme ji zatím neudělali, protože jsme měli vždy na práci důležitější věci.

Shrnutí: Brigádníci nehodnotí rychlost načtení, přestože by mohli, protože zatím nebyl čas na zformulování této úlohy.

S tou rychlostí načtení mě to zajímá, protože občas se mi stává, a není to výjimka, že mi první stránky na fulltextu vracejí 404. To znamená, že mě by zajímalo, jak dlouho web musí nefungovat, aby to Seznam zaregistroval a třeba ho vyřadil na nějakou dobu z indexu. Jestli prostě nebude fungovat týden, tak už to stačí? Jestli se na to dá nějak odpovědět, tak jaká je to doba, do jaké bychom se měli snažit vyřešit všechny problémy na tom webu tak, aby to nemělo negativní vliv?

Tak ty si musíš uvědomit, že primárně to má negativní vliv na uživatele. No, ano. Samozřejmě co nejrychleji vždycky. Ale z mého pohledu to negativní chování vyhledávače, kdy uživateli chybně posílá 404, je způsobené tím, že napřed na tu stránku musí přijít robot, který chodí průměrně jednou za 12 dnů, to znamená, že teoreticky 11 dnů to může nefungovat, než si toho ten robot všimne. A pak to ještě musí zařadit do daily indexu, ve kterém on udělá delete toho souboru, aby ten index věděl, že tohle tam nemá dávat. Jakmile někde najdeme 404 a dokážeme zaindexovat ten delete požadavek, tak to je vlastně za dva další dny. Ale ty se ptáš možná na něco jiného. Ty se ptáš na to, když tam máš chybu, jak rychle ji musíš odstranit, abys neztratil všechny signály z historie a z takových věcí. No, asi jo. No, jestliže ta stránka je důležitá, tak my na ni chodíme častěji než za 12 dnů. To znamená, že si toho pravděpodobně u důležité stránky všimneme rychle, a je pravda, že ta stránka ztrácí některé signály v podstatě od první chvíle, kdy ji z toho indexu vyřadíme. Ale můžeš to brát tak, že si představ přibližně dva měsíce jako okno, které je důležité. A když z tohohle dvouměsíčního okna tam nejsi polovičku, tak přijdeš o polovičku některých signálů. Což v nekonkurenčním segmentu nic není a v konkurenčním segmentu už to, že tam chybíš tři dny, může být problém. ale pak by se to mělo dopočítat.

Shrnutí: Teoreticky může stránka nefungovat 12 dní, než ji Seznam oindexuje jako nefunkční (robot navštěvuje stránky zpravidla 1x za 12 dní). Na důležité stránky chodí ale robot častěji. Signály ztrácí stránka od první chvíle, kdy je vyřazena z indexu, což může mít v konkurenčním segmentu velký vliv i ve velmi krátkém čase, po který je stránka z indexu vyřazena.

A obráceně? Reagujete třeba rychleji na 410, když pak potřebuji něco rychle z indexu dostat?

Hele, 404 se od 410 liší v podstatě jen v tom, že ten robot to už pak nezkouší.

To 404 nebo alespoň já to tak vnímám, byla nějaká chyba, která se mohla stát, a může to být nějaký omyl a může to být už vždycky pořád. Jo? A pak já třeba vím, že mám nějaký obsah, který chci vyřadit z indexu a už opravdu nikdy tam nic nebude a jestli proces zrychlím tím, že začnu vracet na ty URL 410.

Ne. Ten proces můžeš zrychlit tím, že tam dáš 404 nebo 410 a praštíš to do přidávacího formuláře. Tím zkrátíš ten 0–12 nebo n dnů v podstatě na jeden den, takže pak za další dva dny by se to mělo odindexovat.

Shrnutí: Proces vyřazení obsahu z indexu lze urychlit tím, že se tam umístí 404 nebo 410 a dá se to do přidávacího formuláře. Interval 12 dnů mezi návštěvami robota se zkrátí na jeden den. Za další dva dny bude obsah odindexován.

Víš něco, kterým směrem se bude Seznam ubírat? To tady ještě nezaznělo. Tak by možná bylo zajímavé, co chystáte a na co se můžeme těšit, co se bude zlepšovat a tak.

Jasně. Já než ti na tohle odpovím, tak si myslím, že teď je ta pravá chvíle na soutěž.

Bude soutěž?

Bude soutěž. Já vám tady představím cenu, kterou je vyhledávací tričko. Prostě takové krásné, je to velikost L. Je to pánské? Na požádání mohu dodat jako… pokud bude vítězka, můžeme se dohodnout na výměně. A soutěž bude formou loterie, kdy já si budu myslet číslo a vy máte za úkol ho uhádnout. A kdo bude nejblíže tomu mému, tak ho vyhraje… rozumíte tomu? Já si myslím číslo a vy máte nějaký odhad…

… a není to N?

No, počkej… Dám vám k tomu nápovědu, že to číslo odpovídá počtu serverů, které do vyhledávání Seznam letos nakoupil.

Byl článek, byl…

Uděláme to tak, že každý řekne svůj odhad a já si ten, který bude nejblíže, zapamatuju, protože když uslyším jeden, tak uslyším druhý a ten horší z toho hned zapomenu. Takže máme vyhledávač Seznam a v něm máme nějaké servery a letos jsme nějaké přikoupili. Kolik si myslíte, že jich je?

Já jsem říkal 8 Tak ty jsi říkal 8. Zatím vedeš… zatím jsi nejblíž. 42, 24, 12, 150, 240, 23, 250, 260, 30… a ty sis našel odpověď, jo?

Já jsem si našel článek. V článku to píšete, ne úplně přesně….

Takže 30x, 6x……… Ale správnou odpověď sis našel?

Stovky… stovky… správná odpověď je stovky a ještě přesněji… kdo řekl 260?

Já…

Tak já předám vítězi tričko, protože správná odpověď je 1020. Takže maximum… gratuluji..

To je fakt hodně… Proč ne 1024, viď?

Já to nevím přesně… mně se to nepodařilo spočítat, ale je to něco mezi 1020 a 1050, takže jsem raději řekl to nižší číslo, a číslo 1024 do toho se vejde. Je to…

To jsi normálně byl v komoře a jel jsi jeden, dva…

Ne, nebyl jsem v komoře. Jenom v rychlosti: Nakupujeme 500 serverů do robota a nakupujeme asi něco přes 300 serverů do výdejové, do té hledací farmy. A pak nakupujeme velké desítky serverů na různé další úlohy typu zpracovávání obrázků a nakupujeme grafárny, něco do výzkumu. Takže ten součet se vyškrábe lehce přes 1000. A to je odpověď na to, co chystáme. V nejbližších dnech nebo týdnech se chystáme k výraznému navýšení velikosti jednak indexované databáze a také indexu.

Již tento podzim?

Již tento podzim 2016 to už začalo. Je to navýšení toho hardware asi tak o 2/3, to znamená, to umíte spočítat. A tím vlastně potvrzujeme, že ty plány tam máme celkem velké, že hledáme rádi a chceme našim uživatelům dál to hledání poskytovat v co nejvyšší možné kvalitě. Aby se to mohlo zaplatit. To stálo něco přes 100 milionů korun a tím chci demonstrovat, že to Seznam rozhodně nevzdává. Ty ses ptal na nějaké plány.

Ještě jestli máte nějaké konkrétní, co třeba chcete přidávat, nebo řešit nějaké staré problémy, které hnijí. Nebo tak?

Řešit staré problémy, které hnijí, to se dělá postupně. Prostě vždycky se hrábne do nějaké komponenty a ta se většinou přepíše a přitom se vyřeší i pár problémů.

Shrnutí: Seznam koupil letos přes 1000 nových serverů – navýšil hardware o 2/3, investoval 100 mil. Kč, takže Seznam chce dál rozvíjet své služby a chce poskytovat uživatelům hledání v co nejvyšší možné kvalitě. Již na podzim 2016 dojde k navýšení indexované databáze a indexu. Staré problémy cíleně neřeší, některé se opraví spolu s přepsáním nějaké komponenty.

A co jsou tedy priority na 2017 kromě mobilů?

Priority na 2017 jsou, ty jsi řekl mobily, to samozřejmě. Jednak prezentace na mobilech, jednak se podívat na to, jak crawlujeme mobilní obsah. Další věc je řešení oblasti nákupu. My chceme, aby uživatelé, kteří přijdou nakupovat nebo pro nějaké produktové informace nebo v podstatě cokoliv kupovat, jakékoliv zajímavé věci, tak aby hledali lépe než teď. A abychom poskytli velmi solidní odpověď, což pro nás znamená hodně se ponořit do oblasti, která pro češtinu, což byl náš primární zájem, není úplně typická a to jsou různé produktové kódy, různá označení, překlady různých slov jako jsou třeba barvy, sekání tokenů, jestli to rozseknout za každým písmenkem a číslicí, to už jsou detaily. A třetí priorita by měly být přímé odpovědi. To znamená, že my cítíme potenciál v tom, že Seznam má spoustu dat, která má nějakým způsobem ověřená, zvalidovaná a chceme na některé dotazy odpovídat přímo. Podobu to může mít různou, ale prostě pokusit se na některé dotazy odpovědět přímo. Třeba ty relativně jednoduché věci, když se někdo ptá na otevírací dobu nějaké firmy nebo když se někdo ptá, kde na mapě je něco. A ty složitější věci budou: Řekni mi, kolik stojí, co já vím Samsung ten a ten, průměrně. A tam nevím, jestli se dostaneme v tom roce, ale chceme touhle cestou jít. Což asi nemusí potěšit všechny, kdo se těší na traffic z proklikávání, ale ten byznys funguje tak, že je potřeba říct hlavně uživateli na první dobrou, co ho zajímá. A pokud mu to vyhledávač neřekne, tak on to příště udělá jinak.

Shrnutí: Prioritami na rok 2017 jsou mobily – prezentace na mobilech, crawlování mobilního obsahu. Řešení oblasti nákupu – hledání produktů, produktových informací lépe než teď, poskytování solidních odpovědí. Třetí prioritou jsou přímé odpovědi (otevírací doby, lokalita na mapě, ceny produktů). Není jisté, že to kompletně zvládnou v roce 2017.

Můžu se v téhle souvislosti zeptat: změní se nějak podoba SERPu? Jestli tam něco přibude a jestli tam zůstane pořád 10 přirozených výsledků nebo jestli se bude ten počet nějak měnit.

Počet přirozených výsledků pravděpodobně měnit nebudeme. To asi není nic důležitého. Podoba SERPu se změnit může. Nicméně ta je stanovena spíše uživatelským průzkumem, než jestli někdo sedne a řekne: „Teď to změníme.“ Když zjistíme, že je potřeba něco změnit, tak to změníme. Zjistíme prostě, co uživatelé chtějí. A už dneska si můžete všimnout, že na některé dotazy, na které třeba nejsou inzerenti, tak těch 10 dotazů nebo těch 10 přirozených výsledků je to, co tam svítí. A já musím znovu zdůraznit, že řádově největší počet odkliků z vyhledávání je z přirozeného vyhledávání. Takže tak, že to není reklama, ani vlastní seznamácké služby.

Dobře, ale říkal jsi zároveň, že chcete řešit víc nákup, to znamená, že se tam asi dá očekávat, že tam budete víc řadit věci ze zbozi.cz.

To může být a nemusí být pravda. Zrovna třeba na zbozi.cz chceme v příštím roce udělat veliký pokrok, tam třeba sháníme produkťáka, kdybyste někdo chtěl. A takže to může znamenat zboží, ale také nemusí. To už je prostě v rámci nějaké spolupráce nebo častým procházením webu shromažďovat nějaké jiné strukturované informace.

Shrnutí: Podoba SERPu se mění dle preferencí uživatelů na základě uživatelského průzkumu. Největší počet odkliků je z přirozeného vyhledávání, ne z reklam ani služeb, které poskytuje Seznam (přestože chtějí více řešit nákup, tak to může, ale nemusí znamenat víc věcí ze zbozi.cz).

Já jsem úplně zapomněl na jednu věc. A to je ten poslední update z minulého týdne a tam je jedna zajímavá formulace. Že prý kvalitu stránky ovlivňuje, jestli je možné autora nějak kontaktovat přes web. To vyšlo na vašem blogu. Co konkrétně to znamená? Znamená to jenom telefon, nebo jenom e-mail, nebo formulář, nebo cokoliv z toho, nebo?

Já tenhle update napřed představím, než odpovím na tuhle jednu detailní otázku. Ten update je další normativní signál, my jsme si řekli, fajn, máme tam shodu stránky s dotazem, máme penalizovaný spam, máme tam nějakou shodu jazyka a nějaký minoritní další normativní signály. A my si myslíme, že je potřeba uživatelům dávat stránky z webů, které jsou nějakým způsobem kvalitnější. A když definujeme tu kvalitu, tak na to jdeme úplně stejně jako na ty jiné úlohy, to znamená, že nasbíráme si nějaká určitá data, pak vychrlíme stovky signálů a necháme tu umělou inteligenci, ať si v tom něco najde. A když jsme si říkali, podle čeho budeme stanovovat weby, které jsou kvalitní, od těch, které jsou nekvalitní, tak jsme si udělali brainstorming a říkali jsme si, jaké vlastnosti mají mít ty weby. Některé z nich jsou publikovatelné, prostě je můžeme klidně natvrdo říct, jiné jsou takové, že bude lepší, když veřejně známé nebudou, protože by byly zneužívané, lidé by si uměle dávali na svoje stránky něco. Ale když se vrátím teď k té konkrétní otázce, co jsme sledovali tím, že chceme, aby ty stránky měly někoho, kdo je kontaktovatelný, tak my prostě známe spoustu stránek, které tu informaci o tom, jak kontaktovat jejich provozovatele, nemají. A myslíme si, že anotátor, který má za úkol posbírat ta data, je schopen relativně dobře posoudit, jestli za tím webem stojí nějaká firma, instituce z kamene, živý tvor, anebo nějaký podvodník. Typicky, když si někdo udělá stránku, co já vím mojekrasneboty.cz a dá tam do patičky kontakt info@mojekrasneboty.cz, tak to je jako kdyby tam ten kontakt nebyl.

To je jako e-mail na Seznamu.

No e-mail na Seznamu je lepší, že jo. No tak samozřejmě, protože si dal někdo práci s tím, aby ten e-mail založil alespoň na tom Seznamu.

Mně to tedy přijde obráceně. Mně to také přijde, jako když je to na mé doméně.

Já nevím, to už je…

Jasně, budiž.

Ale prostě, jestliže tam někdo dá kontakt, který působí věrohodně, tak my mu věříme. A je to jedno, jestli je to formulář nebo… to je v těch anotovacích pravidlech, které já detailně neznám, protože jsem to neanotoval, ale předpokládám, že formulář je trošičku slabší forma kontaktu než e-mailová adresa s telefonem a adresou. Což znamená čím víc, tím líp. Tomu rozumíme všichni, proč je důležité mít web, který má…

Takže když si dám na ten web do hlavičky nefunkční telefonní číslo, tak je to v podstatě dobře.

Anotátoři tam netelefonují, ale já ti nemohu potvrdit, že jeden z těch stovek signálů prostě nebude teď vysosaný z toho, že bude hledat v databázi telefonů nebo že na něj jednou za rok nenapíše testovací e-mail a kouká, jestli se to vrátí. To klidně může být.

Souhrn: Aby byly stránky Seznamem považovány za kvalitnější, měly by mít někoho, kdo je kontaktovatelný – provozovatel webu. Kontakt by měl působit věrohodně. Není z odpovědi úplně jasné, jestli je vlastní doména v e-mailovém kontaktu důvěryhodnější než např. seznamácký e-mail. Kontaktní formulář je o něco slabší forma kontaktu než e-mailová adresa s telefonem a adresou. Je možné, že nějaký signál může hledat telefonní čísla v databázi nebo posílat testovací e-maily na e-mailové adresy.

A potom tam je ještě jedna taková věc, která je tak strašně hezká, s níž všichni souhlasíme, ale nikdo vlastně neví, co to znamená. Web má dobrou pověst. Já to intuitivně cítím, co by to asi mohlo být, ale…

Tak já ti to zkusím vysvětlit. To se dá zjistit tak, že se podíváš na ten web, zkusíš si představit, jak mu lidi asi říkají a pak tohle zkusíš zahledat. Takže, když to vztáhnu třeba k mému webu, který se jmenuje jakpsatweb.cz, tak ty hledáš, jestli na celém široširém internetu existují zmínky o tomhle webu. Ne odkazy, ale zmínky. Jasně. A když vidíš, že existují, tak si řekneš: „Ten má dobrou pověst.“ Samozřejmě si musíš přečíst, jestli to nejsou pomluvy ve smyslu: „Koupil jsem tam něco a oni mi to neposlali.“ To ten anotátor stíhá, on má na ten web, který anotuje, třeba pět minut.

To znamená, že to jsou jako testeři lidští.

To jsou anotátoři, to jsou lidé. A ti na to mají… dobře pět minut, možná ne, ale tři minuty na to mají a ti sbírají řádově malé tisíce příkladů a to stačí na to, aby se naučil klasifikátor.

Shrnutí: Dobrá pověst webu je posuzována tak, že jsou o tom webu pozitivní zmínky. Tyto zmínky stihne najít anotátor při hodnocení.

A ještě u dalšího updatu Jalapeno je tedy v podstatě ten automatický antispam.

Ano. Obsahově. Zjednodušeně řečeno, ano. A rozdíl mezi Jalapenem a tím, co bylo před tím.. ti popíše někdo ze Seznamu, koho si sem pozveš příště, až…

Shrnutí: U updatu Jalapeno je automatický antispam.

K čemu je dobrá podpora fulltextu? Opravdu nám dokáže odpovědět správně? A s jakými problémy se my na ni můžeme obracet, aby to nebyla ztráta času? My, jako třeba já nebo tady Jarda nebo prostě Honza. Jako lidé, kteří třeba budou majitelé webu.

Já ti odpovím, co ta podpora toho fulltextu skutečně dělá. To jsou lidé, kteří sedí v té první bojové linii na chatu, na nápovědě, dobře bojové ne, spolupráce. Je to spolupráce. 🙂 Ty dotazy skutečně jsou velmi pestré a oni třeba nevědí, že musí na ten web mít nějaký odkaz, někde že se ten Seznam o tom webu musí dozvědět. Jsou to spíš takové ty opravdu úplně základní dotazy a ta podpora, já tomu pevně věřím, že ta podpora jim v tom pomáhá, a když dostane složitý dotaz, který vykazuje nějakou pravděpodobnou anomálii, tak se to přeposílá našim lidem – administrátorům. A kolikrát si myslíš, že to, co jsi reportoval, byly hrachy na zeď, ale ono je dost dobře možné, a zrovna v tvém případě je to velmi časté, že ten hrách tou zdí propadne a my ho tam na konci chytíme. Jenom ti to nedáme zpátky vědět. My ty chyby, které slyšíme, použijeme pro debugování a tam samozřejmě vždycky je práce na tom, jak to vylepšovat. A pro nás tou hlavní linií do budoucna chceme, aby bylo Webmaster tools už třeba z důvodu autorizovaného požadavku. Ono to tam v první verzi asi nebude, ale my se potřebujeme kolikrát ujistit, že vůbec mluvíme s webmasterem toho serveru.

Shrnutí: Podpora fulltextu je podpora spíše na základní dotazy. Složitější dotazy, na které neumí odpovědět, posílají administrátorům, kteří je poté řeší. Chyby, které se na podporu fulltextu nahlásí, použijí pro debugování. Do budoucna chtějí tohle ošetřit Webmaster tools.

V souvislosti s tím myslíš, že bude součástí Webmaster tools nějaký bug report. Občas se setkávám s věcmi, které bych vám jenom rád poslal, třeba je ani nechci řešit, protože se mě to netýká, ale narazím na ně a myslím si, že by bylo fajn, abyste je měli. Abyste o nich věděli, ale vlastně krom toho, že bych tobě nebo Štěpánovi poslal e-mail nebo nějaký formulář nebo něco.

Předám Martinovi, který má na starost Webmaster tools. Myslím, že jsme to tam probírali a nejsem si jistý, co spadlo do první verze.

Shrnutí: Bug report by měl být součástí Webmaster tools, není však jisté, jestli už v první verzi.

Ty vlastně, Dušane, o tom řazení v SERPu víš nejvíc. Jak se může stát, že na poměrně vysoce konkurenční dotaz svatební šaty je na druhé pozici twitterový účet.

Může být relevantní. Rozumím dotazu, ale bez studia nevím. Ale jenom v rychlosti: Twitterový účet se tam typicky může dostat proto, že ten robot nebo obecně algoritmus, který nad tím hledáním je, si pomyslí, že tam vede hodně odkazů.

Je na třetím a na druhém místě Sbazar, pozor. Což je rozdíl.

To je nějaký bazar, že ano.

Tvůj?

Sbazar jste říkal. Čí to je? Tvůj. Seznamu to je, ale ty jsi Seznam ne? Ano, Sbazar je Seznamu.

Ano.

My to indexujeme. Však je to v pořádku.

Mně právě přijde dobrý.

To nevím, ale tím chci zdůraznit, že Seznam ve vyhledávání nezvýhodňuje svoje služby. Nemá k tomu vůbec žádný důvod.

A některé lidi to štve.

Víc lidí to ze Seznamu štve, to je jasné.

Musíme s tím žít.

Jenom představím Jardu Hlavinku, který v Seznamu má za úkol optimalizaci webu do vyhledávače. Ten je vlastně také v tom našem zákopu. Ten je s vámi a byli lidé, kteří mu chtěli zakázat vstup do fulltextového oddělení, a ti už tam nepracují a ono to hlavně nejde fyzicky.

Kávu si tam jít udělat můžu, ale nikdo se se mnou nechce bavit. Kluci z fulltextu říkali, že mu nic neřekli.

Ne, my se s ním nebavíme.

No, ale je pravda, že to, co říká Honza, fakt nedává smysl. Že Twitter účet svatební šaty, který má 44 followerů a 137 tweetů, je pro Seznam kvalitnější výsledek než Heureka, Glami a ostatní weby, což mi přijde fakt divné.

Mně také. To tady asi nevyřešíme.

Já jsem se spíš chtěl dozvědět, jaký je vliv třeba odkazů ze sociálních sítí, pracuje s tím vůbec Seznam?

Ve chvíli, kdy se k těm odkazům dostane, tak s nimi pracuje jako s každým jiným odkazem. A proč říkám „ve chvíli, kdy se k nim dostane“? Protože ačkoliv třeba zrovna Facebook nás má v robot.txt jako povoleného robota, tak nám svéhlavě stále dává CAPTCHAu. Kdybyste znali někoho z Facebooku, kdo by nás mohl jako robota odbanovat, abychom nedostávali CAPTCHAu, tak by to bylo fajn, protože takhle se Facebook připravuje o profil. Ale, když se nám podaří tu stránku stáhnout, tak ten odkaz tam najdeme a myslím, že teď běžel nějaký projekt, který tohle má řešit, ale ten jsem nesledoval. Ono to oddělení, tam máme nejenom hodně serverů, ale také docela dost lidí a já prostě nestíhám sledovat všechno, co se tam děje. A myslím, že se řešilo crawlování sociálních sítí. Jiný problém máme s Twitterem, kdy Twitter většinu odkazů žene přes nějaký svůj zkracovač a ten má zakázaný robot.txt, takže si tam nemůžeme sáhnout na něj. To jsou takové libůstky. Ale tam si nějak poradit umíme. Takže do budoucna nevylučuji, že prostě odkazy ze sociálních sítí budeme brát zvlášť. Jeví se to jako silný signál.

Ty jsi vlastně před chvilkou mluvil o zmínkách…

No ano, tam to platí dvojnásob a ono by bylo dobré, kdyby to, co vidí redaktoři, mohly vidět i algoritmy. Takže to je pro nás celkem dobrá motivace si pro ta data sahat. Jako sociální reputaci doporučuji URL.

Shrnutí: Seznam pracuje s odkazy ze sociálních sítí stejně jako s každým jiným odkazem. Je možné, že v budoucnu budou brát odkazy ze sociálních sítí zvlášť.

Vyhodnocujete nějak ctr? Jako signál?

Málo a spíš na řízení robota, a to hlavně z toho důvodu, že ono to vazbí. Je tam silná zpětná vazba, kdyby se náhodou použilo, tak by to vedlo… to dělal Yandex kdysi dávno, že nahoře měl weby, na které se klikalo, tak se na ty weby klikalo, tím pádem je měl nahoře a tím pádem se na ně klikalo, takže začarovaný kruh. To je celkem nepříjemná zpětná vazba a za druhé: Kdybychom to brali jako signál, tak ono to jde docela snadno falšovat. Napíšeš si robota, který se tváří jako uživatel a kliká po výsledcích, takže pro výzkum to používáme celkem hodně, protože se dá říct, že nekomerční dotazy se falšují málo, nebo jako ta snaha tam mít nějaké robotické aktivity je slabá, a z nich to jsou celkem dobrá data z toho ctr. Takže se s tím dá pracovat výzkumně.

Takže na nějaké naučení, abyste si podkalibrovali něco…

Ano, dost často jsou to hezká data.

Shrnutí: ctr nepoužívají, protože je tam silná zpětná vazba, navíc kdyby to brali jako signál, tak by se to dalo snadno falšovat. Ale pracují s ctr v oblasti výzkumu – na naučení.

A obráceně nějakou míru, já nevím, jestli se tomu říká návratu.

Tady asi úplně otevřený nebudu, ale dá se říct, že automaticky vyhodnotit spokojenost toho uživatele při návratu je strašně těžké a ta data nám na to prostě nepasují. My nevíme, co se děje na tom webu. My jenom vidíme, že se vrátil a třeba kliknul na něco jiného, ale my třeba nevíme, jestli jenom pomalu čte ten SERP a kliknul pomalu nebo jestli stihl prokliknout a vrátit se. Protože my nemáme informaci o tom, co dělal na tamtom webu, to je před námi černá zóna. Tam Seznam nevidí.

On se mohl dozvědět něco lepšího a rozšířil svůj dotaz.

Třeba. Takže nějak automaticky vyhodnocovat tyhle údaje je extrémně těžké. Musím se přiznat, že to nikdo do značné míry v Seznamu ještě nerozkousl, jak tahle data používat, ale něco zkoušíme. Ono to totiž může znamenat úspěch i neúspěch. Tak co, zlatíčka vyčerpaná?

Dalších 10 let už nic podobného nebude.

Shrnutí: Vyhodnotit spokojenost uživatele při návratu je těžké, protože Seznam nevidí, co dělal na konkrétním webu, ze kterého se vrátil do SERPu. A vyhodnocovat ta data je těžké a Seznamu se to zatím nedaří.

Máte něco, co ten Google dokáže převálcovat nebo čím chcete konkurovat? Ty jsi tady zmínil ty priority. Já vím, že nebojujete, že se zajímáte jenom o sebe.

My Google válcovat nechceme, protože Google může být vnímán jako naše konkurence, ale on je v mnoha ohledech náš spojenec, a když se podíváš na firemní kulturu, tak jak říkají novináři, obě firmy mají stejnou deoxyribonukleovou kyselinu, takže… Možná se ptáš na to, jestli existuje nějaký obor vyhledávání, na který jsem pyšný. V čem jste lepší na českém trhu. Třeba líp hledáme textový řetězec jako telefonní čísla. To si vyzkouším. Protože jiné vyhledávače to neumí spojit a neumí odpárat 420.

Shrnutí: Seznam vyhledává lépe než jiné vyhledávače telefonní čísla jako textový řetězec.

A v čem chcete být lepší?

To je strašně těžké se takhle srovnávat. Priority jsem řekl. Produkt je jiný. Vyhledávání je jiné. Je pro jiné uživatele. Oni nás mají rádi z různých důvodů a my jim chceme zůstat věrní, to je klišé, ale… Na druhou stranu, když tedy budeme probírat Google, tak to je firma, která má celý svůj bytostní zájem získávat všechny informace na celém světě a nějakým způsobem z toho něco vařit a tuhle ambici Seznam spíše nemá. Protože ambicí Seznamu je, aby internet byl nejsilnější české médium, protože věříme, že pokud se to stane, tak Seznam si dokáže vybudovat na tom médiu přední pozici. Takže my se snažíme posilovat internet jako médium. A pokud k tomu to vyhledávání vede, tak je to super.

Je jasné, že se ze Seznamu spíš stává nějaký multimediální boom.

My bychom rádi měli vlastní obsah, protože to všichni znáte, že obsah je král. Takže do značné míry Seznam… a nedá se říct, že se přeorientovává, on prostě doplňuje divize, které dělají obsah, ta firma se nezmenšuje.

To souvisí s tím, na co jsem se ptal dřív, jestli se v tomhle ohledu nějak změní SERP.

Já ti na to znova odpovídám, že nevím. A je to skutečně možné, pokud zjistíme, že uživatelé dobře reagují na jiné uspořádání SERPu, tak to tak udělám. A jestli si můžu dovolit svoji osobní věštbu, tak tam žádná velká změna nebude.

Shrnutí: Seznam chce, aby internet byl nejsilnějším médiem, protože by na něm měl přední pozici a rád by měl vlastní obsah, takže doplňuje pozice, které dělají obsah.

Přemýšlím, co takhle Ahoj, Sezname, nějak jako Hello, Google, OK, Google – nějak jako slovní zadávání, když budou třeba neuronky…

Hlasové ovládání?

Hlasové ovládání. Jako třeba stáhnutí cílovky nebo něčeho. Když bude ten výkon, tak by to mohlo i něco…

Hlasové ovládání sledujeme, já se v tom orientuji spíš napůl, takže by bylo dobré, kdyby na to odpovídal někdo sečtělejší. Z mého pohledu není nutné konkurovat ve vlastním převodu mluveného slova na text, protože dneska to má každé zařízení jako součást operačního systému, takže mě osobně zajímají spíš nějaké přidané feature, které se kolem toho můžou motat. Ale pozvěme si někoho zasvěceného. Jsou tam u nás lidé. Máme tam nějaké výzkumníky, kteří tohle budou umět.

Shrnutí: Hlasové ovládání sledují, ale Dušan se v tom úplně neorientuje

Ještě někdo něco nebo oficiální část uzavřeme?

Děkujeme posluchačům, že vydrželi.

Díky moc, Dušane.

10489 zhlédnutí (celkově) 6 zhlédnutí (dnes)

Rate this post

Další články, které vás budou zajímat

Pavel Ungr

+ posts

Jsem konzultant online marketingu a specializuji se na SEO a inbound marketing. Od roku 2009 jsem pracoval jako senior SEO konzultant pro největší klienty agentur Ataxo a H1.cz. Úspěšně publikuji, školím a přednáším o online marketingu, který doopravdy miluju. Jsem důsledný, zodpovědný, kritický, se smyslem pro detail.

Přepis rozhovoru s Dušanem Janovským o vyhledávání na Seznam.cz

Další články, které vás budou zajímat

Pavel Ungr

Komentáře: 3

Napsat komentář Zrušit odpověď na komentář