Indexování webu

23.01.2012, 08:00:00

Než se objeví stránka ve výsledcích vyhledávače, je třeba aby ji vyhledávač zaregistroval a indexoval. Je třeba aby stránku navštívil tzv. robot vyhledávače, aby si stránku analyzoval a následně ji indexoval do databáze vyhledávače. Pokud je stránka v databázi vyhledávače a je tedy indexována, pak je možné ji najít ve výsledcích vyhledávání. V opačném případě o ní vyhledávač nic neví a vlastně ji vůbec nezná, takže o ní nemůže ani nijak informovat.

Většina stránek, které mají desítku až stovku podstránek, jsou obvykle indexovány korektně. Pokud má web tisíce a více podstránek, pak je třeba se indexování pečlivě věnovat a nastavit pravidla tak, aby bylo indexováno co největší množství takových stránek. Obecně je dobré myslet na následující body a pak by nemělo optimalizaci nic bránit.

Pokud máme novou stránku, pak existují stránky vyhledávačů, na kterých je o nové stránce můžeme informovat. Následně vyhledávač pošle na naše nové stránky robota, který si web projde, analyzuje a indexuje co je podle něj vhodné. Tzn. my jsme ti, kdo vyhledávač informuje, že tu existuje nová stránka a že by ji měl vyhledávač indexovat. Vyhledávač stačí informovat pouze o hlavní stránce, zbytek podstránek si robot vyhledávače již dohledá sám.

Druhou cestou jak informovat vyhledávač je získat alespoň jeden zpětný odkaz na nový web. Takový odkaz je možné získat z katalogu, zmínkou v nějaké diskuzi apod. Takto si naše stránky najde vyhledávač sám. Ve většině případů to dostačuje a vyhledávač se o našich stránkách dozví rychleji, než když jej budeme sami informovat. Indexování stránek obvykle trvá od několika dnů až několik týdnů a to v závislosti na vyhledávači a velikosti webu.
Dále bychom se měli snažit, aby byly stránky přizpůsobeny vyhledávačům. Zde je několik doporučení.

Všechny stránky by měly být dostupné z hlavní stránky na maximálně tři kliknutí. Pokud to struktura webu neumožňuje, je třeba vyhledávačům připravit tzv. mapu stránek, která umožní vyhledávačům projít všechny stránky.

Nepoužívejme identifikátory relace, tzn. session, případně další pomocné parametry je třeba taky vynechat nebo omezit. Pokud už se tak stane, je třeba si ověřit, že tím nevzniká duplicitní obsah. Duplicitní obsah snižuje hodnotu obsahu jednotlivých stránek a je to velká škoda.

Také je třeba si uvědomit, že vyhledávač neindexuje celou stránku ale cca prvních 100-200kB textu na stránce. Pokud bude stránka větší, tak ji vyhledávač nemusí vůbec indexovat. Proto by stránky neměly obsahovat více obsahu než je nutné, včetně HTML zdrojového kódu. Ne to je potřeba si dát velice pozor, že stránka není jen viditelný text, ale kompletní zdrojový HTML obsah.

Také je možné ovlivnit chování robotů na webu pomocí souboru robots.txt. V tomto souboru je možné nadefinovat, které stránky se mají indexovat a opačně, které stránky má robot vyhledávače zcela ignorovat.

Databáze vyhledávače je neustále aktualizována, záznamy v ní se proto mění, naše stránky mohou být přidány, ale také mohou zcela zmizet nebo se znovu objevit. To je důvod, proč se někdy počet indexovaných stránek na našem webu může občas lišit. Nejčastějším důvodem pak je nedostupnost samotného webu. Pokud přijde robot na naše stránky a stránky jsou zrovna nedostupné, tak si robot může myslet, že předali existovat a vyřadí je tak ze své databáze.

Čím více mají stránky zpětných odkazů, tím rychleji budou opět indexované. Indexování stránek lze sledovat pomocí různých analytických nástrojů. Např. můžete využít Webmaster Tools od Google.

Martin Matějů

Programátor a specialista na Wordpress

Indexování webu