Google Sitemap howto

Da qualche tempo, il noto motore di ricerca ha introdotto un servizio che facilita la vita sia ai suoi spiders che ai webmaster: le sitemap.

La sitemap non altro che un elenco delle pagine presenti in un dato dominio (o path di esso) ed una loro rilevanza ai fini del sito; se per esempio abbiamo un sito che si occupa prevalentemente di e-commerce, la pagina riguardante per esempio l’organigramma aziendale avr? una valenza minima rispetto alla pagina dei prodotti o dei marchi gestiti.

La sitemap di cui sto parlando, non la tipica sitemap linkata nel sito stesso, dove un utente pu orientarsi all’interno del sito. Google ha creato una specifica basta su XML, per rendere le informazioni fruibili agevolmente.

Ogni sitemap si compone di alcuni elementi (locations) inseriti in un contesto pi ampio (urlset) e contenenti alcune informazioni utili all’indicizzazione (come la data di ultima modifica, un indicatore della priorit? o valenza e la frequenza con cui avvengono modifiche).

Quindi, il codice seguente una sitemap valida deve comprendere:

  • Dichiarazione XML in codifica UTF-8
  • Root element urlset con relativa definizione dello schema
  • Tanti elementi di tipo url quante sono le pagine da includere nella mappa

Qui vediamo un codice valid per l’integrazione della sitemap di un sito composto dalle pagine: index.php, contacts.php, aboutme.php, curriculm.php e due pagine di lavori.

http://www.ashetic.net/index.php 		yearly 		0.8 	 	  		http://www.ashetic.net/contacts.php 		yearly 		0.8 	 	 		http://www.ashetic.net/aboutme.php 		monthly  		0.8 		 	 		http://www.ashetic.net/curriculum.php 		monthly 		0.6 	  	 		http://www.ashetic.net/works.php?page=1 		monthly 		0.5 	 	 		http://www.ashetic.net/works.php?page=2 		monthly 		0.5

Questa sitemap assolutamente valida e di fatto costituisce la principale sitemap del mio sito personale.

All’interno dell’elemento <url> troviamo questi campi con i relativi possibili valori

  • loc che precisa il path esatto della pagina, da notare che i caratteri speciali vanno codificati (es: la ‘e commerciale’ diventer? &. Inoltre, la lunghezza massima di questo campo ristretta a 2048 caratteri.
  • lastmod indicante la data di ultima modifica, nella notazione indicata dal W3C, ossia YYYY-MM-DD: prima l’anno con quattro cifre, poi due cifre per il mese e due per il giorno.
  • changefreq la frequenza con cui la pagina cambia, i valori validi sono:
  1. never, ossia mai
  2. yearly, ossia annualmente
  3. montly, ossia mensilmente
  4. daily, ossia giornalmente
  5. hourly, ogni ora
  6. always per i documenti che cambiano ad ogni accesso.
  • priority, con valori compresi da 0.0 a 1.0 per indicare la valenza dello specifico url rispetto al contesto del sito.

Fatto questo, abbiamo la nostra bella sitemap pronta, il passo successivo nel posizionarla opportunamente.

Googlebot la cerca nella directory principale del sito, con il nome sitemap.xml o, nel caso fosse compressa, sitemap.xml.gz.

Verranno ritenuti validi solo gli url inseriti appartenenti alle directory figlie di quella della sitemap, quindi se posizioniamo la nostra sitemap in http://www.ashetic.net/wordpress/sitemap.xml, non potremmo includere le pagine presenti in http://www.ashetic.net/altradirectory, mentre si potranno inserire quelle presenti in http://www.ashetic.net/wordpress/sottocartella/.

Ora non ci resta che rendere noto ai motori di ricerca che abbiamo una sitemap :)
Webografia: Google sitemap submission, Google sitemap specs