Search Marketing Consultant

Web Marketing & Search Engine Consultant

L’Arte di Indicizzare Siti Web e Portali

HTML-CODE-Blog.jpg

Non capita tutti i giorni di dover indicizzare un sito web con oltre un milione di pagine. Lo sto facendo per un Cliente USA – sono soggetto a NDA ((Non Disclosure Agreement)) quindi non posso andare nei dettagli dell’attività specifica ma questo lavoro ha offerto l’opportunità di condividere una esperienza molto interessante …

Grandi siti possono avere una scarsa indicizzazione dei proprio contenuti e quindi visibilità limitata nei motori di ricerca: in pratica se un sito ha 50.00 pagine web ma i motori di ricerca ne censiscono solo 5.000, le altre 45.00 rimangono nell’ombra non essendo proposte nelle SERP ((Search Engine Results Pages – le pagine con i risultati proposti dai motori di ricerca)).

Volete un esempio ? Eccone uno fresco fresco di SERP …

Idealstandard.png

Sai dopo il terremoto bisogna darsi da fare per sistemare casa e così mi sono messo alla ricerca di vasche da bagno salva spazio – ne ho trovata una che forse fa al caso mio ma non attraverso i motori di ricerca, ma attraverso l’accesso diretto ad alcuni siti di grandi produttori – come Ideal Standard. Lasciamo stare la usabilità del sito che non è oggetto di questo post, ma concentriamoci sull’architettura del sito web: ho dato un commando site: e sapete quante pagine risultano ?

Picture5.png

Hai letti bene, 179 pagine indicizzate dai motori di ricerca – ovviamente non so quante siano le pagine del sito ma, avendo messo online il catalogo dei prodotti sono pronto a scommettere che le pagine potenzialmente indicizzabili sono molte di più.

Le cause di questi problemi ?

  • Una architettura del sito web poco Search Engine Friendly
  • L’Assenza totale di design amichevole per i motori di ricerca

Una volta i motori di ricerca rimanevano intrappolato in dei loop infiniti che addirittura bloccavano il server. Oggi i motori di ricerca non hanno grossi problemi a gestire URL dinamiche, anche se è ancora consigliabile non avere più di 4 variabili nell’indirizzo web.

Non è un problema tecnico farsi indicizzare il sito web, ma bisogna meritarselo.

Perché uso la parola meritare ? Perché i motori di ricerca hanno mezzi potentissimi per esplorare il web ma il web è vasto ed inesplorato – milioni di siti web che competono in primo luogo per farsi indicizzare.

Allora le domande che ci dobbiamo fare sono:

  • I contenuti sono disponibili in un formato ottimale per l’indicizzazione ?
  • I motori di ricerca riescono d indicizzare i contenuti ?

Andare da questa frequenza di indicizzazione (=crawl rate dell’immgagine che segue)

spidering-1.png

a questa (ed oltre)

Large Website Indexing - Website Diagram

significa mettere a disposizione degli utenti migliaia e migliaia di pagine web in più, e quindi più traffico, più contatti, più conversioni … più business proveniente dal web.

Questa non è attività da pochi giorni di lavoro

Può durare (e quasi sempre dura) diversi mesi. Non ci sono dei “quick fix”, soluzioni rapide che risolvono il problema della indicizzazione di grandi siti nei motori di ricerca: per l’indicizzazione i tempi sono quelli di maturazione di un buon vino – ci vuole il tempo che ci vuole.

La soluzione va individuata ed implementata per successive approssimazioni.

Solo provando e riprovando ti accorgerai di fare bene o male. Anche per questo i tempi possono essere molto lunghi (dipende molto dall’esperienza).

Uno dei grossi limiti è la mancanza di informazioni e documentazione sull’architettura del sito web. Devo ancora trovare un sito a cui faccio consulenza che mi consegna una copia della documentazione del sito che illustra la struttura del database, la filosofia dell’architettura ed un log delle modifiche che si sono succedute nel tempo. Così molto tempo si passa a capire com’e fatto il sito per capire come intervenire.

Dove si comincia ad indicizzare ?

Prima di partire con l’indicizzazione si mettere ordine nel sito web.

Quante sono le pagine web nel sito ? Quante pagine dovrei trovare nell’indice di Google ?

Picture 5.png

Questa è la struttura tipica di un sito web. In effetti questa struttura non esiste ma esiste il database che è il vero motore, dove vengono immagazzinati i contenuti per poi essere richiamati in tempo reale per creare le pagine dinamiche.

Pur non esistendo fisicamente, i motori di ricerca indicizzano le pagine, e noi dobbiamo avere una idea del loro numero. Utilizzando una rappresentazione come quella che segue nel caso di un ipotetico sito di commercio elettronico

200908191503.jpg

è possibile fare l’inventario per censire le pagine web.

Supponiamo di avere un sito con 20.000 prodotti ed una suddivisione in categorie, oltre ad alcune pagine generiche di presentazione dell’azienda.

La situazione potrebbe essere questa:

Pagine Prodotto

20.000 prodotti —–> 20.000 pagine

Pagine Categorie

Supponiamo una paginazione di 10 prodotti per pagine e 3 categorie (per semplificare il nostro esempio di indicizzazione) – in questo caso si ha:

1a categoria con 3.000 prodotti —–> 300 pagine

2a categoria 5.000 prodotti —–> 500 pagine

3a categoria 12.000 prodotti —–> 1.200 pagine

10 pagine generiche descrittive del sito e dell’azienda

Numero complessivo di pagine che dovrebbero essere indicizzate dai motori di ricerca:

20.000 (prodotti) + 2.000 (pagine di categoria) + 10 (pagine generiche) = 22.010

Adesso dobbiamo eseguire la query site: per verificare quante pagine risultano effettivamente indicizzate dai motori di ricerca. Per fare questo tipo di analisi dobbiamo avere dimestichezza con le query avanzate dei motori di ricerca di cui vi fornisco link più avanti in questo post.

A questo punto sono possibili due scenari:

  1. Il numero complessivo di pagine risulta essere inferiore del numero calcolato
  2. Il numero complessivo di pagine risulta essere superiore del numero calcolato

Consideriamo il caso (molto frequente) che il numero di pagine indicizzate è superiore al numero di pagine calcolate.

In 9 casi su 10 il sito ha un proprio motore di ricerca e vengono indicizzate le pagine dei risultati del motore interno (che dovrebbero invece essere bloccate – lo prevede le condizioni d’uso di Google). Qui non stiamo a ripetere cose già dette per cui è bene andare avedere questi post sull’argomento:

Dobbiamo creare l’istante to per il sito web.

Prima di avviare qualsiasi attività di indicizzazione del sito web dobbiamo mettere in atto dei sistemi di misura per sapere le attuali condizioni del sito, creare un account di Google Webmaster Tools (e degli altri motori di ricerca), per documentare quante pagine restituisce il comando site, in modo da sapere quali e quante sono le variazioni della nostra presenza in funzione delle modifiche implementate.

Se nel sito non esiste nulla (non hai un account di webmaster tools e non ci sono google analytics o similare) dobbiamo assolutamente attivare questi strumenti ed aspettare non meno di 1 settimana per raccogliere dei dati ed avere uno storico (anche piccolo) che documenta le performance pre-ottimizzazione. Se il sito è nuovo 1 settimana di storico potrebbe non bastare ed è meglio avere 4 settimane di dati.

Suggerimento: se la copia della Google Cache porta la data antecedente di 1 settimana o più è bene aspettare più a lungo per avere uno storico rappresentativo delle performance del sito.

A questo punto non resta che aspettare che maturi il vino i primi dati dall’account di webmaster tools per capire dove sono gli errori e come stiamo andando con le correzioni (filtrando cioè i contenuti duplicati con l’uso del robots.txt di cui si parla nei post segnalati in precedenza)

Picture 1.png

(questo report è preso da Google Webmaster Tools e si trova sotto Diagnostics >> Crawl errors)

I Motori di Ricerca non riescono ad indicizzare il contenuto

Se ci troviamo nel caso contrario ovvero che il comando site: restituisce un numero di pagine inferiore a quello stimato ci sono delle barriere nell’architettura che di fatto impediscono ai motori di ricerca di accedere ai contenuti.

In questo caso i motori di ricerca non riescono a trovare delle strade percorribili per esplorare i contenuti – forse ci sono dei link affogati in FLASH, oppure un uso improprio di javascript …

Possiamo vedere quello che vedono i motori di ricerca con un browser testuale come Lynx – se con Lynx non vediamo dei link allora neanche i motori di ricerca riescono a vedere i link. In ogni caso è sicuramente un problema di architettura del sito web che va rivista e corretta per favorire l’indicizzazione di tutto il sito web.

I motori di ricerca hanno individuato i contenuti ma non li hanno indicizzati

In questo caso le pagine sono state indicizzate o per meglio dire censite ma i motori di ricerca ma valutate poco interessanti e messe da parte; vengono proposte agli utenti.

Il problema potrebbe essere la duplicazione dei META TAGS   

Picture 2.png

(Questo report è preso da Google Webmaster Tools e si trova sotto Diagnostics >> HTML suggestions)

Anche in questo caso Webmaster tools ci viene in aiuto, indicando tutte le pagine che hanno META TAGS duplicati, indicando dove intervenire e creare META TAGS personalizzati … si lo so che è una faticaccia ma non ci sono alternative – tutte le pagine devono avere <TITLE> e META DESCRIPTION diversi tra di loro – non c’è alternativa.

Altro suggerimento: se hai migliaia di pagine da indicizzare e non vuoi/puoi crearti delle META DESCRIPTION personalizzate possiamo toglierlo del tutto 😉

Vi ho preparato una check list per organizzare l’attività:

  • Quante pagine sono state indicizzate?
  • Quante pagine sono presenti nel sito web ?
  • Quante pagine sono presenti in ogni sezione del sito ?
  • Quante pagine sono state indicizzate per ciascuna sezione del sito ?
  • Il sito ha un motore di ricerca interno ?
  • Se ha un motore di ricerca interno le pagine dei risultati sono state indicizzate dai motori di ricerca ?
  • Quante pagine sono state indicizzate?
  • Quali sono le variabili che puoi utilizzare per identificare le pagine del sito ?
  • Quali sono i criteri di selezione per evitare che queste pagine vengano indicizzate ?
  • Esistono pagine con problemi di contenuti duplicati ?
  • Quali sono le pagine con <TITLE> tag duplicato ?
  • Quali sono le pagine che presentano <META DESCRIPTION> tag duplicati ?
  • Il CMS che utilizziamo ha design amichevole per motori di ricerca ?
  • È possibile personalizzare i META TAGS delle pagine con il CMS ?
  • È necessario implementare delle modifiche al CMS per poter personalizzare i META TAGS delle pagine ?
  • Qual’è l’attuale frequenza di spidering del sito ?
  • Qual’è il numero di pagine restituite dal comando site: prima della implementazione delle azioni correttive per indicizzare il sito nei motori di ricerca ?

Contenuti Duplicati ed Architettura dei siti Web sono i nemici dell’Indicizzazione

Più è grande il sito, più è difficile individuare la strada giusta per sistemarlo: è molto simile al lavoro del veterinario che deve curare gli animali che non possono parlare e dire dove hanno male.

Trovare “la soluzione” giusta per indicizzare un sito grande è complicato per le incertezze e la mancanza d’informazioni accurate.

La limitazione più grande è l’avere a disposizione “solo” 1.000 pagine con il comando site: e bisogna districarsi tra i comandi dei motori di ricerca per estrarre informazioni utili a capire lo stato di salute.

Gli operatori per fare ricerche specifiche sui vari motori di ricerca li trovate qui:

Quest’ultima parte del post l’ho scritta e riscritta diverse volte perché è difficile parlare di cose complesse ed articolate come queste senza avere sotto mano un sito su cui applicarle e quelli che ho sono di Clienti … se c’è qualcuno che vorrebbe farsi fare una analisi gratuita ed è disposto a far pubblicare l’analisi in un post dedicato lo faccio.

Come fare per avere una analisi gratuita

  • Il sito proposto deve avere (approssimativamente) non meno di 2.000 pagine
  • Deve esistere da almeno 6 mesi
  • Lascia un commento con una breve descrizione del sito e le difficoltà fin qui incontrate
  • Contattami dal sito per mandarmi la breve descrizione e l’indirizzo del sito web da analizzare

Attendo vostre notizie 🙂