Consulente Web Marketing e Consulenza Motori di Ricerca

Web Marketing & Search Engine Consultant

Denunciato baco di Google: il Proxy Hacking

Google Proxy Hacking: Come ti possono rimuovere dai risultati di Google

Questa di oggi doveva essere una giornata tranquilla, diverse cose da fare come sempre ad Agosto, da prendere con un po di relax. Poi ho visto che è ripreso con vigore  l’incendio a S. Giuliano e ed ho letto di questo giochino che alcuni stanno attuando a danno di altri – si chiama Proxy Hacking.

Il post originale è qui e titola:

Google Proxy Hacking: How A Third Party Can Remove Your Site From Google SERPs

Si tratta di una falla scoperta nel 2006 e di cui erano a conoscenza pochissime persone (oltre allo staff di Google).

Non vado in dettagli tecnici (anche perché non ne sarei capace) ma voglio dire una cosa prima di passare alla descrizione:  queste tecniche mi lasciano a bocca aperta –  vedere tanto ingegno impegnato a fin di male (per nuocere agli altri) anziché per migliorare se stessi …

Vediamo di cosa si tratta.

Tutto comincia quando da un giorno all’altro vedi una caduta verticale del traffico da Google. All’inizio pensi che si possa trattare di una cosa fisiologica – una di quelle fluttuazioni sinusoidali del traffico trattate nel Forum GT. Ma il traffico non torna.

Cominci ad indagare a modi veterinario per capire quale male affligge la tua bestia; Da un comando site: ti accorgi che tutte le tue pagine sono presenti in Google tranne la home page .

Ma dove mai sarà andata a finire la mia home page ? pensi in preda ai primi attacchi di disperazione … fai una query con una frase che è tipica della tua home page (una semplice query con virgolette di una frase per ridurre al minimo il numero di pagine che Google ti restituirà).

I risultati della query sono a dir poco sorprendenti: trovi molte altre pagine identiche alla tua su siti sconosciuti … siti che scopri essere dei proxy server,

Per te che non lo sai, il proxy  è un server per l’erogazione di servizi a cui una rete di utenti può accedere: in pratica con un proxy server vado a gestire il  traffico in ingresso ed in uscita da e verso una rete di utenti. In particolare il server proxy fa una copia delle pagine web a cui accedono gli utenti e la tiene in memoria, limitando in questo modo la quantità di traffico (inutile) in rete.

Nulla di male quando succede sporadicamente, ma se decine di server proxy prelevano copia della tua home page e poi la danno in pasto a Google, succede una cosa molto brutta: scatta il filtro contenuti duplicati.

Ah stavo per dimenticare la cosa più interessante:  per non farsi scoprire questi proxy server fingono di essere Googlebot (lo spider di google) che viene a fare l’indicizzazione del tuo sito quindi non ti accorgi di quello che sta accadendo …

Nel frattempo Google indicizza i contenuti dei server proxy che hanno fatto copia della tua home page; man a mano che i vari data center si allineano (Google) scopre  la presenza di copie multiple della stessa pagina ed in teoria dovrebbe capire che la copia master è quella che risiede sul tuo sito ed invece butta via proprio quella … o meglio non la elimina ma la penalizza pesantemente, spostandola alla fine del set di risultati (intorno al risultato 999 per intenderci …).

Rimedi possibili sono una robusta iniezione di programmazione ad alto livello (di gente che mangia pane e bit)  per fare del cloaking al contrario, ovvero accertarsi che l’agent è veramente un motori di ricerca e fornirgli la pagina giusta, mentre a tutti gli altri dare una copia con la stringa

<name="robots" meta content="noarchive, nofollow,noindex" />

Questo lo sta facendo del.icio.us già da tempo.

Quello che lascia stupiti è il totale disinteresse fin qui mostrato da Google e denunciato apertamente nel post (pubblicato ad arte proprio a ridosso dell’imminente Search Engine Strategies di San Jose – l’evento più importante della west coast negli states – sarà interessante leggere cosa succede – ti terrò informato …

Ho un altra cosetta da dirti a proposito dello spam e dei modi che hanno escogitato per fregaci, ma non ora un altra volta … sono abbastanza schifato per oggi.

4 Replies

  1. Ciao Achille,
    pensa, di questo problema (nella sua forma forse meno maliziosa, ma comunque non meno pericolosa) se ne parlò più di un anno fa sul forum GT (http://www.giorgiotave.it/forum/).

    Nel post che segnali vengono esposti molti più dettagli e soprattutto un uso volutamente black del presente bug.

    Mi sono letto tutti i commenti al post, nonché altri post collegati ed i commenti su sphinn, però nessuna delle soluzioni proposte mi sembra risolutiva. o meglio, non ne vedo una che da sola risolve tutti i rischi. secondo me, servirebbero tutta una serie di accorgimenti insieme, per arrivare ad evitare quasi tutti i rischi. nell’attesa che Google trovi un modo per capire chi è l’autore originale e chi invece copia…

  2. Ciao Stefano,
    intanto ti chiedo scusa per l’editing che vedi nel tuo commento – il link stava bloccando la pubblicazione del tuo commento … strano devo controllare con l’ultima infornata di plugin che ho messo qualcosa deve essersi “sconfigurato”.

    Beh qui di soluzioni definitive è difficile parlare in generale – Quella che mi sembra la migliore in termini di performance è quella del cloaking inverso che però deve essere accompagnata da una stratta collaborazione dei motori di ricerca per l’autenticazione degli agent per lo spidering.

    Resta comunque il fatto che queste soluzioni sono molto costose e non alla portata di tutti – non che l’hotel dell’Aquila (almeno per adesso) si debba preoccupare di questi problemi …

    Di fatto queste cose fanno capire quanto si è evoluto questo mondo e come tutti hanno trovato una giusta collocazione>/i> nell’habitat online.

    Torno a ripetere: se si spendessero le stesse energie per fare un bel sito e non buttare alle ortiche quegli degli altri il mondo sarebbe un posto migliore … a tal proposito consiglio (a tutti) di (ri)vedere il file del grande Alberto Sordi
    Finché c’è guerra c’è speranza:
    http://www.imdb.com/title/tt0071500/

  3. pensa, di questo problema (nella sua forma forse meno maliziosa, ma comunque non meno pericolosa) se ne parlò più di un anno fa sul forum GT (http://www.giorgiotave.it/forum/).