Come evitare i contenuti duplicati in un sito web


Principi base per la risoluzione del problema dei contenuti duplicati durante l’ottimizzazione SEO

26/03/2018

Cosa sono i contenuti duplicati?

Tra i principali fattori di penalizzazione SEO che spesso ci si trova ad affrontare troppo tardi, quello dei contenuti duplicati (Duplicate Content in inglese) è sicuramente uno dei più temuti, sia per la facilità con cui si viene a creare ma soprattutto per il gravoso impegno richiesto per la sua risoluzione.

Con contenuti duplicati si indica il caso specifico in cui a diverse URL corrispondono pagine con contenuti uguali.

I contenuti duplicati possono purtroppo essere prodotti in tanti diversi modi: inaccurate duplicazioni di pagine, plugin difettosi dei CMS, disattenzione del webmaster o semplici “copia-incolla” di contenuti da siti esterni.

Come si risolvono i contenuti duplicati?

La duplicazione di contenuto, da una prospettiva SEO, necessita di specifiche tecniche per essere risolta correttamente . In molti casi, più banali, queste situazioni si possono risolvere con dei “semplici” redirect. Tuttavia in altre occasioni le redirezioni possono non essere sufficenti al raggiungimento di un livello di ottimizzazione SEO adeguata.

E’ importante quindi ricordarsi di alcune soluzioni alternative:

Utilizzando il robots.txt per prevenire la scansione delle pagine duplicate da parte dei crawler.

Utilizzando il rel=canonical per indicare la pagina “primaria” a cui i contenuti fanno riferimento.

Utilizzando il meta tag noindex per indicare ai motori di ricerca di non indicizzare le pagine duplicate.

Importante ricordare che se si utilizza il robots.txt non ha senso utilizzare i meta noindex e nofollow poichè se gli spider non hanno accesso alla pagina non è possibile che leggano questi meta.

Alcuni casi specifici

HTTPS

Se si utilizza una certificazione SSL e non si opera una completa conversione del sito, saranno presenti alcune pagine che iniziano con https:// e altre che iniziano con http:// . Il problema di questa politica sorge nel momento in cui una pagina https esegua un backlink ad una pagina non https utilizzando un link relativo invece che uno assoluto. In questo caso è consigliabile utilizzare il rel=canonical o un redirect 301 per risolvere questo ostacolo. In alternativa si può operare strutturalmente cambiando la tipologia di link, da relativo ad assoluto che in aggiunta rende più difficile la possibilita che si verifichino furti di contenuto (da parte dei content thieves).

CMS difettosi

Alcune volte può capitare che a causa di una limitazione del CMS si vengano a creare tante diverse versioni di pagine identiche con URL diversi. Queste nella maggioranza dei casi sono duplicazioni inutili dal punto di vista di end-user. Anche in questo caso, l’eliminazione delle pagine duplicate con conseguente redirect 301 è la soluzione migliore.

Pagine per la stampa

Diversi siti fornisco all’utente una versione per la stampa, che contengono lo stesso contenuto nei diversi formati. Queste pagine, a differenza dei casi precedenti, hanno valore per l’utente finale ma non per i motori di ricerca. La soluzione ottimale per questo caso specifico resta la creazione di un foglio di stile CSS dedicato alla stampa.

Ordinamento di prodotti

Anche l’ordinamento dei prodotti in un ecommerce può fornire stessi contenuti a URL diversi per alcune tipologie di filtraggio e di ordinamento. In questo caso agire con dei redirect può essere una buona prevenzione.

Blog

I blog presentano diverse sfide per quanto riguarda la prevenzione dei contenuti duplicati. Gli articoli infatti possono apparire in tante pagine diverse come la homepage, l’archivio degli articoli per data, per contenuto. Ogniuna di queste pagine rappresenta un doppione delle altre. La soluzione a questo caso può essere ottenuta mostrando solo estratti degli articoli e non gli articoli interi ed evitando di proporre anteprime degli articoli in pagine non strettamente correlate.

Contenuti creati dagli utenti

Anche se difficilmente controllabile, un caso specifico di contenuto duplicato è quello riguardante i contenuti proposti dagli utenti (reposting). Esempi di queste situazioni sono i forum, i blog o i siti di annunci. Questi siti infatti propongono enormi quantità di contenuto a basso costo. La problematica insorge quando un utente pubblica lo stesso contenuto su svariati siti.

Ci sono tuttavia due possibili tecniche di mitigazione:

  1. Avere chiare condizioni di utilizzo che impongano l’utente a non pubblicare contenuto copiato da altri siti, pena la cancellazione dello stesso.
  2. Implementare campi univoci nei form di inserimento contenuti che differenzino e rendano unica la pubblicazione di materiale nel proprio sito.

Conclusioni

Affontare il problema dei contenuti duplicati è uno dei punti chiave per una ottimizzazione SEO pre-pubblicazione. La risoluzione di questa problematica infatti richiede molto impegno e tempi tecnici a volte estremamente lunghi. Come si dice spesso in questi casi: “Prevenire è meglio che curare”.