Contenido duplicado y Google
Adam Lasnik (otro Matt Cutts) explica en el weblog oficial para webmasters de Google algunas cuestiones y consejos referidos al contenido duplicado en Google.
(Si no te fías de mi traducción chapucera, puedes leer la fuente original)
¿ Qué es el contenido duplicado ?
El contenido duplicado se refiere a bloques de contenido significativo, dentro o entre dominios, que son completamente idénticos o muy similares. La mayoría de las veces no es intencionado o al menos no tiene un fin malicioso: foros o blogs con versiones para móviles, productos de tienda online con múltiples distintas urls… En algunos casos el contenido es duplicado entre dominios con la intención de manipular los resultados de búsqueda o aumentar el tráfico vía búsquedas populares o búsquedas residuales (long tail).
¿Qué no es contenido duplicado ?
Por ejemplo no consideramos contenido duplicado un mismo artículo escrito en inglés y español. Tampoco es considerado contenido duplicado pequeños fragmentos, referencias textuales de textos ajenos y similares.
¿Porqué Google se preocupa por el contenido duplicado?
Nuestros usuarios quieren ver contenido diverso cuando realizan una búsqueda. En contraste, es entendible que se molesten cuando encuentran el mismo contenido en diferentes páginas dentro de una misma búsqueda. También, los webmasters se preocupan cuando mostramos una url compleja (example.com/contentredir?value=shorty-george?=en) en vez de una url “más bonita” (example.com/en/shorty-george.htm).
¿ Qué hace Google respecto a este tema?
Durante el rastreo y cuando servimos resultados de búsqueda, intentamos indexar y mostrar páginas con información única.
El filtro significa, por ejemplo, que si tu web tiene artículos en “formato estandar” y en versión para impresión y ninguna de ellas está bloqueada desde el robots.txt o vía el meta tag noindex, nosotros elegiremos una versión para ser listada.
En los casos raros en los cuales notamos que el contenido duplicado está siendo utilizado con la intención de manipular los rankings o engañar a los usuarios, también realizaremos los ajustes necesarios en el index y en el ranking de las webs implicadas. Sin embargo, preferimos centrarnos en filtrar más que en ajustes en el ranking…. por tanto, en la inmensa mayoría de ocasiones, lo peor que puede ocurrirle a un webmaster es que elijamos la “versión menos deseada” de una página en nuestro index.
¿Cómo puede un webmaster evitar problemas por contenido duplicado?
- Bloquear apropiadamente: Ayuda a google a elegir la mejor versión de tus documentos. Bloquea las versiones duplicadas.
- Utiliza 301s: Si reestructuras tu web, utiliza redirecciones 301 (”Redirección permanente”) en tu archivo .htaccess para redireccionar elegantemente a tus usuarios, a googlebot y a otras arañas.
- Se consecuente: Utiliza siempre la misma versión de url para tus enlaces internos; no uses /pagina/ , /pagina y /pagina/index.html. En online.com.es explican una posible solución.
- Utiliza TLDs: Para ayudarnos a elegir la mejor versión de un documento, utiliza dominios de primer nivel cuando sea posible para organizar el contenido para diferentes países. Un dominio .de nos sugiere que está enfocado a usuarios alemanes, mientras que un /de o de.ejemplo.com no nos ofrece tantas pistas (Lasnik puntualiza en wmw que si ya tienes un .com posicionado Google ya se encargará de averiguar la lengua de los documentos)
- Sindica con cuidado: Si sindicas tus contenidos en otras webs, cerciórate de que incluyen un link a la versión original de cada artículo sindicado. Incluso con eso, ten en cuenta que elegiremos la versión más apropiada a los usuarios para cada búsqueda, lo que significa que para determinadas búsquedas podría aparecer la copia sindicada.
- Utiliza la opción de dominio preferido en las herramientas para webmasters: Si otras webs enlazan con la versión www y la versión no-www de tu dominio, puedes hacernos saber cual de las dos versiones prefieres que indexemos.
- Minimiza las repeticiones de texto: Por ejemplo, en vez de incluir un largo texto de copyright en la parte baja de cada documento, incluye un breve resumen y enlaza a una página con más detalles.
- Evita páginas sin contenido: A los usuarios no les gusta encontrarse con páginas vacias, por tanto evita páginas que solo contienen la plantilla de tu web. Esto significa no publicar (o por lo menos bloquear) páginas sin reseñas, sin listados de pisos en venta para cierta zona, etc…
- Entiende como funciona tu CMS: Comprende como se muestra el contenido de tu web, particularmente si éste incluye un blog, foro, o sistemas similares que muchas veces muestran el mismo contenido bajo diferentes formatos.
- Dont worry be happy: No te ofusques demasiado con webs (planetas y similares) que duplican tu contenido. Siendo algo molesto, es difícil que estos sitios impacten negativamente el posicionamiento de tu web en google (aunque también podéis hacer caso a especialistas en posicionamiento). Si encuentras algún caso especialmente frustrante, puedes rellenar una petición DMCA para reclamar la autoría de cierto contenido.


19 de Diciembre, 2006 a las 11:15 pm
Pues a mi me ha desaparecido recientemente una web de google y me bosquea lo de los planets, estoy intentando sacarla, a ver si es por eso.
19 de Diciembre, 2006 a las 11:42 pm
Hemos publicado a la vez, o casi a la vez
Aunque lo del dont worry no me convence del todo, la verdad que tampoco le doy mucha importancia… no más de la que se merece al menos.
Saludos.
19 de Diciembre, 2006 a las 11:59 pm
Esto es falta de coordinación :S
A mi tampoco me gustan los planetas en general, pero hay que convivir con ellos. El contenido duplicado siempre ha dado problemillas en google, pero este problema no lo iniciaron los planetas, que normalmente si ponen un enlace a la fuente. Las peores duplicidades no son esas.
20 de Diciembre, 2006 a las 3:00 am
[…] Muchos blogs están hablando del primer post oficial sobre el contenido duplicado que se escribe en el blog oficial de la empresa. De hecho Dirson, Telendro, OjoBuscador y Seoblog hacen traducciones del mismo. […]
20 de Diciembre, 2006 a las 8:13 am
Muy bueno el enlace gallego a uberbin. :D:D:D:D Algunas cosas nunca cambian.
20 de Diciembre, 2006 a las 9:02 am
¿ Qué hace Google respecto a este tema?
Búsqueda: móviles vodafone
1º resultado: http://www.margenneto.com/movilesgratis.htm
12º resultado: www.grupolidertel.com
Opciones:
1. Filtrar uno de los resultados
2. Ajustes necesarios en el index y en el ranking de las webs implicadas
3. Nada
20 de Diciembre, 2006 a las 11:06 am
[…] En el Blog Central Webmaster de Google hay un interesante artículo de Adam Landsnik (que Michel ya ha traducido) sobre el contenido duplicado y como lo maneja Google. […]
20 de Diciembre, 2006 a las 3:50 pm
un problema común es cuando los posts son cortos, y el contenido de los sidebars/footer es tan grande e igual en todas las páginas. si pasa esto google tomaría como contenido duplicado, pondria nuestras paginas como resultados suplementarios
20 de Diciembre, 2006 a las 5:09 pm
mmm y digo yo.. si news.google.es es todo contenido duplicado, porque sale de primero buscando news ?
21 de Diciembre, 2006 a las 9:04 pm
[…] Desde el blog oficial de la Central para el Webmaster de Google, nos hacen llegar las respuestas a varias de las preguntas que surgieron en el SES Chicago acerca del contenido duplicado en sitios Web. También nos dan algunas sugerencias para evitar cualquier problema debido a esta situación. […]
22 de Diciembre, 2006 a las 3:34 am
Contenido duplicado y una respuesta a Denken Über…
Pensaba dejarlo en forma de comentario, pero por extensión he pensado que quizá sea más adecuado por aquí.
Denken Über habla sobre que Google ha escrito por primera vez de forma oficial sobre el contenido duplicado.
De ello también hablan OjoBu…
23 de Diciembre, 2006 a las 12:18 pm
Interesante artículo o bueno traducción.
Creo que muchos blogs apenas le dan importancia a lo que google pueda o no hacer a la hora de indexarlos. Sólo unos pocos, ojo apreciación personal mía, se preocupan por esos detalles. Y entre estos, los dedicados al tema SEO y los profesionales. Los primeros bueno porque saben del tema, los segundos porque viven de ello.
Pese a todo, es bueno conocer el tema y aprender. Mmm, hablas de google pero ¿cómo se comportan el resto de buscadores al respecto?
7 de Enero, 2007 a las 8:45 pm
[…] Ismael nos traduce a Adam Lasnik en su weblog telendro.com.es un buen sitio para saber cómo funciona el buscador más utilizado, el concepto web más envidiado y un negocio que renta millones de $$$$: […]
25 de Febrero, 2007 a las 1:03 am
[…] - Paginas con contenido duplicado , por ejemplo , un blog que copie todas sus entradas de otro , sin contenido original , o paginas de un mismo site con demasiados elementos comunes ( titulo de la web , menus , granjas de links , etc..) […]
20 de Junio, 2008 a las 2:36 pm
[…] de contenido duplicado Existen dos tipos de contenido duplicado: contenido que se repite en varios sitios web y el contenido que se repite en diferentes páginas […]