Cómo evitar duplicidad de contenido entre http y https (SEO para ecommerce)

Cuando un dominio tiene una versión segura, por ejemplo https://www.v2p-online.es ,se pueden generar duplicidad de contenidos producidos por tener el mismo contenido en diferentes protocolos, es decir en http y https.

Las páginas https son para las personas (especialmente para seguridad, para encriptar la información entre navegador y servidor), por lo que estás páginas no son de importancia para los bots y deben bloquearse ya sea mediante robots.txt, htaccess o cualquier otro método.

Para solucionar mediante el archivo robot.txt se necesitará crear un archivo robots.txt para cada uno de estos protocolos. De la siguiente manera se consigue que los bots indexen todas las páginas del protocola http pero no las del https. Para ello se han de utilizar los siguientes robots.txt:

Para su protocolo http (http://www.v2p-online/robots.txt):

User-agent: *
Allow: /
Sitemap: http://www.v2p-online.es/sitemap.xml

Para el protocolo https (https://www.v2p-online/robots.txt):

User-agent: *
Disallow: /

 

Otras soluciones son:

1. Mediante htaccess:

# Redireccionando the robots.txt file mediante htaccess para evitar la indexación de https evitando así contenido duplicado.
RewriteCond %{SERVER_PORT} 443 [NC]
RewriteRule ^robots.txt$ robots_ssl.txt [L]

2. Mediante php:

< ?php
if ($_SERVER["SERVER_PORT"] == 443)
{
echo "< meta name=" robots " content=" noindex,nofollow " > ";
}
?>

Información y vídeos para evitar contenido duplicado con https:

http://www.seomoz.org/ugc/solving-duplicate-content-issues-with-http-and-https

http://www.youtube.com/watch?v=3H5EZTt4kRY

http://www.youtube.com/watch?v=Az_eEp_NO_0