Robots.txt vs Meta Robots
¿Qué es Robots.txt?
Robots.txt es un archivo que se coloca en el directorio raíz de cualquier dominio. Es el primer archivo que leen los rastreadores en el sitio web.
Es básicamente un conjunto de protocolos que un usuario puede establecer para diferentes rastreadores.
¿Qué hace el robots.txt?
Robots.txt es un archivo que instruye a las arañas (crawlers) sobre qué página rastrear y cuál no.
¿Qué contiene un archivo robots.txt?
El archivo robots.txt contiene el nombre de la araña que se especifica por «user-agent» y se divide por dos puntos. En la siguiente línea, se definen los parámetros para el crawler.
Aquí está la sintaxis exacta en el caso de Googlebot, si queremos desautorizar una página en particular:
User-agent: Googlebot
Disallow: *
¿Cuáles son los parámetros de las arañas en el archivo robots.txt?
- El primer parámetro es el «user-agent» donde se puede definir el nombre de las arañas para especificar para qué crawler en particular se menciona y para qué se destina la regla.
- El segundo parámetro es allow/disallow, que indica a las arañas si se les permite leer un archivo/carpeta específica o no.
- El tercer parámetro es «sitemap». Definir un mapa de sitio en robots.txt es opcional
Limitaciones del uso del archivo Robots.txt
Como acabo de decir, Robots.txt es sólo un derivado y no un comando. Los rastreadores como Googlebot y Bingbot, que son oficiales, definitivamente seguirán el protocolo definido en el archivo. Pero muchos de los rastreadores que hay en Internet pueden no hacerlo.
La mayoría de los rastreadores que no siguen el protocolo robots.txt son los que, usualmente, los hackers usan para recolectar datos. Echemos un vistazo a la lista de limitaciones del archivo robots.txt:
- Es un derivado que puede o no ser seguido por los crawlers.
- No bloquea el sitio web para que no aparezca en sitios web de terceros.
- La sintaxis de robots.txt puede ser interpretada de manera diferente por diferentes tipos de rastreadores.
Etiqueta de Meta Robots
La etiqueta del meta robots es una meta etiqueta que funciona específicamente para la página en la que se define. Tiene varias opciones disponibles como Index, Noindex, Follow, Nofollow, Noarchive, Nosnippet, NOODP, Noimageindex y Notranslate.
Diferencia entre Robots.txt y Meta Robots Tag
La etiqueta Meta Robots funciona de manera similar al archivo robots.txt pero tiene pocas diferencias.
Robots.txt | Meta Robots |
Es aplicable en todo el sitio | Es aplicable en una página web |
Es un derivado | Es una etiqueta |
Hay pocas opciones disponibles | Hay varias opciones disponibles |
Opciones: Allow/Disallow only | Opciones: Index, Noindex, Follow, Nofollow, Noarchive, Nosnippet, NOODP, Noimageindex, Notranslate |
Es sensible a las mayúsculas y minúsculas | No es sensible a las mayúsculas y minúsculas |
Comparación de Robots.txt vs Meta Robots
¿Cuál de estos debe ser usado?
Como se ha mencionado, robots.txt funciona en todo el sitio mientras que Meta Robots funciona sólo en una página específica, pero tiene más funciones que se limitan sólo a esa página.
Depende de cuál sea el propósito de usar los meta robots o el robot.txt. Debes ser claro con las intenciones para que puedas tomar una decisión de cuándo y dónde se puede usar uno de ellos.
Si este articulo te ha gustado y no quieres perderte ninguno, suscríbete siguiendo este enlace, nada de spam, prometido.
0 comentarios