Google considera el porcentaje de contenido duplicado como un factor importante.

por Conexion Marketing

John Mueller de Google respondió recientemente a una pregunta sobre si Google usa un porcentaje específico de duplicación de contenido como umbral para identificar y filtrar contenido duplicado.

¿Qué cantidad representa duplicar el contenido en términos de porcentaje?

La charla se inició en Facebook cuando Duane Forrester (@DuaneForrester) preguntó si alguien tenía información sobre si algún motor de búsqueda ha compartido un porcentaje de coincidencia de contenido en el que se considera duplicado.

Bill Hartzer consultó a John Mueller a través de Twitter y recibió una pronta respuesta por parte de él.

Bill publicó un mensaje en Twitter.

“Saludos @johnmu, ¿Existe un porcentaje que indique la cantidad de contenido duplicado?”

Por ejemplo, ¿sería conveniente esforzarnos por garantizar que las páginas en nuestro sitio sean al menos un 72.6 por ciento diferentes de las demás páginas?

¿Google lo está midiendo?

John Mueller de Google dio una respuesta.

No existe una cifra (y de todas formas, ¿cómo se puede medir?).

El usuario JohnMu compartió un enlace en su cuenta de Twitter el 23 de septiembre de 2022 relacionado con el maíz.

¿De qué manera identifica Google el material que se ha duplicado?

Durante mucho tiempo, Google ha mantenido una metodología constante para identificar contenido duplicado.

En el año 2013, Matt Cutts, quien era ingeniero de software en Google en ese momento, compartió un video oficial de la compañía explicando el proceso mediante el cual Google identifica el contenido duplicado.

El video empezó afirmando que es común encontrar una gran cantidad de contenido duplicado en Internet.

Es fundamental tener en cuenta que alrededor del 25% o 30% del contenido en internet es duplicado.

LEER  Explorando en la versión 22: Google presenta 9 nuevas funcionalidades de compras.

La gente suele mencionar un fragmento de un blog y luego compartir el enlace al blog, entre otras acciones similares.

Él siguió explicando que, dado que gran parte del contenido duplicado es inocente y no tiene la intención de engañar, Google no castigará ese tipo de contenido.

Castigar páginas web por tener contenido duplicado podría impactar negativamente la calidad de los resultados de búsqueda.

La acción que realiza Google al detectar contenido duplicado es:

Intentar reunir todo y considerarlo como una sola unidad de información.

Matt siguió hablando.

“Es importante organizarlo de manera adecuada y verificar que esté preciso”.

Se explicó que Google decide qué página mostrar en los resultados de búsqueda y elimina las páginas duplicadas con el fin de mejorar la experiencia del usuario.

Cómo Google maneja el Contenido Duplicado en el Año 2020.

En 2020, Google lanzó un episodio del podcast Search Off the Record donde se discutió el mismo tema usando un lenguaje muy parecido.

Aquí se presenta la parte importante de ese podcast a partir del minuto 6:44 en el episodio.

Gary Illyes: Ahora concluimos con el paso siguiente, que se trata de la canonicalización y la identificación de contenido duplicado.

Martin Splitt se pregunta si la detección de contenido duplicado es igual a la canonicalización.

Gary Illyes menciona que el proceso no es tan simple, ya que primero es necesario identificar las páginas duplicadas y agruparlas, reconociendo que son similares entre sí. Luego, se debe seleccionar una página principal que represente a todas ellas.

Eso se refiere a la canonicalización.

En consecuencia, se cuenta con la duplicación, que abarca todo el concepto, mientras que dentro de ella se encuentra la formación de grupos, como la formación de grupos duplicados y la canonización.

LEER  Microsoft Bing está implementando un generador de imágenes con inteligencia artificial.

Gary a continuación detalla de manera técnica el proceso mediante el cual llevan a cabo esta tarea. En resumen, Google no se enfoca en porcentajes precisos, sino que compara checksums.

Se puede afirmar que una suma de verificación es una forma de representar el contenido mediante una serie de caracteres alfanuméricos. Por lo tanto, si el contenido se duplica, la secuencia de caracteres de la suma de verificación será idéntica.

De acuerdo a la explicación de Gary.

Por lo tanto, en la detección de duplicados, lo que intentamos hacer es identificar duplicados.

Manera común de realizarlo en otros motores de búsqueda es reducir el contenido a un hash o checksum para luego comparar las sumas resultantes.

Gary explicó que Google elige esa forma porque es más sencilla (y claramente precisa).

Google identifica contenido duplicado mediante análisis.

Por lo tanto, al referirse al contenido duplicado, suele no tratarse de un límite porcentual específico en el que se determine que el contenido es duplicado.

En cambio, la detección de contenido duplicado se realiza mediante la creación de una representación del contenido en forma de un valor de comprobación, el cual es luego comparado con otros valores de comprobación.

Otra perspectiva a considerar es que se nota una diferencia entre duplicar parte del contenido y duplicar todo el contenido.

Imagen principal proporcionada por Shutterstock/Ezume Images.

Related Posts

Deja un comentario