Mejora de la relevancia semántica por SEO, comparativa de algoritmos

¿Shingles?

Esta presentación fue realizada para las jornadas de Periodismo de datos y Open data que tuvieron lugar en Madrid el 6 de junio de 2015 en el Medialab-Prado. Se trata de enseñar datos estadísticas del idioma español (fuente: Real Academia Española) así que ejemplos de análisis semánticos de documentos elaborados con el cálculo vectorial llamado "Shingles".

El resultado coge la forma de una nube de expresiones extraídas del texto editorial de la página analizada.

Ejemplos de Shingles de documentos textos 

El análisis semántico de los documentos abajo esta hecho en base al recuento de expresiones entre 2 y 5 palabras distintas (excluimos stopwords) que se reptien al menos 3 veces.

Análisis de la relevancia SEO 1984 de Georges Orwell Análisis de la relevancia SEO La gaviota de Anton Chejov Análisis de la relevancia SEO Maria Dolores de Cospedal Análisis de la relevancia SEO Pedro Sanchez

Conocer toda la red es difícil

  • La red mundial contiene más de 60 trillones de páginas… y se expande unos 11 millones de páginas adicionales todos los días

  • Si se quisiera ver cada página una vez por día, habría que rastrear 1.902.587 de páginas por segundo

  • Cada año 912.500.000.000.000.000.000 octetos de información son publicados en el mundo. Es decir, 912,5 exaoctetos por año (estimación hecha en 2012 por IBM)

  • Casi el 30% de la red mundial es contenido duplicado

Comunicar con palabras es ambiguo

(fuente Diccionario inverso de la Real Academia Española)

  • 93.077 palabras (lemas) en el diccionario de la RAE

  • Algunas palabras son omnipresentes: El + de = 13,11% de las palabras del Corpus de Referencia del Español Actual (57.697 entradas)

  • 15,17% de palabras está en desuso (aparecen en el diccionario 14.128 acepciones en desuso repartidas en 11.327 entradas)

  • 72,06% de las palabras no aparece casi nunca en la lista de frecuencias del Corpus

  • 10.000 palabras forman el 98,63% del Corpus

  • En la vigésima tercera edición del diccionario hay 1.337 nuevos lemas (variación leve de +1,44%)

  • Los cinco lemas más largos del diccionario son contencioso-administrativo, electroencefalografista, in pártibus infidélium, esternocleidomastoideo y electroencefalográfico.

Clasificar es costoso

  • Google invirtió en 2013, 1.600 millones de dólares en solo 3 meses para centros de datos

  • Hoy un centro de datos consume 50 MW al año (una ciudad de 50.000 personas). En 2011, había 40 centros de datos. Serían 2.000 MW, es decir 2 centrales nucleares o 1.500 turbinas eólicas

  • El tráfico de los centros de datos de Google representa el 7% del tráfico de la red mundial

Responder rápidamente es fundamental

  • En 2011, Kyle Rush, de la campaña presidencial de Barack Obama, enseñaba que una bajada de 3 segundos del tiempo de carga (5 a 2 segundos) aumentaba el volumen de donaciones en un 14%

  • Amazon calculó que tenía una pérdida anual de 1.600 millones de dólares por cada segundo adicional en el tiempo de carga

  • Google trata entre 30.000 y 40.000 búsquedas por segundo y tiene un promedio de respuesta de 1/8 de segundo (0,125 segundos). Empeorando su tiempo en 0,4 segundos pierde 8 millones de búsquedas por día

Consecuencias

Buscadores

  • Obligación de trabajar en paralelo
  • No se debe mirar la misma página varias veces
  • Hay que evitar duplicidades

Webs

  • Responder rápidamente
  • Tener autoridad
  • Presentar contenido útil
  • Excelente nivel de redacción
  • Contenido correctamente clasificado
  • Enlazar documentos similares

El concepto de relevancia semántica

La relevancia es un concepto semántico difícil de definir. Dentro de páginas web, nos gustaría ser capaces de encontrar contenidos similares a la búsqueda del usuario. Para esto, nos gustaría ir a cada página y luego comprobar todas las demás para hacer un matching y una valoración. La capacidad del sistema para ordenar los resultados de una búsqueda, basado en el grado de similaridad entre cada documento de la colección y la consulta, se llama relevancia parcial. La ponderación de los términos en los documentos, no limitándose a señalar la presencia o ausencia de los mismos, permite asignar a cada término en cada documento un número que refleje su importancia en el documento. La ponderación de los términos en la consulta, asigna pesos a cada palabra de la consulta que reflejen su importancia en relación a la necesidad informativa. Examinamos 3 métodos de análisis semántico:

  • Hashing
  • Bolsa de palabras
  • Shingles

Shingles

El problema con el "Hashing" o la "bolsa de palabras" es que no tiene en cuenta el contexto de las palabras. En particular, las palabras que rodean las otras palabras de la página. Por tanto, en lugar de simplemente tratar cada página de una web como una bolsa de palabras, vamos a considerarla como un conjunto de expresiones de varias palabras imbricadas. Este método (en base a un cálculo algorítmico) se conoce como “Shingles” porque cada frase se superpone a sus vecinas, al igual que las tejas de un tejado.

Análisis relevancia SEO calculo shingles

Conclusión

Este calculo de relevancia de documentos textos por SEO solo es un ejemplo y no tiene la pretención ser una análisis semantico exhaustivo. Sin embargo, nos parece relevante trabajar con estos modelos de interpretación cuando trabajamos sobre webs voluminosos. Efectivamente, calculando la relevancia de una base de datos de crawl categorizada por tematicas, se puede facilmente determinar cual es su alineación semántica.