Microformatos, noticias

Los microformatos se emplean para añadir información adicional dentro de un documento html o xhmtl. Existen multitud de microformatos y se emplean para muy diferentes tipos de información, como por ejemplo: definir eventos de calendario hCalendar, tarjetas de presentación de personas, compañias, lugares y organizaciones hCard o para indicar el tipo de licencia que aplica a determinado contenido rel=”license”.

En este pequeño artículo hablaremos del microformato para noticias, hNews. Este microformato esta en estado de borrador, lo que significa que podría no ser definitivo y sufrir cambios. Con este microformato para noticias podemos especificar la siguiente información:

Organización fuente de la noticia (source-org, Source organization), en hCard (otro microformato)
El lugar donde la noticia tiene lugar (dateline, empleando texto a microformato hCard)
Coordenadas geográficas donde situar la noticia (empleando microformato geo)
La licencia de la noticia (license, empleando Licensing que ni si quiera esta en estado de borrador)
Principios (y ética) empleados por la organización que produce esta historia (principles, empleando microformato rel-principles)

Además hNews debe ser codificado como una hentry de hAtom. Realmente ya veremos que sólo hNews, hentry y source-org son los campos obligatorios. Para aclarar esto hAtom es un microformato que se emplea para especificar posts dentro de un blog o de una manera más genérica en cualquier sitio donde se pueda emplear el formato Atom de sindicación. El formato hAtom (que también está en estado borrador como hNews) incluye los siguientes elementos:

hfeed
feed-category
hentry
entry-title \*
entry-content
entry-summary
updated \*
published
author \*
bookmark
tags

El significado de cada elemento es análogo al que tiene el formato de sindicación Atom. Recordad que en hNews sólo se debe codificar hentry, ni hfeed ni feed-category tienen sentido aquí. Además dentro de hentry sólo es obligatorio, además de él mismo, los que aparecen en la lista de arriba marcados con un asterisco (entry-title, updated y author).

La organización fuente de la noticia debe ser codificada como hcard. hcard tiene muchos campos posibles para definir una persona, una compañía o un evento. Pero el único realmente obligatorio es fn

Veamos un ejemplo de noticia en microformato:

<div class="hNews">
  <div class="hentry">
    <h1 class="entry-title">Volcán continúa arrojando ceniza y obstaculiza vuelos</h1>
    <abbr class="updated" title="2010-04-18T23:00:00+01:00">18-04-2010 23:00</abbr> por <strong class="author">Fulanito</strong>,
    <span class="source-org vcard"><a class="url org fn" 
        href="http://espanol.news.yahoo.com/">Yahoo news España</a></span>
    <div class="entry-content>
      <p>La agencia europea de seguridad aérea Eurocontrol dijo que habrá unos 5.000 vuelos el sábado, siendo la cifra normal de 22.000…</p>
    </div>
  </div>
</div>

En el aparecen reflejados todos los campos obligatorios en el microformato hNews a saber: hNwes, hentry, (enty-title, updated y author obligatorios para hentry) y source-org (vcard y fn obligatorios de hCard para especificar source-org).

Matt Cutts entrevistado por Eric Enge

Escribo en este post un pequeño resumen con los puntos más interesantes de una entrevista del 14 de Marzo del 2010 realizada por Eric Enge presidente de Stone Temple Consulting y consultor SEO a Matt Cutts, ingeniero de Google (que supongo que no necesita más presentaciones). Enumero los datos y afirmaciones que me han parecido más interesantes

No existe un límite en el número de páginas indexadas por parte de google de un sitio web. El número de páginas que rastreamos es proporcional al PageRank. Las páginas con más enlaces entrantes son descubiertas y rastreadas por google más rapidamente.

Existe el concepto por parte de googlebot del “host load” (carga del servidor). La carga del servidor es esencialmente el número máximo de conexiones simultaneas que un servidor web en particular puede manejar.

Hay dos factores principales que determinan el rastreo de un sitio por parte de googlebot. Uno es el page rank y otro es la carga del servidor. Page rank y otros factores determinan lo profundamente que googlebot rastreará dentro de un sitio web. Sin embargo es posible que también la carga del servidor influya en este rastreo. Pero también el contenido duplicado. Si google lo encuentra descarta las duplicadas y se queda sólo con una. Además googlebot podría tender a rastrear con menor frecuencia un sitio donde haya mucho contenido duplicado.

Con enlaces procedentes de páginas marcadas como contenido duplicado google intenta mezclar estas páginas como si fueran una sóla (a efectos de link juice que envían) en lugar de eliminarlas completamente. Estos enlaces no necesariamente se pierden.

Evitar identificadores de sessión en URLS. También desde un punto de vista de usabilidad los usuarios tienden a recordar enlaces que son más bonitos y sencillos.

Ahora google tiene la habilidad a través de google webmasters tools de ignorar completamente un parámetro en la URL.

Existe riesgo de que estos identificadores de sesión sean vistos como contenido duplicado. También los enlaces de afiliación con parámetros de seguimiento.

Navegación “faceted” al estilo de Zappos no es muy positivo para googlebot y para los usuarios.

Existe alguna perdida de page rank al emplear redirecciones 301

Es preferible reducir el contenido duplicado que usar rel=canonical. Las páginas que combines mediante el rel canonical no tienen porqué ser completos duplicados, pero deberían ser duplicados conceptuales del mimso producto o estar muy relacionados. Desde diciembre ya se puede hacer rel canonical entre dominios.

Es perfectamente válido tener un rel canonical que apunte a la misma página y también tenerlo implementado para todas las páginas de tu sitio.

Empleamos peticiones HEAD para recoger información sobre imágenes pero no para el resto de recursos.

Javascript: googlebot puede ejecutar algo de Javascript

No emplees page rank sculpting en tu sitio emplea tu tiempo en obtener enlaces valiosos o mejorar el contenido de tu web.

Esta es la entrevista completa (en inglés): Entrevista a Matt Cutts

La cola larga (SEO)

Que sucede cuando creas un nuevo sitio web y pretendes elaborar un estrategía SEO. Lo primero que pretendes hacer es escoger cuidadosamente una grupo de palabras clave para rankear en la página de resultados de google (SERP). Diseñas la páginas y amoldas la estructura de la página (sus enlaces internos y contenido) para tratar de obtener buenos resultados en ellas. Introduces las palabras clave y sus sinónimos en el contenido de tus páginas. Finalmente marcas tus páginas con el código de google analytics y después de unos días miras los resultados.

    Para tu sorpresa detectas que muchas de los términos por los que entra la gente en tu página no son los que esperabas e incluso te preguntas porqué apareces en búsquedas que parecen no tener nada que ver con lo que aparece en tu página (si, el bounce rate, relación de rebote y el tiempo medio que pasan los visitantes en tu página se resiente). Es más tu mismo intentando buscar tus páginas por esos términos dan lugar a resultados en los que ni siquiera apareces.

    Pasado aún más tiempo tus visitantes comienzan a entrar en tu página por los términos que pretendías e incluso detectas nuevas frases por los que entran relacionadas con tus productos y así optimizas nuevamente para estos nuevos términos recién descubiertos y que te parecen interesantes.

    Pero que pasa con esos términos ‘raros’ que aparecían al principio. Pues nada que siguen allí atrayendo visitantes (más o menos interesados en lo que ofrece tu web). A medida que tu web se hace más grande y tiene más contenido el número de términos por los que aparecen en las páginas de resultados también aumenta. No sólo de términos extraños sino otros muchos más relacionados con tu contenido. Tus términos principales son los que optienen un mayor número de visitas pero hay otros muchos que atraen proporcionalmente un número muy pequeño de visitas pero que en su conjunto atraen una cantidad de tráfico muy respetable (aún tal vez con una cota de conversión menor). A todos estos términos se le llama la cola larga. Es fácil ver el porqué, si representásemos el % de visitas que llegan a nuestra web con cada una de nuestras palabras claves ordenadas de mayor a menor veríamos que la gráfica empezaría en valore muy altos, tus keywords principales y caería muy rápidamente ha valores mucho más reducidos pero mucho más largo que estos primeros valores.

¿Porqué el concepto de cola larga se ha vuelto tan importante?

    En primer lugar porqué sumando las aportaciones de cada una de las palabras clave que se encuentran en la cola larga tenemos una cantidad de tráfico muy importante que puede rondar el 25% o más dependiendo del tipo de página. Por ejemplo amazón es el rey de la cola larga. Para dar un ejemplo amazón factura más con pequeños libros que apenas tienen 1 o 2 ventas al año que con toda la saga de Harry Potter.

    En segundo lugar que pasa cuando has conseguido escalar puestos para tus palabras clave principales y ya no puedes subir más o porque has alcanzado la 1ª posición o porqué las páginas que están por encima tuyo parecen inamovibles (wikipedia). Pués que ha llegado el momento en el que debes concentrarte en los términos de la cola larga. Porqué es hay donde puedes mejorar tu número tu número de visitas.

¿Pero como hago para para mejorar mi cola larga?

    Como el número de keywords en la cola larga puede ser realmente gigantesco, obviamente no puedes ponerte a optimizar una por una creando por ejemplo landings específicas para cada una de ellas. Además los keywords de la cola larga pueden variar de manera importante. La única manera viable de obtener una cola todavía más larga es aumentar tu web con contenido de calidad, olvidándote de tus palabras claves principales y sus sinónimos, contenido natural (no optimizado con keywords de ningún tipo) y relevante. Muchas veces se dice que un SEO realmente bueno es el que no lo parece aquí tenemos otros buen ejemplo de esto.

Temas piramidales (SEO)

Una de las estrategias SEO que se emplean para diseñar desde cero un sitio web es el de los temas piramidales. Los estructuración del un sitio web en temas piramidales presenta ventajas no sólo desde el mundo SEO sino también a nivel organizativo y de usabilidad del sitio. Muchos sitios presente una estructura cercana a esta en mayor o menor medida pero al no comprender en profundidad las ventajas de este tipo de estructuración finalmente el sitio pierde estas ventajas a medida que el sitio crece en tamaño.

Los temas piramidales no son algo nuevo que haya surgido hace poco tiempo sino que ya han sido utilizados desde hace años.

Los sitios basados en temas piramidales son más sencillos de mantener, organizativamente facilitan la tarea de encontrar los contenidos que buscas y de optimizan sus el futuras mejoras y mantenimiento debido a su clara organización. Los temas piramidales se basan en concepto de tema.

¿Que es un tema?

Es la base, la idea común, a partir de la cual desarrollamos nuestro sitio. Es el termino unificador que reune todas las partes de nuestro sitio y que puede englobar todo el contenido de nuestro sitio bajo este concepto. Es el keyword que define todo nuestro conjunto de páginas.

Construcción de temas piramidales

La palabra/keyword principal que define el tema principal de tu sitio será la empleada en la página inicial, y todas los niveles debajo de la página principal contendrán variaciones de esta keywords de una manera jerarquizada. Es decir cada keyword debajo de la principal tendrá a su vez otras keywords (niveles) y actuará como englobador o tema común de todas las que se encuentren por debajo y así sucesivamente. De manera que cuanto más profundizaremos en la estructura del sitio encontraremos keywords cada vez más específicas.

Este tema principal estará recogido en nuestra página principal soportado por varios subtemas muy relacionados. Para soportar estos subtemas cada uno de ellos tiene otros temas fuertemente relacionados con este subtema y así seguiríamos a través de varios niveles.

Valor SEO
Sin valor Home page (tema principal)
bajo valor SubtemaA SubtemaB SubtemaC SubtemaD
medio valor kw a1 kw a2 kw b1 kw b2 kw c1 kw c2 kw d1 kw d2
alto valor ka1a ka1b ka2a ka2b ……….
Dinero $ $ $ $ $ $ $ $ $ $ …..

La teoría de los temas piramidales implica ver al sitio como un todo compartimentado. Comenzado por un contenedor que englobe a todo el sitio tema principal y diseñando subtemas nivel tras nivel para abarcar todo el contenido del sitio. Enlazar cada tema arriba y abajo pero no a través de los temas con diferentes temas padres (esto reforzara las páginas y la popularidad del enlace). Estructura vertical de enlaces NO HORIZONTAL.

Cosas importantes en el diseño de un sitio estructurado en temas piramidales, en cada nivel:

1. La pagina principal APENAS tiene valor SEO. Raramente ranquea bien y tampoco es algo que nos deba preocupar demasiado. Una página principal bien ranqueada con una estructura de este tipo es la excepción y no la regla. Si ranquea bien es generalmente debido a factores externos (off-the-page). Sus únicas funciones es ser usable para los visitantes y servir de alimento(enlaces a los niveles inferiores) a los buscadores que visitan tu sitio web. Intenta también colocar enlaces tan profundos como puedas a los buscadores les gusta el contenido de primer nivel sobre todo en keywords que te interesan especialmente.

2. Para el segundo nivel el valor SEO es más importante pero lo más importante aquí, es también colocar enlaces a los niveles más profundos de tu sitio web y no sólo al siguiente. Enlaces verticales dentro de este subtema arriba y abajo. No horizontales.

3. Valor SEO importante la distinción entre los niveles 4 y 5 puede ser confusa. Suele contener términos muy competitivos y de posicionamiento difícil. Algunos de los enlaces entrantes deberían proceder de la home page.

4. Suele tener el contenido básico de calidad del sitio. Enlázalo verticalmente. Si enlazas con sitios externos procura que sea también contenido muy relacionado.

5. Habitualmente las páginas que traen el dinero. Enlázalo con todas las páginas de sus niveles superiores

Con toda esa pirámide de keywords el impacto en el posicionamiento de estas keywords será muy importante pues cada una de ellos reforzará a cada una de las demás.

Ventajas temas piramidales:
1.-Es sencillo tener un sitio web organizado y centrado en el tema principal, a veces cuando un sitio web crece esto se vuelve algo complicado.
2.-Una correcta organización en temas te permite obtener una diferenciación clara entre las distintas partes de tu web y abarcar keywords especificas y sus variaciones en diferentes secciones.
3.-Una buena organización en temas tiene un impacto positivo en la selección, fuerza y posicionamiento de tus keywords.
4.-Una web estructurada en temas piramidales está preparada para el futuro. Los buscadores tienen un estructura organizada, limpia y con términos relevantes que no van a eliminar de sus bases de datos.
5.-Un web estructura así te permitirá ahorrar tiempo en el futuro
6.-Muchos de los buscadores actuales usan temas para sus algoritmos de posicionamiento

Buscadores basados en temas, ¿como funcionan?

La diferencia principal es que un buscador basado en temas visita las páginas de tu sitio web y las indexa en conjunto no una a una a media que las va visitando. El buscador basado en temas examina y pondera tu sitio web como un todo en lugar de hacerlo en cada página individualmente. Con este tipo de indexación es más difícil que una página aislada en una web no estructurada en temas obtenga un buen posicionamiento para una keyword que un sitio entero que hable de esta keyword y que reciba y tenga enlaces de keywords muy relacionadas.