Esta entrada tiene más de 32 meses,
quizá las informaciones que contiene no siguen vigentes.

Monitorear páginas web con Yahoo! Pipes

Monitorear páginas web con Yahoo! Pipes
Lectura : +/-5 min

 

Una de las cosas más recurrentes cuando uno quiere ser el primero en enterarse de las ultimas noticias en el sector que le interesa es monitorear la web y eso se puede hacer de muchas formas o con una solución de pago, que suelen funcionar bien y son sencillas en su uso, o de forma gratuita pero generalmente se tratan de servicios que se quedan un poco cortos con los ajustes posibles.

Pero no todas las herramientas gratuitas son sencillas y una de las más potentes por no decir la más potente es sin duda Yahoo! Pipes (YP) que no es nada nueva, es de 2007 y en la actualidad sigue funcionando. Es una herramienta potente pero que puede resultar algo desconcertante la primera vez que se utiliza.

Yahoo! Pipes nos permite hacer lo que sea con las fuentes RSS y más concretamente:

  1. Añadir letras, palabras, signos… delante o detrás del RSS final
  2. Cambiar palabras por otras
  3. Rechazar o aceptar las entradas que contienen cierta palabra o palabras
  4. Ordenar por fecha, autor, titulo, …
  5. Filtrar para impedir los dobles
  6. Filtrar por localización geográfica
  7. Un barbaridad de cosas más…

Primer paso

Como todos servicios, lo primero que hay que hacer es registrarse. Antes era posible registrarse mediante cuentas Yahoo!, Google o Facebook pero desde unos meses, la llegada de Marisa Mayer en Yahoo! cambio las cartas y solo se puede registrar con una cuenta Yahoo!.

Una vez registrado al servicio, la primera pantalla que nos enseña YP se parece a un cuaderno de alumnos con un fondo cuadriculado y un menú desplegable con varias entradas en la parte izquierda. El más fácil de usar es sin duda el ‘fetch feed’ que vamos a arrastrar en la parte de la derecha. ‘fetch feed’ se despliega y tenemos que indicar una fuente RSS (no una página web) y luego conectar esta ventana con ‘pipes output’.

Enhorabuena, sola falta guardar el Pipe, darle un nombre y lanzarlo para ver el resultado. A notar que se pueden añadir varias fuentes a la vez para obtener un resultado final más amplio en un solo RSS.

En las herramientas de la columna de izquierda, uno de los más interesantes es sin duda los ‘operators’ con los que se puede hacer:

  1. Regex > cambiar una palabra por otra en el resultado final
  2. Filter > Permitir o bloquear fuentes que contienen o no una palabra determinada
  3. Sort > ordenar los resultados del más reciente al más antiguo (por titulo, autor, fecha, ….)
  4. Unique > Filtrar los dobles (por título, autor, fecha, ….)

Se puede también fabricar un motor de búsqueda personalizado como en estos 2 ejemplos.

Pipe Test 1

Pipe Test 2

Buscar y fabricar sus fuentes RSS

A este punto, todo el mundo puede utilizar los Pipes, solo hace falta buscar fuentes interesantes que se pueden encontrar de varias manera:

  1. Ver el icono RSS en una página web y recuperar su dirección
  2. Buscar en los directorios de fuentes RSS
  3. Pedir ayuda a Google
  4. Pedir ayuda a Bing o Yahoo!

Las 2 primeras opciones son muy sencillas, las 2 siguientes son algo más desconocidas aunque realmente interesantes mientras los motores de búsqueda las indexan.

Buscar una fuente RSS en Google

Existe un operador muy sencillo: ‘inurl:’. Para buscar una fuente RSS, se tiene que añadir una palabra clave así que los términos buscados en la URL de este modo, por ejemplo, ‘palabra clave inurl:rss.xml’ y google os indicara las fuentes pero a veces falla un poquito y los resultados no son todos fuentes.

Buscar una fuente RSS en Yahoo! o Bing

Los 2 comparten las mismas fuentes así que es inútil buscar en uno y en el otro. Yahoo! y Bing son bastante más fiables a la hora de buscar fuentes y es más sencillo, solo hace falta buscar con el operador “feed:” como, por ejemplo “feed:chocolat” par obtener las URLs de la fuentes en relación con la palabra buscada.

Fabricar fuentes RSS a medida

Muchas páginas web tiene un RSS pero no todas por varias razones:

  1. Prefieren que los internautas vengan el su página en lugar de leer los RSS
  2. Nos les gusta que se les roben sus informaciones para publicarlas en otras paginas
  3. No se ven las publicidades (aunque sea posible)
  4. No quieren que sus artículos se conviertan en ‘Fast food’
  5. ….

Cada uno tiene sus razones sin embargo es posible fabricar fuentes a partir de (casi) todas las páginas web. Una de las posibilidades es usando el filtro ‘XPath’ de YP e indicando que tipo de información tiene que buscar YP. Ahora, creo que todos los navegadores tienen un atajo para saber fácilmente el Xpath de datos en una página web con el menú contextual del clic derecho ‘inspeccionar elemento’ y seleccionándolo, ‘copiar XPath’. Los que nos quieren complicarse la vida pueden también pasar por servicios online como:

Hay unos mejores que otros según las paginas y a veces se bloquean un poco pero resultan prácticos.

Las posibilidades de YP son enormes y se puede hacer cualquier cosa, de monitorear la web a buscar fotos/noticias de una zona geográfica determinada pasando por la reestructuración completa del formato del resultado final y los más ‘hambrientos’ vincularan YP con IFTTT para tener todas las informaciones que les interesa antes que los demás.

Existen un montón de tutoriales en la web que enseñan cómo utilizar YP, muchos de ellos demasiados sencillos o demasiados confusos y lamento decir que el del video de abajo es muy incompleto pero enseña las bases por un caso concreto de búsqueda. Uno de los mejores tutoriales son visibles en esta página pero son todos en francés.

Quizá te guste

Compartir