Por lo que cuentan en su blog, CommonCrawl esta usando la «harmonic centrality» a la hora de dar un ranking de hostnames y websites explorados, y decidir cuales explorar a continuacion. Curiosamente con esa medida se cuela en el top 1000 el instituto de astrofisica de canarias.
Domcop calculó un «open pagerank» a partir del CommonCrawl en el 2017, no esta claro si esta recalculandolo de cuando en cuando, pero ofrece una lista de top 10 M sites. Es una alternativa interesante a la de alexa.
El CC en si no esta indexado, pero Paul Masurel, un antiguo trabajador de Exalead, estuvo hace poco enredando con un indexador escrito en RUST, y no parecia descabellado.
Para obtener informacion colateral, relacionada con el numero de paginas indexadas por google para una palabra clave o un sitio web, igual no es despreciable el uso de los custom engines de google.
RELATED: https://news.ycombinator.com/item?id=19604135 recomienda algunos engines
http://www.seobythesea.com/2018/04/pagerank-updated/ sobre las nuevas patentes de google
Deja una respuesta