Yahoo搜索引擎的网络蜘蛛程序是公认最勤快的一个,可是数据库更新速度不敢恭维。Guagua的一个网站改版5个月了,Yahoo竟然还大量保存着旧网页,新网页收录量也老不见增长。查看蜘蛛访问日志,yahoo每天爬的比google还多……昏~
在搜索引擎的竞争中,yahoo拥有和google相当的网页排名技术,可是在“数据新速度”这个对用户体验非常重要的问题上,yahoo的技术处理未免太草率了。我们知道,搜索引擎在更新网页数据时首先会找出相关参数(如:网页生成日期)与已存储的网页数据进行对比,如果达到一定条件就更新该数据,否则就跳过不处理。 很明显,Google在处理这个问题时细致的多,它可能比雅虎分析了更多的参数,因而可以更加精确的比较出url指向的网页是否已经更新,有没有更新排名数据库的必要。Yahoo 设定的更新门槛肯定比google要高,所以它爬网页爬的勤快,网页收录量就是不增长。雅虎是应该反思一下了。
深圳 2008 12-06