标签:  网络推广方法 

搜索引擎面对的挑战

搜索引擎系统是复杂的计算系统之一,当今主流搜索引擎服务商都是财力,人力,技术雄厚的大公司。即使是实力雄厚的大公司,也还是要面临很多技术挑战。

总的来说,搜索引擎主要面临以下几方面的挑战。

1、页面抓取需要快而全面

互联网是一个动态的内容网络,每天有无数页面被更新、创建、无数用户在网站上发布内容、沟通联系。想要返回最有用的内容,搜索引擎就要抓取最新的页面。但由于页面数量巨大,搜索引擎蜘蛛每更新一次数据库中地页面都要花很长时间。

主流的搜索引擎能在几天之内更新重要页面了,高权重网站上的新文件在几小时甚至几分钟之内就会被收录。不过,这种快速被收录和更新的情况也只局限于高权重网站,很多页面几个月不被重新抓取和更新也是常见的。

2、海量数据存储

搜索引擎蜘蛛抓取页面后,还必须有效的存储这些数据。

除了页面数据,搜索引擎还需要存储页面之间的链接关系和大量历史数据,这样的数据量是用户无法想象的。据估测,百度有三四十万台服务器,Google有几十个数据中心,上百万台服务器。这样大规模的数据存储和访问必然存在很多技术挑战。

我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就会看到不同的排名,有的时候网站数据也可能丢失。这些情况有时候与大规模数据存储、同步的技术难题有关。

3、索引处理快速有效,具有可扩展性

搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行PR值之类的迭代计算也是耗时费力的。要想提供相关又及时的搜索结果,仅靠抓取是没有用的,还必须进行大量的索引计算。由于随时有新数据,新页面加入,索引处理也要具备很好的扩展性。

4、查询处理快速准确

查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入查询词,点击搜索按钮后,通常不到一秒,搜索结果页面就会显示相关、质量高、有用的信息,并按照相关性、权威性排列。

这考验了搜索引擎怎样在不到一秒的时间内,从可能多达上亿个包含查询词的页面中,快速找到最合适的页面并计算排名。

5、准确判断用户的搜索意图

搜索引擎目前下在致力于基于对用户搜索习惯的了解、历史数据的积累,在语义搜索技术的基础上,判断搜索意图,返回更相关的结果。


您可能还会对下面的文章感兴趣:

    cache
    Processed in 0.005647 Second.