【科普】搜索引擎的工作原理

发布时间：2016-12-22 11:22:51 所属栏目：建站来源：caoz的梦呓

导读：副标题#e# 有人说，搜索引擎技术似乎不需要本地化，这一看就是彻底不懂这个领域的人讲的。当然，实话说，如果有人说，google在中文本地化方面做得非常好，我是可以部分同意的，同意的比例可能会比google工程师少一些。但我相信google工程师也会告诉你，搜索

第二步，发现这个输入查询最近没有搜索，或者有其他条件的原因必须更新结果，那么会将这个用户输入的词，进行分词，没错，如果不止一个关键词，或者是一句话的情况下，应答程序会又一次分词，将搜索的查询拆成几个不同的关键词。

第三步，将切分后的关键词分发到查询系统中，查询系统会去索引库查询，索引库是个庞大的分布式系统，先分析这个关键词属于哪一块哪一台服务器，索引是一种有序的数据组合，我们用可以用近似二分法的方式思考，不管数据规模多大，你用二分法去查找一个结果，查询频次是log2(N)，这个就保证了海量数据下，查询一个关键词是非常快非常快的。当然，实际情况会比二分法复杂很多，这样说比较容易理解而已，再复杂些不是我不告诉大家，是我自己都不是很清楚呢。

第四步，不同关键词的查询结果（只是按权值排序的部分顶部结果，绝对不是全部结果），基于权值倒序，会再汇总在一起，然后把共同命中的部分反馈回来，并做最后的权值排序。

记住，搜索引擎绝对不会返回所有结果，这个开销谁都受不了，百度也不行，google也不行，翻页都是有限制的。

再记住，如果你多个关键词里有多个不同品类冷门词，搜索引擎有可能会舍弃其中一个冷门词，因为汇总数据很可能不包含共同结果。搜索技术不要神话，这样的范例偶尔会出现。

这是三大部分，多说一点，其实还有第四部分。

用户点击行为采集和反馈部分

基于用户的翻页，点击分布，对搜索结果的优劣做判定，并对权值做调整，但这个早期搜索引擎是没有的，后面才有，所以暂时不列为必备的三大块。

此外，一些对搜索优化的机器学习策略，对易混词识别，同音词识别等等，相当部分也都基于用户行为反馈进行，这是后话，这里不展开。

关于第四部分，我以前说过一个词，点击提权，我说这个词价值千金，我猜很多人并没理解。没理解就好，要不我要被一些同行骂死了。

以上是单指搜索引擎的工作原理，和一些技术逻辑，当然，只是入门级的解读，毕竟再深入就不是我能讲解的了。

但搜索引擎的本地化，并不局限于搜索技术的本地化。

百度的强大，不只是搜索技术，当然有些人会说百度没有搜索技术，这种言论我就不争论了，我不试图改变任何人的观点，我只列一些事实而已。

百度的强大还来自于两大块，第一是内容护城河，第二是入口把控。

前者是百度贴吧，百度mp3，百度知道，百度百科，百度文库

后者是hao123和百度联盟。

这两块都是本地化，google进中国的时候，在这两块都有动作

投资天涯，收购265，以及大力发展google联盟，这些都是本地化。

此外，重申一下，百度全家桶的出现以及，百度全家桶和hao123的捆绑，是360崛起之后的事情，hao123从百度收购到360崛起之前，一直风平浪静的没做任何推广和捆绑，从历史事实而言，请勿将本地化等同于流氓化。

注：相关网站建设技巧阅读请移步到建站教程频道。

（编辑：PHP编程网 - 金华站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

针对网站不收录页面百	建议百度右侧相关搜索
通过竞争对手网站制定	几种正确执行恰当且正