成都公司:成都市成华区建设南路160号1层9号
重庆公司:重庆市江北区红旗河沟华创商务大厦18楼
搜索引擎核心技术的演进
● 上个世纪70年代,著名的信息检索专家Gerald Salton提出了向量空间模型(Vector Space Model),从此,文本检索引入了倒排索引(Inverted index)以及向量空间模型。另外,他还创立了基于贝叶斯统计(Bayesian statistics)的布尔方法(Boolean retrieval method)和简单概率获取模型(Simple probabilistic retrieval models)。虽然已经经过了近30年的历史,这些技术至今仍然构成当今信息检索系统以及互联网搜索引擎的理论基础。
● 上个世纪80年代,在新的人工智能技术的发展同时,产生了一些模拟专业文献搜集者和领域专家的专家系统。使用了对用户建模以及自然语言处理等技术来辅助对于用户和文档的表示。并且产生了一些供研究用的原型系统。

● 上个世纪90年代初期,当研究者们认识到了创建领域知识库的困难之后,试图采用新的机器学习技术用于信息分析。这些技术包括神经网络、遗传算法、符号学习等。概念语义空间技术就是在这个年代提出的,但当时处于初步研究探索阶段。
● 上个世纪90年代中期之后,随着搜索引擎的普及以及网络Spider(蜘蛛程序)超链分析等技术的发展,文本检索系统已经成为更新的并且更强大的用于网络内容的搜索工具。概念语义空间技术的研究取得突破,并在美国的数字图书馆领域得到应用。
● 在过去10来年,统计学习方法改变了手工建立语法和知识库以及文本目录索引的状况,通过对大量已标注的和未标注的自然语料的训练可以部分或全部自动地完成上述过程。 (ccw)

