附录:
搜索引擎技术的负面影响
一个抓取了全球几乎全球网页的搜索引擎将会带来怎样的社会效果?随着搜索引擎技术的发展,我们的行动和个人信息可能会以前所未有的速度被泄漏出去,这时我们的意思是否会被进一步侵犯?在搜索引擎技术获得更为广泛的应用之前,我们必须回答这些问题以及其他一些问题。
隐私拥护者的一个主要担忧是,搜索引擎能自动爬取一些个人网站不愿意公布的信息,而且可以成为商业上竞争对手收集相关资料的重要来源。合法的搜索引擎(比如GOOGLE)也能通过电子商务网站无意留下的漏洞以及隐患,成功钻进那些本应该绝对保密的服务器内探访一番,然后再公然将大量有用最新数据成功“带走”。由于GOOGLE属合法网站,因此遭“偷袭”的服务器根本不会发出警告。大量资料在不经意间被外人成功“复制出门”。在GOOGLE的帮助下,世界各地的“黑客们”只要具备一定的搜索技巧和足够的耐心,就能更加轻松地从合法免费资源库上获取大量重要信息。因此,提高商业网站的安全防护意识成为世界各地网络运营商以及用户关心的共同话题。
另一个担忧是搜索引擎由于商业活动的不断深入,使得诸如竞价排名等活动充满了金钱的色彩,而这也可能会带来欺骗行为。为了获得更好的位置,很多人开始研究搜索引擎的排名机制并通过作弊的形式来提高自己的排名。而搜索引擎厂商也为了获得更好的商业利益可能忽视用户的利益,过于干涉搜索结果的排列顺序。
同时,我们不可避免的要碰到如下问题:很多学生将搜索引擎当作直接获得答案的途径,原来可能需要查阅很多书籍才能获得答案的过程现在变得更为简单,但这样也使得学生太过于依赖搜索引擎,并有可能通过检索来进行抄袭和模仿。
搜索引擎面临的技术挑战
基于语义的多媒体搜索技术还不成熟,比如搜索图片的时候还只能通过周围相关的文字来进行判断,而无法根据图片本身的信息提供检索。像微软亚洲研究院等研究部门在对图像的识别方面做了很多工作,但还没有达到工业界实用的地步。
搜索引擎的关键词很容易只输入一个或者更少的,搜索引擎无法理解用户真正的搜索需求,因此只能将各种结果全部排列出来。自动聚类技术虽然在处理这方面的方面做了一些尝试,但并没有给用户留下更深的印象。而嵌入用户机器了解用户经常搜索需求的Cookie等技术由于隐私方面的问题还没有得到更好的接受。
l由于网络上更多的资源和有用的资料以数据库的形式存在,而搜索引擎的蜘蛛在爬这些动态网站的过程中很容易陷入死循环,很多搜索引擎都对深度做了限制,这也使得搜索引擎能够获得的数据量据乐观统计也还不到整个网络数据量的30%。
l搜索引擎现在仍然需要依赖于浏览器为载体提供检索服务,这大大限制了搜索引擎的可使用范围。而基于无线的技术还在尝试中。
搜索引擎需要的人才的技术领域:
算法
人工智能
编译优化
计算机体系
计算图形学
数据压缩
数据采集
文件系统设计
基因算法
信息获取&情报
机器学习
自然语言处理
操作系统
调优技术
机器人技术