首页 理论教育 用自然语言测试搜索引擎的介绍

用自然语言测试搜索引擎的介绍

时间:2022-10-13 理论教育 版权反馈
【摘要】:每一个人都可对搜索引擎进行一些如测试抓取时间、用关键词或自然语言搜索查找是否方便、快捷等。图4.5用一个帖子测试搜索引擎笔者在2012年7月22日在天涯论坛上发了一篇帖子,是谈大连海洋大学的运动场栏杆频频被人损坏,随后发生一系列工人师傅与破坏者之间反复斗争的故事。

每一个人都可对索引擎进行一些如测试抓取时间、用关键词或自然语言搜索查找是否方便、快捷等。下面演示几个例子。

4.4.1 实例1:搜索帖子

首先,你应当在一些比较正规的网站如大学的BBS、知名论坛之类的网站上发表一篇有一定分量的帖子,转载也可以,但不能是那种“顶一个”之类的简单跟帖。因为搜索引擎的蜘蛛所抓取的网站应该是有它的抓取“权值”的,大学校园的言论一般比较有价值,因此机器人也抓取较为频繁。

图4.5 用一个帖子测试搜索引擎

笔者在2012年7月22日在天涯论坛上发了一篇帖子,是谈大连海洋大学的运动场栏杆频频被人损坏,随后发生一系列工人师傅与破坏者之间反复斗争的故事。其标题为“硝烟弥漫的操场栏杆之战”。图4.5是当时以及一年之后查找该帖的记录情况。

从图4.5可知,该帖是2012年7月22日10:59发表在天涯杂谈上的(见图(1)),当天下午4:30用检索词“硝烟弥漫 大连海洋大学”搜索百度,得到图(2),显示时间为“5小时前”,可见该帖页面在发表之后大约30 min后就被蜘蛛大侠抓取了。之后又用谷歌搜索该帖,也能搜到(见图(3))。图(4)显示说明在时隔1年后,用同样的检索词得到600多条记录,但是一连翻到20页都没能搜到,于是改用更为详细的自然语言“硝烟弥漫的操场栏杆之战 大连海洋大学”在百度中搜索,结果该帖在第一页就出现了。“2013-6-21”表明百度在该日又对此网页作了一次快照。

此例说明,百度的搜索机器人大约在30 min内对新鲜网页进行抓取。

4.4.2 实例2:搜索短文

这里有一篇短文,笔者在多年前某报纸上曾看见过,但只记得文章名和作者为“请假与预约 叶剑洲”。用篇名在百度搜索得到238万条记录,这样,连续翻页已无必要,于是添加作者名,输入“请假与预约 叶剑洲”得到14条记录,其中头3条记录都为命中,只是发表或转载地方不同而已。见图4.6。

图4.6 用自然语言搜索一篇短文

此例中,“请假与预约”不能说是一个关键词,可见即使是用自然语言检索,也能多加词语进行限定,类似于使用两个关键词的组合检索。这篇短文实际上可看作一个逻辑小故事。请读者自行搜索该短文并回答它涉及哪一种逻辑错误?(答案:NOT逻辑)

4.4.3 实例3:选用合适的搜索引擎

欲查英国德温特专利索引(WPI)的创始人Monty Hyams先生的生平报道和照片,使用百度却一无所获,改而使用微软的必应进行网页搜索,则得到53 000多条记录(见图4.7)。可知,百度主要是擅长针对中文的信息搜索为主。

图4.7 检索英文人名适合用“必应”搜索引擎

【思考·练习·讨论题】

1.互联网信息资源按信息检索工具类型划分,有哪些种类?

2.互联网的信息组织方式是什么?

3.简述搜索引擎的工作原理和主要功能。

4.搜索引擎的一般检索技术有哪些?

5.简述百度的主要搜索功能。

6.试着在BBS或某个论坛上发表帖子或博文,然后在之后1 h内不停地用百度搜索该文,直到找到为止,计算搜索机器人花了多少时间将你的博文加入庞大的索引数据库中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈