维普资讯 http://www.cqvip.com 网络信息检索工具的分类体系 网络信息检索工具发展的方向与提高竞争力的途径(连载三) 张琪玉 1 分类体系对网络信息检索工具质量的影响 的原因。 1.1 分类浏览检索功能是网络信息检索工具的主 分类浏览检索途径的优点在于:分类体系结构 要检索功能 具有“物以类聚”、“鸟瞰全貌”、“触类旁通”的作用, 目前研究网络信息检索工具的大部分文献.把 可以把内容庞杂、种类繁多的网上资源有系统地组 网络信息检索工具划分为检索型和目录型两种基 织起来,用户能很方便和有效地系统掌握与利用一 本类型。所谓检索型检索工具,是指提供关键词检 个学科或专业范围或主题领域的知识和信息,即使 索途径的检索工具;所谓目录型检索工具,是指提 未掌握检索原理和技巧的用户,也能通过从大类到 供分类浏览检索途径的检索工具。但实际上,单纯 小类到细目的逐层深入,比较容易检索到与其检索 的检索型检索工具和单纯的目录型检索工具目前 目的具有针对性的网络信息资源;分类体系的“透 并不多见,绝大多数的网络信息检索工具都提供以 明度”较高,用户通过分类浏览常可“发现”他所需 上两种检索途径,是混合型的检索工具。 要但并不知道该事物名称的信息,不像关键词检索 分类浏览检索与关键词检索在检索性能上是 必须首先确知所需信息相应事物(或主题)的名称, 互补的,这是为什么混合型的检索工具占绝大多数 才能人手检索,或者说,不知道名称的新事物、新知 窗口服务,基础工作包括藏书建设、书刊分编、信息 包括服务基础工作、服务态度、服务方式、服务技 整理等。包括文献的保障率;新书提供的周期;参考 巧、礼貌礼仪、语言举止等。三者相辅相成,互相依 咨询服务的查全率和准确度;网络服务的便利与高 存、互为条件,形成一个整体。读者的主观感受是评 速。 价图书馆服务的主要标准。为此,文明服务的建设 2.2.4 读者评价。读者的评价是对图书馆服务考 必须具有整体观念,软件、硬件要一齐抓,并建立完 核的重要方法。是否重视读者的意见与投诉是检验 善的检查督促和评估体系。 文明服务的试金石。包括读者满意率;读者投诉的 渠道是否完善、通畅;读者的表扬是否能及时调查 参考文献 落实,并给予相应的奖励。 l 中共中央.公民道德建设纲要 2.2.5 服务效益。服务效益是图书馆服务全过程 2 周祖城.管理与伦理.清华大学出版社,2000.6 和结果的一种综合体现,图书馆至少每年应每年进 3 韩依林.关注你的“读者满意度”.经理人,2000(4) 行一次自评。包括读者流量的统计及抽样调查;服 4 程亚男.书海听涛——图书馆散论.北京图书馆出版 务效果的收集及社会综合性评价。 社.2001.4 总之,图书馆文明服务由书刊收藏的数量与质 (作者信息:深圳南山图书馆,研究馆员,邮编:5l8052 收稿 量、工作质量和环境质量三个方面构成。书刊和环 日期:2002—05—09。) 境是图书馆的服务的硬件条件,工作质量是软件, 2002-#-g 4期江苏图书馆学报——圈 维普资讯 http://www.cqvip.com 识,通过关键词检索途径往往是难于检得的;再有 总之,从分类浏览检索与关键词检索的比较中 一点是,网络信息检索工具供分类浏览的网络信息 可看出,能在信息海洋中真正起导航作用的是分类 资源几乎都是经过人工筛选和人工标引的,所以检 浏览检索功能,对关键词检索功能的恰当评价应是 得的网络信息资源质量较高。 作为分类浏览检索功能缺陷的补充。 分类浏览检索途径也有局限性,主要是:自动 1.2 分类体系的质量对网络信息资源分类组织质 分类目前还不够成熟,加之信息资源的质量控制更 量的重大影响 无法实现自动化,故绝大多数检索工具都只能采取 如果说,能在信息海洋中真正起导航作用的是 人工筛选和人工分类方式建立供分类浏览检索用 网络信息检索工具的分类浏览检索功能,那末,发 的数据库,建库成本高,时效性较差。面对浩如烟海 挥这项功能的关键环节是其分类体系。分类体系的 的网络信息资源,任何网络信息检索服务机构都无 质量对网络信息资源分类组织的质量和易用性会 力对其作包罗无遗的控制,故从分类浏览途径检得 产生重大影响。 的网络信息资源数量较少(但质量较高)。分类体系 决定分类体系质量的因素有: 是一个逻辑结构,通过分类浏览检索途径进行检 (1)分类体系的制订是否符合文献依据原则和 索,不象通过关键词检索途径那样直接,用户必须 用户依据原则。所谓文献依据,在此处改称为网络 作出一系列逻辑判断,缺乏与检索对象有关的专业 信息资源依据可能更为确切。也就是说,分类体系 知识者,有时不能一次达到检索目的。 的类目设置和组织,应符合网络信息资源的实际情 关键词检索途径的优点在于:关键词是自然语 况,既能包容内容庞杂、种类繁多的网络信息资源、 言,直接使用关键词进行检索,对于普通用户似乎 又能反映网络资源的特点。所谓用户依据,则是指 不存在障碍(深层次的障碍仍是存在的);由于网页 符合网络用户的实际需要。‘ 可进行自动采集,关键词可进行自动抽取,故建立 由于因特网正不断地向社会的各个方面深入 一个供关键词检索用的数据库比较容易,数据库对 普及,网络用户类型及其信息需求类型远比图书情 整个网络的信息资源的覆盖面比供分类浏览检索 报机构的用户类型和文献需求类型更为多种多样。 用的数据库要大得多,所检得的网络信息资源也会 制订分类体系时应针对用户的多层次、多样性的信 更多些;关键词检索对于某些数量极少、内容新颖 息需求来考虑类目设置和组织,建立便于各类用户 并已知确切名称的检索对象,检索起来要比从分类 分类浏览检索的分类体系; 浏览检索途径人手容易得多。由于实现索引数据库 (2)在制订分类体系时,分类体系结构类型的 的自动建库,时效性好,建库成本低。 选择、分类大纲(一级类目)的确定、类目细分程度、 关键词检索途径有较大局限性,主要是:自然 具体类目的设置、类目内容范围的规定、类目隶属 语言中的多词一义、一词多义、词义含糊现象普遍 和排列的逻辑性、类目名称措词的准确性、明确性 存在,而关键词系统极少进行规范化处理(即将关 和通用性、类目的注释、类目的链接以及方便标引 键词检索升级为概念检索),故漏检率较高,检准率 和查检的措施等,都会对网络信息资源分类组织的 也受影响;对自动采集的网页不可能进行筛选,检 质量产生影响; 得资源既多又鱼龙混杂,对检索结果的甄别量大; (3)分类体系是否具有开放性和可变性、是否 自然语言的字词匹配检索方式很不严密,在用单个 符合网络信息检索工具向全面的、多样性的信息服 关键词进行检索时,往往会检出大量资源,检准率 务发展的趋势,对各种信息服务在分类体系中作出 很低,有时到达无法容忍的地步,若用多个关键词 适当的、具有远见性的安排,最终也会对网络信息 组配检索,在提高检准率的同时又往往会扩大漏检 资源分类组织的质量产生影响。 率。关键词检索系统象一个“黑箱”,“透明度”很低, 2 网络信息检索工具分类体系的现状分析 只有熟练掌握其检索技巧的用户,才能顺利达到检 调查了43种综合型网络信息检索工具,包括中 索目的。 文检索工具37种(大陆22种,香港、台湾及其他地 ——江苏图书馆学报2002 g-g 4期 维普资讯 http://www.cqvip.com 级 级专题 梧 4 ‘级一级专题 概 念 娄日娄目栏日 类H类f]世【j 当日新闻.新闻.时事.社论 3 2 2 城市地图,地图检索,地图信息 l l 热点聚焦 社会热点.焦点。焦点新闻.聚焦信息 3 3 时刻袁 4 活动与议题.动态信息.BBS l 2 服务.生活服务.公共服务.公众服务 l2 1 酷站+新站 2 人才市场.人才服务.人力资源.就业,招聘 4 7 分娄广告 l 电话簿+黄页检索.白页检索+邮政编码 2 5 l 政治.政府.中央政府.各地政府.管理机构.机关.行政.政策 28 I1 天气.气象.天气检索.日历 l 2 l 法律,立法,法规,司法 7 6 瓷讯 瓷讯服务.瓷讯、 .资讯公司,生活资汛 7 3 国防.军事.军校 9 JI 童.儿啻世界.少年儿童 3 经济.商品经济,财经 22 2 社会.社会生活.社会学 2l 2 工业+纺织 I3 ’4' 人文.人类 13 农业.林业.牧业.渔业 l 5 家庭.交友 6 商业.商务.贸易.买卖.商场.商店.供求信息 29 4 节日+民俗 : 房地产+地产.房屋资讯.物业 2 5 宗教 6 4 法商管弹.财务 2 IflI刑犀座诊盒 2 金融.银行.投资 1l 12 人物+自传.政治家.科学家 2 3 l 证券.股票.股市.股市检索.期货 3 6 2 作家.艺术家,艺人+音乐家.画家.漫画家 I1 保险 l 2 运动家.运动员.运动明星 3 弹财 1 机构.组织 2 5 教育.教学.进修.学习.补习+专题教育.升学考试 37 8 组织 l 大学,大专院校.独立院校.学院.大中院校.专科 l7 教育机构.科研机构.研究所.出版机构+新闻机构.体育组织 2 8 国外院校.留学 7 医院,保健院所 4 中学+小学.幼教,学校8 工商机构.公司.企业.贸易机构,服务机构+企业集锦 4 l5 l 教育法规.教育查询.校园刊物 3 料 团体.幸t团.中央团体.同掌会 3 3 资讯教育 l 国际.国家.区域 省市 地区 4 3 科研.研究.成果.发明.专利.项目.科研甚会 6 8 中国,中国大陆.北京+上海.深圳,香港,台湾.美国 I{】‘ 媒体,大众传播.大众媒体.多媒体.广播.电视.电影.影视 21 26 l 各地新闻.中国大陆新闻.香港新闻.台湾新闻 4 报刊.报纸.期刊.学刊通讯.科技期刊,杂志社 1 16 美国新闻.日本新闻.韩国新闻 3 网络书籍杂志.在线杂志.新媒体杂志.电脑杂志 3 世界地理和文化。历史 3 5 出版,图书,图片,摘要,出版社 4 4 外国瓷源.地区件瓷料 l l 新闻.新闻天地.新闻榆索.新闻绸耠索 19 14 1 个人主页 l 1 文化 25 3 个人兴挥 1 艺术,艺林文苑 28 4 图书馆8 文学,小说,散文,幽默8 13 综合参考,参考.参考资料,工具书,参考工具 12 3 美术,绘画,国画,漫画,动画,摄影 1 14 词典.词姐_轰.缩酪语. l语 5 音乐,舞蹈,戏剧,表演 2 14 瓷料库.工商资料库.龟精咨源.毋特信争费瓷源 藏 3 l 体育,运动,健身 32 8 l 社会科学 15 1 球类,篮球,足球,游泳,水上运动,赛车.武术 1 13 人文科学.人文学科,经济学 4 1 .比赛,赛事,场馆 1 4 哲学 3 3 娱乐.消遣。游戏,棋牌 35 12 语言.语言文字.考古.人娄学 6 博物馆,展览会,艺术馆 5 自然科学,基础科学,科学.科学技术,科技 30 3 文体动态 1 天文学,地球科学.空间科学,数学.物理,化学,电子 14 惜界体育导{证sohu网络 1 生物学.生物工程,心理学 5 保健,卫生,健康 32 3 1 律筒 2 医学,中国医学,医疗,疾病,医药 19 ∞ 1 工稗枝术.T 桔术.能源 l 3 环保,环境 1 4 电脑,计算机,硬件,外设,软件,作业系统.网页编程 38 23 社会福利.公嚣 2 通信 2 休闲 30 2 互联网,国际网络,网络,因特网.Intemet 26 12 衣食住行,家居 l l 中国互联网主页,新加坡中文网站.地区站点 2 l 购物,市场 10 5 搜索引擎,国内搜索引擎,导航,导览,网路指南,网猴 2 3 2 服饰,服装,时装 l 3 web检索,F1P检索,国际检索 3 美食,饮食,餐饮,食品,营养 2 l0 www,ISP/ICP,中国ISP 7 时尚,流行时尚,摩登,新奇,化妆4 2 Internet服务商 l 聊天,谈天,情趣,收藏,集邮,电子贺卡,宠物世界 l 8 1 网页编程 l 休闲资讯 2 网r新闻.网r教育.网 购物 l 3 旅游,旅游资讯,宾馆,饭店 12 13 其他 2 交通,运输,汽车,航空 2 8 追本溯源 l (注:二级类统计不全,三级类基本未统计) 2002年第4期江苏图书馆学报 一 维普资讯 http://www.cqvip.com 区l5种),英文检索工具6种。其中,单独型检索工 学科分类、图书分类、普通分类三种分类体系),以满 具40种,集合型检索工具3种(英文的)。 足不同类型的检索需要。图书情报部门一个单位统 经过整理后,各种概念在类目中的出现频率见 一使用一 分类体系的理想,在网络资源检索中不 上表: 但不理想,而且不必要。区别服务原则是达到有效 43种检索工具的分类体系都属于主题分类法 服务的前提,是网络信息检索服务领域的竞争中得 类型,都是为建立本检索工具的需要自编的。 以取胜的重要方针。 这些分类体系都从普通用户的检索需要出发, 3.2 在统一框架下设置分散独立、各自完整的分 突出日常需要(如教育、文化、保健、休闲、旅游、服 类体系 务、就业等),几乎完全不适合专业检索的需要。 在一个检索工具中供普通用户使用的综合性分 这些分类体系的严密性较差,有许多类目的隶 类体系只能有一个,但为满足专业分类检索的需要, 属关系令人不可思义(如建筑隶属于艺术),除3种 就没有必要把各个学科、专业的信息资源都以一种 可以看出是按类名字顺排序的以外,其余都没有明 体例统一于一个分类体系中。在统一框架下,不同 显的排序规律,逻辑性很差,与传统文献分类体系的 学科、专业的网络信息资源可以使用多个各具特色、 系统性根本不能相比。 自我完善的专业分类体系。这样做虽会产生交叉重 类名措词随意性大,某些类目的类名很含糊,如 复,但有些交差重复也无妨,而且只能对各个学科、 “人类”。 专业的用户更方便。若对相同资源的检索采取设置 许多分类体系的覆盖能力较差,使某些内容无 多个类目链接点的方式来解决,这只是一个分类体 法分类,而有些类目似又多余。更成问题的是有些 系的结构问题,在网络信息资源的标引中并不会增 资源不知可在何类找到。 加工作量。 列类五花八门,在各分类体系之间缺乏一致 3.3 分类体系的类目设置不以网罗全部网络信息 性。在这五花八门的分类体系背后,使人对这些检 资源为目标 索工具的分类标引规则不知所以。这无疑会既导致 供普通用户分类浏览使用的分类体系,不必要 标引错误,也降低检索效率。 包罗所有网络信息资源,不要对不必提供的信息资 总之,与图书情报机构所使用的分类法相比,这 源设立类目,以减轻用户负担。资源的提供与用户 些分类体系的构建十分粗率,这是网络信息检索工 的需要适配,这除了在标引过程中进行筛选外,在制 具需要改进并有很大改进余地的薄弱环节。 定分类体系时就应把好这一关。应贯彻有资源才设 3 网络信息检索工具分类体系的设计方针 类目的原则,不要对不应提供的资源设立类目,对需 3.1 为不同类型的需求提供不同特性的分类体系 要筛选掉一大部分剩下不多的资源可只设立简略、 从对43种综合型网络信息检索工具分类体系 较低级位的类目。 的调查可以看出,现在通行的那些检索工具都是为 3.4 分类体系应具有开放性和可变性,并应有反 一般网络用户设计的,虽然五花八门,但都是一个模 映新颖信息的措施 式,它们都属于主题分类法类型,具有通俗性,虽然 网络信息资源必然越来越丰富,相应地,分类体 十分粗率,却与广大普通用户的需要相适应,有其优 系也应有所发展和作相应的变化,所以,分类体系应 势。但是,这种类型的分类体系不可能构建得很系 具有开放性和可变性。特别是,在网络时代,信息的 统和很严密,显然不能满足专业检索的需要。因此, 传递速度极为重要,分类体系应有反映新颖信息的 出现许多专业性检索工具,甚至收费的检索工具也 措施。 有存在的空间。根据区别服务原则,应为两者提供 3.5 一个供普通用户使用的分类体系框架(一级 不同特性的分类体系;在一个完善的网络信息检索 类目) 工具中也不妨设置两种,甚至更多种不同特性的分 下面提供一个分类体系框架。这个框架吸取了 类体系(如中国教育科研网的《网络指南针》,就提供 现有各种综合型网络信息检索工具分类体系编制中 ——江苏图书馆学报2002年第4期 维普资讯 http://www.cqvip.com 有益的经验,并考虑了类目之间的联系和排列次序 (5)类目的细分控制在五级左右,分类层次过 的合理性。 多会影响检索速度,分类层次少则会加重用户浏 当日新闻/热点信息/新颖信息/专栏/广告 览、选择的负担; 政权/行政/法律/治安/军事/国际关系 (6)选用通用的、较为概括的、能准确揭示网络 经济/工业/农业/商业/房地产业 信息资源主题内容的、贴近普通用户日常检索需要 金融/证券/保险/税收 的名词作类名,尽量避免使用普通用户陌生的术 教育/学习/教材/科研/知识产权 语; 媒体/报刊/出版/新闻组/图像资源 (7)专业性检索要求使用专业分类体系,可在 文化/文学/艺术/体育/娱乐 供普通用户使用的分类体系中设置链接点,也可链 保健/医药/环保/公益 接相关的专业检索工具; 休闲/购物/服饰/美食/装潢/家政 (8)采用自然语言接口,或者说为分类体系配 旅游/交通/地图/时刻表 备一个索引: 生活服务/就业/电话簿/气象 (9)对于重要数据库和重要网络信息资源,除 儿童/青少年 设专类集中揭示外,还应在相关类目下设立专门链 社会/婚姻/家庭/民族/道德/宗教 接点; 人物/机构/党派/团体/会议 (10)在各类中尽可能多设与其他有质量的专 国际/国家/地区 业检索工具的“友谊链接”; 个人主页 (11)地区类目除历史、地理外,都属双重标引; 图书馆/I具书/参考资源 (12)多加注释,指导用户检索; 文献数据库/免费资源 (13)分类浏览界面与检索工具的易用性关系 社会科学/人文科学/哲学 密切,应进行精心设计。这其中既有检索心理问题, 自然科学 也有技术问题。 工程技术/农业技术 参考文献 电脑/通信/互联网/网络导航 1 陈树年.搜索引擎及网络信息资源的分类组织。图书情 4 改进网络信息检索工具分类检索性能可采用的 报工作,2 ̄0(4):31—37 一些方式方法 2 陈笑辉等.Yahoo的分类体系结构及原理探微.图书情 下面各点都是指改进供普通用户使用的分类 报工作。1999(9):33—36.59 体系的方式方法: 孙晓.关于Yahoo!.图书馆杂志,1998(5):28—32 (1)供普通用户使用的分类体系选用主题分类 强自力.网络分类目录及其分类法.大学图书馆学报. 1999(4):37—39 法模式,主题概念的隶属采用多重属分关系。使各 范并思.信息环境剧变中的图书馆学:现状与亮点.图 个类目的内容相对完整; 书馆杂志,1999(6):12—16。33 (2)分类体系应体现网络导航、文献数据库服 黄建年.网络信息分类浅议.情报学报,1999(6):514— 务、直接信息服务相结合; 518 (3)将专题检索内容纳入总的分类体系。突出 7 洪漪等.分类法在信息网络中的应用.情报学报.1998 表示特色类目;也可在分类体系外设立专题。并在 (1):19—22 分类体系中用链接作双重反映; 8 马张华等.指南型网络分类体系初探.大学图书馆学 (4)一级类目设置数量可多些,并采用类组列 报,2o00(3):22—24 类方式,以尽量利用主页界面的空间,使用户在主 9 马张华.文献分类法在网络资源组织中的应用,图书情 报工作,1999(12):24—29 页界面中获得有关整个分类体系的较全面并且较 (作者信息:南京政治学院上海分院信息管理系教授.邮编: 多(相当于二级类目)的信息; 2 ̄433。收稿日期:2002.05.09。) 2002年第4期江苏图书馆学报——