上海海关学院学报 2011年第3期 ・海关科技・ 海关监管现场风险数据仓库的构建及运用 张童舟 摘要;从海关风险式管理要求来看,目前监管现场的通关风险参数设置存在不足,从人工设置参数的方 式转变为智能设置参数的方式是解决问题的可考虑的途径,而建设数据仓库加强数据挖掘是有效进行智能参数 设置的方法之一。数据仓库用来存储通关报关单的相关信息,风险参数决策系统通过对数据仓库数据信息处理、 分析和数据挖掘,从而自动形成规则库,为监管现场提供监管依据。数据仓库的运算和分类,数据挖掘、决策 分析都需要占用大量的资源,因此有必要构造海关云计算平台。 关键词:风险参数;数据仓库;数据挖掘;规则库 风险管理思想是海关管理的本质要求,核心是 况下,目前很难根据实际情况及时进行调整。四是 在有效防控执法风险和廉政风险的基础上,更好地 参数分类比较粗犷。比如一个直属海关管辖的区域 实现把关与服务的平衡。风险管理的根本问题是如 比较大,各地企业的发展状况不一样,价格水平和 何迅速有效识别风险,并在此基础上化解风险。监 企业资质参差不齐是客观存在的事实,不考虑地区 管现场是大监管体系的“关口”,它既要对高风险 差异单纯以价格来确定风险参数,或者不考虑企业 货物的单证进行重点审核,有针对性地加强货物查 资质单纯以商品编码来确定风险参数,其结果会导 验;又要对低风险陕速放行货物实行简易通关、快 致某些监管现场高风险单证查获率偏低。由于这些 速验放。要做到既管得住又放得快,很大程度要依 因素的存在,现场的监管远不能达到设想的目标。 赖风险布控参数设置。本文将从数据仓库的构建及 二、监管现场数据仓库的构建和运用 运用,来论述监管现场风险参数设置的新模式,为 一个理想的参数设置系统应该具有数据分析全 海关业务管理提供新思路、新手段。 面、设置条件多样、响应迅速等优点,使之能够适应 一、从海关风险管理要求来看,目前监管现场 通关现场变化的情况。可以在监管现场构建面向报 的风险参数设置存在不足 关信息的决策分析系统。这个系统主要由数据仓库 有效性、实时性是监管现场管理最基本的要 与风险参数决策系统构成,数据仓库用来存储本地 求。目前通关风险参数由直属海关相关职能部门专 的通关报关单的相关信息,而风险参数决策系统通 家对数据进行分析,制定出相关的规则并在 过对数据仓库数据信息处理、分析和数据挖掘,从而 H2000中统一设定。这种方式保证了参数设定的 自动形成规则库,为监管现场提供监管依据。换言 专业性和统一性,但是从监管现场的实践情况来 之,监管现场的监管,更多地依赖于智能化的处理, 看,仍然存在一些不足:一是无法对数据进行全面 由现在的人工经验决策转换到智能化的决策上来。 分析。由于数据量非常巨大,参数设定人员不可能 很显然,监管现场数据仓库的构建是基本前 对所有数据进行分析,只能通过经验或者风险信息 提,数据挖掘是手段,规则库则是目标。所谓规 选择参数,因此参数设置的选择面比较窄。二是参 则,这里是指通过报关单数据、物流数据、统计数 数设置和修改滞后。一条参数的设置从分析到最终 据等分析以确定选查标准,凡符合选查标准的,将 决策需要较长的时间,在这段时间内有问题的报关 被列为选查对象。由于制定的方法不同会产生许多 单货物可能已经通关放行。三是反馈与互动不足。 规则,这些规则经过筛选和优先级别判定,从而确 在设置的风险参数捕获率不高、查获率不理想的情 定有效的规则,这些规则的集合就是规则库。隶属 *作者单位:苏州海关技术处 9O 张童舟:海关监管现场风险数据仓库的构建及运用 海关和直属海关都有数据仓库,隶属海关的数据仓 库是由本口岸监管现场产生的,并制定本口岸的初 步规则库,同时将规则库的规则上报直属海关。直 属海关的数据仓库是根据各个隶属海关的数据生成 的,在此基础上制定出直属海关的初步规则库,再 经过筛选和优先级判定,建立直属海关的规则库。 直属海关的规则库将发到各隶属海关作为优先级别 最高的规则。这样的构架首先是保证了直属海关对 (一)数据仓库具有集成性 监管现场的通关数据来源主要包括:H2000 中有关报关单的基本信息、查验系统中报关单的删 改情况、统计库中的数据修改情况、其他可以提供 逻辑判断的数据(比如一线转关信息发送时间与二 线监管场站的通关时间,如果两者间隔时间过长, 则逻辑判断是要对该批货物进行重点查验的)。所 有的数据都是来自于H2000不同的子系统,可以 隶属海关的业务指导,同时也兼顾到各隶属海关的 在运行网中构建系统,直接对H2000的报关数据 监管特色。其次是避免了在一个极为庞大的数据仓 进行分拣,或者采用电子订阅数据的办法通过监管 库中进行数据挖掘的情况,有助于监管现场提高数 现场系统对运抵监管场站的货物进行选查和分类。 据分析效率。数据仓库的作用在于数据整合、知识 一份报关单的相关数据都是从各个子系统中得到。 管理,使判断科学,行为有效。 这些在不同子系统中的同一份报关单数据是可以在 当然,数据仓库的运算和分类,数据挖掘、决策 数据仓库中进行转换、重新格式化、重新排列及汇 分析都需要占用大量的资源,单纯的加强硬件配置 总操作成一份数据。 并不能从根本上解决问题。所以在服务器的架构方 面,我们可以考虑采用云计算①的方式来按需分配 (二)数据仓库具有历史性 资源,提高运算效率。云计算的重要特征是按需服 数据仓库的数据通常是以批量的方式载入和访 务,较好的分配硬件资源。当本地的服务器不能及 问,但在数据仓库环境中并不进行一般意义上的数 时完成数据分析的时候,有两种不同的分配方式:向 据更新。数据在进行装载时是以静态快照的格式进 云中心请求计算及其他服务,使用完成后释放资源, 行的,当产生后续变化时,一个新的快照记录会写 由云中心再分配给其他服务器使用;也可以采用并 人数据仓库。这样在数据仓库中就保存了数据的历 行计算的方式来利用其他当前闲置的服务器进行运 史状况。这一点对决策来说非常重要,因为数据仓 算,从而更好地为现场服务。当监管现场向云要求 库可以提供一份报关单删改单动作和改动的情况, 计算时,只需传递索引(报关单号),当云端数据运算 可以实时的提供一个历史记录清晰的报关单数据。 完毕后,可以将相关规则再返还给现场的服务器。 如果说参数库要求结构和数据不能有冗余的话,那 就发展趋势而言,对海量数据库和复杂运算,海关应 么,从历史性的角度来看,数据仓库则允许它的存 组织力量去研究云计算的问题,构建适应海关需求 在,而且冗余越多,越有分析的价值。 ・ 的云计算平台,促使风险管理达到新的水平。 (三)数据仓库具有时变性 三、监管现场数据仓库的初步设定 时变性是指数据仓库中的数据只在某个时间段 需要指出的是,数据仓库与数据库是有区别 是准确的,或者在某个时间段的分析占主导地位。 的。简单地说,数据库一般存储在线发生数据,数 数据仓库将准备存储5—10年甚至更长的通关记 据仓库存储的一般是历史数据。数据库为捕获数据 录。每条通关记录的时效性是不一样的。举例来说 而设计,数据仓库为分析数据而设计。使用数据仓 某企业在前年被查验了6O票报关单,查获了12 库,并不是要取代数据库,两者之间各有所长,相 票;经过整顿,企业通关状态有所好转,在去年海 辅相成。到目前为止,海关业务数据库都直接面向 关查验了100份报关单,只查获2票。如果不考虑 各应用系统,或者说是各应用系统的运行才生成各 时变性,那么这家企业查验160票,查获14票, 类数据库。现有的数据库不是不能作为风险分析使 查获率8.75 ,很明显这家企业应该要继续重点 用,但它存在缺陷和不足,这些是造成目前风险分 查验,这对企业来说是不公平的。但如果只考虑第 析程度不高的一个重要原因。相比之下,数据仓库 二年的查验状况,把这家企业和一贯遵纪守法的企 具有更多的优势。 业归为低风险类的企业,对其他的企业来说也是不 ①由于商业应用的需要,不同的企业对云计算的定义各不相同。但是从根本来讲,云计算能为用户提供按需分配的计算能力、存储能力 和应用服务能力、最后的目的是方便用户。 91 上海海关学院学报 2011年第3期 公平的。而数据仓库为我们提供了轮转式综合数据 的处理方式。数据仓库的数据并不是简单堆积的, 以本例来说,每月的数据逐一存储到月槽中,到第 二年年初,把12个月槽归并起来放人第一个年槽 中,然后各月槽清空。第二年第一个月的数据重新 放人第一个月槽中,以此类推。假定把上年的数据 视做与当年的月数据同等重要,那么这个企业的查 获率应该是(2+12/12)/(100+60/12)一 2.86 ,应该说比较好地反映了企业目前的状态。 四、数据仓库的运用关键在于数据挖掘 数据仓库有效存贮了报关单的基本信息,单证 删改状态和物流状态(转关部分),而我们要进一 步做的就是分析这些历史数据,制定相应的规则, 通过这些规则来决定对新的报关单是否查验,并根 据查验结果和上级关于查验的指导性意见来实时地 调整这些规则,使之能有更高的查获率。在这个规 则库中有的可以无需决策分析直接添加一些简单的 判断。比如规定某商品项下100 查验,D类企业 轮转式数据仓库可以比简单累计数据更容易反应企 业的状态,适合多年海量数据的存储,但是一些细 节会丢失,提取越久的数据就越不详细,不过它也 正好说明了时间越长,对现时的影响越弱,符合监 管的动态要求。图1说明了这一现象。 图1轮转数据仓库 第1天 第2天 第3天 第1周 第2周 第3周 . 3月l 为了减轻带宽的压力。整个系统的数据仓库将 被设置为分布式。建议隶属海关把每个监管场站纳 入自身的数据仓库,而直属海关拥有整个关区的数 据仓库。这样无论是监管现场海关还是直属海关职 能部门都可以依靠数据仓库做相关分析。当监管现 场向云服务器申请云计算的时候,无需传递数据, 只需传递索引(报关单号)即可进行相应的计算。 图2给出分布式数据仓库的示意图: 图2分布式数据仓库 l _操作型处理J总部 』 92 100 /o/查验等。这些通常都是有相关政策和法规来 决定。此外,对于一些风险信息,比如最近瞒报、 伪报情况比较严重的商品采取高概率布控等措施。 而对于比较复杂的情况我们需要采取数据挖掘方式 来确定规则。 (一)运用OLAP数据建模来确认风险 OLAP(On—line Analytical Processing)即 操作数据库系统,它涵盖了大部分数据仓库的日常 操作。一份报关单数据包括表头、表体及报关单状 态(放行,查验无误、改单,统计库已回填)物流 状态等四十多项数据,如果不采取OLAP操作, 会导致每一个数据非常冗长,一个四十多维的数据 会直接影响效率。在实际的选查和统计过录表的查 询中,一般是不用四十多维数据同时进行考量的。 比如在征税环节更多考虑的是商品归类、价格、贸 易方式、原产国、查验情况,单证改动情况等;在 统计环节中会审查第一第二数量单位比,价格水 平,HS编码和数量单位的对应关系;在现场选查 环节还会考虑物流状态,包括运输方式、种类,二 线海关应该考虑转关信息发送时间与到货时间之差 等;还要考虑企业的信用情况、历史查验情况和查 验的离散情况等;有的还要考虑报关单状态,改单 相关数据;统计库是否已回填等,根据不同的需 求,把报关单四十多维数据在系统里作进一步拆 分。我们可按照星型的方式来组织自己的数据。数 据仓库包括原始数据(事实表)及多组小的附属 表。这些附属表包括:审单表、逻辑判断表、物流 状态表、统计修改表、查验修改表、企业信用表 等。每一个小附属表按需得到原始数据中部分维的 数据。比如在企业附属表中,只要调取报关单号, 企业、货代十位数代码(企业等级),查验情况即 可。数据建模如图3所示: 图3数据建模 (二)运用频繁模式的挖掘,分析风险 完成了数据之间的关联之后,我们就要考虑利 用这些数据进行分析,确定一个布控的规则,由于 每天都会有新的数据加进来,按照轮转式数据仓库 的特点,新加入的数据具有较大的权重,所以这个 规则将是一个不断变化的规则。 频繁模式①的挖掘搜索将能给定数据中反复出 现的联系。数据挖掘可以通过分析确定某一数据中 的商品编码、价格、原产国的相关联系,这些称之 为关联规则。规则的支持度和置信度是规则的两种 度量,分别反映了所发现规则的有用性和准确性。 例如,我们假定在审单表中对8471000的商品和价 格进行关联,确定单价在1000美金以上是否要查 验。我们可以制定支持度为报关单数量1 或者每 月有100份报关单,置信度为查获率10 。先从 审单表中,取出所有符合条件的报关单,确定其数 量达到总数量的1 或者本月有100份,然后再进 行分析,发现该批报关单查获率高于1O ,则 84713000项下单价高于1000美金的商品需要重点 查验的规则成立。反之,这个规则是不成立的。实 际上我们在计算中只要给定最小的支持度(比如 10 的修改率含查验改单和统计改单),就可以对 所有达到一定报关单数量的商品做关联分析。与此 类似我们同样可以分析物流状况,可以分析转关时 间过长的货物与运输货物重量之间的关系,对于转 关超过正常时间150 的货物,分析其重量。如果 重量低于一定数量的,置信度(查获率)大于 1O 的,则可以认为某些重量较轻的转关货物如果 转关超时将面临较大的业务风险。如果造成转关超 ①是指频繁出现在数据集中的模式。 张童舟:海关监管现场风险数据仓库的构建及运用 时的原因是因为高速公路修路所造成的,那么查获 率会较低,则转关时间和重量之间的关联关系不存 在,即不属于重点布控的范围。 这种频繁模式挖掘可以有多种分类:包括序列 式挖掘,对事例的次序进行关联分析(可以研究企 业近期的查获率变化情况,判断企业对海关监管的 相应时间),结构模式挖掘,在结构化数据中搜索 子结构,(主要是用于审单表中),如此等等,总之 要审时度势,灵活运用,才能取得理想的效果。 (三)依据数据的分类与预测,推断风险 数据仓库蕴含大量的信息,除去采用频繁挖掘 的方式,也可以采用分类、预测的办法来预测未来 数据的趋势。通过分类预测,来判断未来的高风险 数据。数据分类是一个两步的过程。第一步建立描 述预先定义的数据类或者概念集的分类器。第二步 确认分类的准确率。 可以采用决策树归纳进行分类。决策树是一种 类似流程图的树结构。每个内部节点表示一个属性 上的测试,每个分枝代表一个测试输出。例如,对 统计库的数据改动情况进行分析。根数据是报关单 在统计库中是否改动。如果改动则进人下一层分 枝,归类修改、数量修改、价格修改、其他修改。 再往下一层次,归类修改是否涉及税率变动?涉及 税率变动的,就要考虑对企业的后续报关单进行查 验。数量修改涉及多少?如果改动的多的,需要重 点查验,如果改动很少,可能是一时手误,则可以 减少查验率。决策树的构架如图4: 图4决策树 布控 布控、 .,, 布控 , ~ , 、 l—.___ —1 r『—j. —习,——E—_]f___— —1 }辨蕊氍枣囊钯 L jiⅡ兰__J &艟奉变似I L『 ....。. . -任J簋——————枞 l【——— , ._1__ L — —幢 ——于 ——— II .盘 ,.....。... 1 目前主流的决策树归纳都采用了贪心(即非回 溯的)方法,决策树以自顶向下递归的分治方式构 造,逐渐将数据划分为较小的子集。决策树建立以 93 上海海关学院学报 2011年第3期 后有较多的无用分枝,系统将会采取树剪枝的方 现场的各类风险因素,加强了布控的针对性,加快 法,进一步减小数据的运算量。 (四)及时进行规则整理,使风险管理更适应 了风险布控参数更新的频率,是一个相对完善和严 密的方案。但也应该看到要想实现这个方案需要强 大的软硬件支撑,相信随着云计算平台的建设和智 能化的深入,海关的风险管理将会达到新的高度。 参考文献 [13(美]Wmiam H.inmon.数据仓库[M].王志海,译. 监管现场需要 通过数据挖掘,确定风险、分析风险、推断风 险,会产生大量的规则,其中会有相当部分是冗余 的或者实际上并不足以显示各数据之间的关联关 系。对于这些关联需要进一步进行分析。统计捕中 率(对报关单布控)与实际效率(查获率),对规 北京:机械工业出版社,2009. 则的优先级进行排序,去除部分捕中率低的规则, (2][加]Jiawei Han,Micheline Kambe ̄数据挖掘概念与技 术[M].范明,孟小峰,译.北京:机械工业出版,2010. 从而形成有实际指导意义的规则,运用于业务现场。 [33王鹏.云计算的关键技术与应用实例[M].北京:人民 五、结语 邮电出版社,2010. 综上所述,采用数据仓库以数据挖掘的方式提 (责任编辑吴江) 炼规则作为监管现场的风险布控的依据是可行的。 在直属和隶属两级海关的框架下,考虑了通关监管 (上接第89页)秩序宣言》和《各国经济权利和义 之间的合作作为其两大支柱之一,这是贸易便利化 务宪章》等重要的国际法律文件中都将其定位基本 国际合作的最好体现。 原则。作为国际关系的合作理论是2O世纪7O年代 4.贸易便利化实施的研究 以后随着世界政治经济格局的变化而产生的,该理 正如前述文献梳理发现,目前贸易便利化研究 论的主要代表有罗伯特・基欧汉、肯尼思・奥伊、 的隐含受众都以涉及贸易谈判和便利化措施实施的 海伦・米尔纳。其中罗伯特・基欧汉的观点最具有 政府部门为诉求,多在论证贸易便利化的必要性、 代表性,其在1984年首先提出了国际合作理论。 可行性,而对实施中的大量政策、技术性、实务性 在全球经济相互依存日益密切的今天,国家与国家 问题关注不足,即有论述,也因研究者自身的经历 只有通过合作才能避免冲突,才能达到相互间的利 与视野而蜻蜓点水。当前研究中存在贸易便利化最 益最大化。笔者通过到哈尔滨关区黑河口岸海关的 重要主体的确失,笔者认为,贸易供应链上的诸多 实际调研发现,在黑龙江边境口岸对俄贸易通关过 企业理应成为贸易便利化政策制定与实施中的主 程中,国内企业出口到俄罗斯时,国内通关程序已 体,不能充分反映业界当前和长远需求的便利化都 经比较快捷简便,企业相对来讲比较满意,但到俄 将遭受挫折,因此,研究者需要从更多宏观叙事视 方口岸办理进口手续时,通常比较繁琐,给企业带 角转向贸易便利化实施中的复杂问题,如政府部门 来了很多障碍。因此,只有国家与国家之间的口岸 的协调机制、贸易便利化监控与评估、企业实施中 部门全面合作,才能真正实现整个国际贸易供应链 的技术困难等。 的便利化。2005年6月,世界海关组织年会通过 (责任编辑朱秋沅) 的《全球贸易安全和便利标准框架》将海关与海关 94