您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页基于移动互联网的大数据分析应用平台架构设计研究

基于移动互联网的大数据分析应用平台架构设计研究

来源:飒榕旅游知识分享网
广东基省于科移技基动础互条件联平网台的中心大 数雷据 唯分析应用平台架构设计研究• 34 •

ELECTRONICS WORLD・探索与观察动均衡,无需作进一步的修改处理。此外,

一、概述

在本架构中,开发专用的ETL(extract,随着移动4G、5G技术的迅猛发展,由移动互联网所产transform,load)工具,并把ETL部署为系生数据呈现出了爆炸式的迅猛增长趋势。通过对移动互联统数据仓库的重要构建环节。通过ETL工具网所产生的数据进行大数据分析,将会为各行各业带来广实现将移动网络的信令XDR数据从来源端阔的应用价值。本研究的主要内容就是基于移动网络运营经过抽取、转换、加载三个过程,这三个过商提供的私有数据平台基础之上,构建一个大数据分析应程将完成从数据源提取数据、数据清洗、按用平台,为各种大数据分析应用提供一个基础环境。

照预定义的数据结构模型加载数据的数据处理过程,最终把数据转换成适合其信令平台二、应用平台的总体设计

系统应用的数据仓库,这个过程处理将大大1.应用平台架构设计

提高整个系统中的网络数据的分析、利用效应用层,共享层和采集层的三种架构在应用平台的整个率。

架构中采用如图1所示。

在数据共享层需要支持多个上层应用的并发运行,而且确保数据应用能随时动态加入及退出。为此,面对数据共享层的访问,需要设计非常有效的海量移动数据传输方法。由于通信流量和路由算法两方面的原因,网络中的负荷是非常不均衡的,拥塞往往出现在一个局部区域,在一个局部区域里发生的拥塞将会严重降低整个网络的性能。我们在平台本设计中,我们在设计路由算法时将引入分治策略的算法,使用分治策略进行设计的路由算法将避免了在网络中的出现局部区域严重拥塞的现象,从而使数据包在网络中分布更加均衡,以提高网络吞吐量并降低延迟。

图1 移动网络数据处理系统架构

在这种系统架构下,本平台拥有良好的扩展性,它将拥有CDR扩展性、KPI扩展性与硬件扩展性这三重扩展性。其中,CDR扩展性就是指信令解析模块采用高耦合、低内聚的方式进行设计,具备高可扩展性,可以快速响应二次图2 数据处理层同时支持应用层

开发需求,灵活添加新的CDR或对CDR字段进行增删;不同数据分析的需求

KPI扩展性就是指系统无需“编程”,只是通过配置的方对于数据存储优化机制,主要面向加式就可以自定义的生成上层应用所需的KPI表和字段,快了密的重复数据和中间数据缓存优化,本设速响应应用层开发;硬件扩展性是指我们在平台中采用分计拟采用空间填充曲线作为映射函数的性能布式架构的信令采集处理服务器,整个系统由多台服务器分析与算法实现。空间填充曲线研究的是来构成并行处理集群。由于并行处理集群具有节点的负载使用特定曲线对某一维度空间进行填充(或能实现自动均衡的特性,因此,我们可以随时对平台的并者是对坐标节点进行遍历),最直观和常见行处理集群进行在线扩展,当并行处理集群进行扩展后,的用于二维平面数据到一维线性存储器件的系统能够自动降低原并行处理集群中的节点的资源占用空间填充曲线,这也就是映射算法。它是(包括CPU、内存等),且集群中的所有节点负载都能自

以Z-Ordering、Hilbert等曲线填充技术为最

ELECTRONICS WORLD・探索与观察常用的行/列优先方法。这些曲线在邻域判断、区块划分和搜索排序等应用场合表现出了优越性能。本设计的研究将其应用扩展到一维线性寻址的外存储器上。为了衡量不同填充曲线的映射结果分布,计划提出若干量化指标以分析研究映射后相邻节点的分布局部性,并以此为基础来进行映射算法选择。并且对填充曲线设计出时空复杂度代价较低的可行算法。

2.应用平台安全设计

针对移动网络提供的基础数据特别是敏感数据的保护问题,本设计将采用如图3所示的多种数据安全和隐私保护方法。

图3 数据安全和隐私保护五道关卡

首先在对于数据访问模式时的隐私数据保护及在当用户进行数据访问的隐私保护上,在利用已有的K匿名技术、数据混淆技术、数据泛化技术等的基础上,针对用户使用数据的角色研究制定静态的不同层次的差分隐私保护策略;同时还采用动态的隐私保护策略,就用户对数据的访问模式进行分类和分级,针对不同的用户的读写数据方式设置不同数据访问模式的集合与阈值,从而避免合法用户在数据服务过程中获取到不符合要求的数据信息。除此以外,基于具有可溯源标识的一体化数据的安全与隐私保护技术,将研究基于硬件物理不可克隆指纹(PUF)和嵌入式数据编码混淆结合的一体化数据安全和隐私保护,生成可溯源的标识,通过软硬件结合的思路,高效解决数据在存储、传输、交换过程中的数据安全和隐私保护问题。在本平台的设计中,我们同时还研究可溯源标识的追加技术、数据溯源技术,使系统能够完整记录数据的转移路径,从而让我们能够实现数据的回溯得以发现数据的泄密点,及时对系统漏洞实行修补。但对于以上各个方面的技术,我们在具体的实现过程中,注意保证了系统的轻量级特性,从而减轻对数据服务效率的影响。

对于海量数据的存储环节,最为核心的就是数据的安全和优化机制。此设计可确保四个级别的数据安全性:物理安全性,操作系统安全性,DBMS安全性和数据库加密。在这四个级别的安全性中,只有前面两个级别安全性是难以确保系统数据的机密性的。数据库进行加密可确保数据中的敏感信息以密文的形式存在,从而使敏感信息受到保护。为了保护系统数据库中的机密数据,我们在该设计采用了用户访问权限控制及对用户访问的数据进行加密的双重控制机制。此外,为保证数据库中的管理系统(DBMS)的安全,本设计采取的措施主要有信息流向控制、推导控制和访问控制等三方面控制措施。在这三个控制措施中,应用最为广范并且最为有效的是实行用户访问权限控制的措施。除这三个控制措施外,本设计还采用了数据库加密技术来作为保证数据库的安全的重要措施。

现在的网络数据库的数据资源数量非常之庞大,逐一对数据进行加密是不太现实的。因此,本设计在系统中采用通过对数据源采取层次划

分及数据删选的方式进行筛选数据,然后对其符合条件的数据再进行加密处理,从而既提供了数据的安全性保障,又保证了计算机网络中数据库运行的效率。图4所示是本设计的数据存储环节的安全架构示意图。

图4 数据存储环节的安全架构

三、本研究的技术关键点

本研究所涉及的关键问题有以下几点:1.移动数据获取环节的隐私保护

移动私有数据虽然通过内网的形式进行获取,避免了通过Internet获取的大部分风险,但作为后端的大数据处理者既是数据的获取者,又是数据的存储、管理和使用者,而且本研究是基于电信运营商的合作,通过技术手段不同人员对用户私有信息的使用,实现用户隐私保护将极其困难。而且目前用户数据的获取、存储、管理与使用等均缺乏规范,也可能导致该环节的数据安全及隐私问题。

2.数据传输环节隐私保护

数据获取及传输根据传输渠道可分为两类:在线传输和离线传输。在线主要指利用网络等媒介而实现的一系列实时、连续的数据传输;离线可理解为通过网络介质定时进行数据非实时的批量交换。对于这两种传输方式,需要通过加密的方式,如使用Internet协议安全性(IPSec)等保证其安全。在数据传输环节的隐私保障可以由安全、认证两方面的规范措施来实现。安全规范措施包括采用加密算法及消息摘要算法、应用安全通信协议等手段。由于传输的过程发生在内网,为此本设计主要着重于认证和授权过程中的隐私保护。

3.数据存储环节的优化

在此设计中,移动大数据包括结构化数据和非结构化数据,数据量不断增长,数据源多样化,传统存储系统无法满足此类应用的需求。在大数据应用程序中,非结构化数据占总数据的80%以上。它通常使用非关系数据库(NoSQL)存储技术来完成大数据的捕获,处理和管理。虽然NoSQL类型的数据存储具有易扩展,高可用性和良好性能的优点,但是仍然存在着一些问题。其中最常见的问题有如下几点:(1)如何对系统的访问模式进行控制以及如何处理用户的隐私;

• 35 •

ELECTRONICS WORLD・探索与观察(2)系统是否存在有技术漏洞以及系统所采用的技术是否成熟;(3)系统的安全问题,如如何对系统访问进行授权和对用户身份进行验证;(4)如何对系统的数据进行管理和如何保障数据的隐私等。结构化数据的安全保护还存在各种漏洞,如系统硬件故障,系统人为错误,系统软件漏洞,网络中的各种软件病毒和木马病毒,黑客攻击等。因素可能严重威胁到网络的安全性。系统的网络数据。另外,大数据带来的硬件存储容量问题,访问数据的延迟,并发访问引起的系统拥塞,网络安全问题,系统构建成本等等,都是针对大数据网络存储系统。架构和安全保护带来了严峻挑战。对于通常的数据库系统来讲,它受到的主要威胁有以下几种:

(1)由于对数据库的不正确访问,从而引起数据库数据的错误;

(2)使用者为了某种目的,恶意破坏数据库,并使其不能恢复;

(3)系统使用者非法访问不允许访问的数据库数据信息并从中窃取私密的数据信息;

(4)用户通过网络进行正常数据库访问时,有可能受到黑客以各种技术手段的恶意攻击;

(5)用户未经授权非法修改数据库数据,导致其失去真实性。

四、研究的实现方案

1.移动私有数据分析中的隐私保护技术的实现

数据分析和挖掘往往希望从发布的数据中尽可能多地分析发掘出有价值的信息,这很可能会暴露了用户的隐私信息。图5所示表示了移动网络中关键的用户隐私信息,其中主要包括:位置信息(动态和连续位置),关系信息(移动通话关系),身份信息和属性信息。在大数据环境中,由于资源的多样性和数据的动态特性,通过普通数据脱敏后的数据(最简单的方法是隐藏数据库中关键字段)等,通过相关分析和聚合大数据。在处理类和分类等数据挖掘方法之后,仍然可以分析用户的私人信息。针对数据挖掘的隐私保护技术,就是在尽可能提高大数据可用性的前提下,研究更加合适的数据隐藏技术,以防范利用数据发掘方法引发的隐私泄露。我们拟采用的主要技术包括:(1)差分隐私保护技术;(2)基于数据失真和加密方法(如数据转换,隐蔽性,随机扰动,翻译,翻转等)。另一方面,数据的使用者(即访问和使用大数据与从大数据中挖掘出来信息的用户),通常是企业和个人。如何确保合适的数据及属性能够在合适的时间和地点,给合适的用户访问和利用,是数据访问和使用阶段面临的另一个主要风险。为了解决因大数据访问或使用过程中带来的隐私泄漏问题,我们打算采用包括:(1)采用有时空融合的角色访问控制;(2)根据属性设置加密访问控制(ABE);(3)采用根据密文策略属性的加密技术(CP-ASBE);(4)基于层次式属性集的访问控制(HASBE)等技术手段。

• 36 •

图5 移动大数据中的隐私信息

2.面向移动数据信令数据和用户数据的融合挖掘关键算法的实现本研究的第二个内容是利用移动私有数据接口,获取用户资料和位置信息,并可实现面向公共热点活动区域人流监控分析、外来人口管理、特殊人员位置跟踪、道路实时路况分析、交通疏导的实时分析、交通站点规划、景区客源分析、景区拥挤预警游客特征分析等;以及各企业和商户的营销辅助、广告定点投放、商铺选址分析、顾客特征分析等。通过中国移动的数据接口,我们可以获取两方面的数据:基于移动网络实名注册的用户个人信息和用户使用手机过程中的实时信令数据。对这两部分数据进行分析,本项目可以获取精准的位置信息和用户信息。但其中的难点在于如何在使用过程中把无结构流式的原始信令数据有效的组织关联起来。本项目将通过数据云平台,进行聚类算法、关联规则算法、贝叶斯算法、协同过滤算法等研究与优化。这些理论上的方法为数据分析提供科学地、规范的、准确的算法理论基础,同时也为可视化广告精准定向投放系统提供指导模型和手段。系统通过私有数据接口对外提供模型的调用,该接口将可实现面向公共安全管理的热点活动区域人流监控分析、外来人口管理、特殊人员位置跟踪、道路实时路况分析、交通疏导分析、交通站点规划、景区客源分析、景区拥挤预警游客特征分析等;以及各企业和商户的营销辅助、广告定点投放、商铺选址分析、顾客特征分析等。本系统的架构如图6所示:

用户分类规则用户偏好规则… … 受众人群规则精准投放规则协同过滤聚类算法关联规则决策树算算法优化优化算法优化法优化… … 支持向量机最近邻分类算法优化算法优化分布式数据库… … 分布式数据库… … 分布式数据库图6 数据挖掘算法模型

3.异构系统数据采集、编解码及数据融合系统的实现

本研究采用自主采集并编解码生成的通信运营商网络信令数据、调用相关接口接入的经营分析数据和服务提供商内容数据形成管道大数据集,并在此基础上使用ETL工具进行数据清理形成基础数据仓库,最终形成

ELECTRONICS WORLD・探索与观察数据集市的技术方案。本系统平台采用的多通道数据采集系统构成如图7所示。在系统设计中使用了基于HDFS的云存储服务系统,使系统可以满足企业需要对海量数据量进行高效存储的需求。云存储的优势在于传统的数据中心无法比拟的。它可以解决海量数据存储问题,使系统具有高可靠性,高通用性,高可扩展性,容量大,成本低。

面临的挑战包括以下两个方面:

(1)不同的网络系统和业务的运行机制各不相同,但如何对它们进行优化的挑选优化模型初衷往往是相近的,但是优化效果却千差万别。

不同的优化模型决定了所采用的解决优化问题的算法不同,算法中最重要的区分就是针对易解问题与NP-难问题如何去寻找优化方案的解决方向,也可以讲是如何精确地保证实现最优的服务质量,或者是尽最大程度得到次优的优化方案。

(2)如何实现以用户的体验质量(QoE or QoX)即以用户的认可程度为评价标准的服务评价方法来评价系统。

用户的体验质量受到了系统的服务层面、用户层面、环境层面等多层面因素的影响,直接反映出了使用者对系统所提供服务的认可程度。由于QoE的影响因素包括了服务、用户、环境这三个层面,而且不同用户对同一服务的要求也不会相同。因此如何有效的评估用户对网络服务的体验,改善用户的体验,需要有科学的评价方法学和评价思路。

建立大数据环境下的分析与可视化平台在系统中是非常关键,而且

图7 多渠道数据采集系统图

4.数据分析与可视化的实现

数据分析与可视化在移动互联征提取和内容分析中扮演着相当重要的地位。目前,网络数据分析与可视化主要

有着广泛科学意义和应用价值。有鉴于此,本项目的数据分析与可视化主要采用提供统一编程接口的数据分析平台、数据分析预处理工具库、共享分析工具库及分析模型库。

(上接第32页)

随着政企客户业务的发展,对于金融等对速率要求高的客户,现有MSTP网络有些力不从心,IPRAN网络是不错的选择。IPRAN网络具备综合接入能力但是缺少VC交叉处理能力以及动态路由模式在承载高质量专线时,制约了客户的选择。为了适应未来政企客户业务发展的要求,充分考虑通信带宽化,互联网云化,大连接驱动化的需求,搭建PE-OTN&MSTP融合的传输承载网络,延长MSTP的生命周期,将现网优化和业务迁移同时推进。由于MSTP在网络中占用较大规模,出于成本考虑短期内不会退网,IPRAN承载大量移动回传业务,PE-OTN处于建设调测初期,因此当前网络将保持三种技术共存。与网络的资源协同和业务融合,向用户提供从网到云的端到端一体化服务。远期随着MSTP设备更新周期到来,小颗粒业务的逐步退网,加上各种新业务的普及;通过对SDN网络的部署,智能APP的应用为政企客户开展提供更好的选择方式,为政企客户创造新的价值。通过对政企客户上云的需求挖掘,将当前传输系统进行合理地规划来满足政企客户专线需求;反之,为了实现政企客户上云的需求,促使政企客户将产生对专线业务的新需求,这样双向驱动将政企客户价值发挥到极致。

4.政企客户专线未来展望

“云网一体”是将应用、云平台、网络进行深度集成,实现云

(上接第33页)

部控制制度,减少员工在会计工作上的失误,从而提高企业财务信息安全。

2.3 提高会计人员专业性

就我国目前会计行业来看,取消会计从业资,就代表我国基础会计人员已经饱和,起码在现在已经不再需要更多的会计人员,同时,这也是顺应时代发展,在这个大数据时代背景下,企业会计人员不再是数量上的优势,而是专业性。因此,针对这一情况,就以高校为例,高校应改革会计专业课程,在坚持传统会计技能的同时,也要开创符合大数据背景的课程,注重理论知识与实践操作的同向发展,以强化会计人员专业性。对于新入职的会计人员,空有理论知识却缺乏实践经验,因此,企业要对其进行定期培训,规范员工操作过程,增加员工实践经验。虽然我国会计人员已经饱和,但是在大数据时代下,有较高专业性,精通会计电算化系统的会计人员仍是缺乏的,因此,通过合理的方式增强会计人员专业性是极其重要的。2.4 提高管理层对会计电算化的重视程度

通过网络与媒体,加大对大数据时代的宣传,同时,使得企

业认识到或看到会计电算化对企业的帮助,使得管理层认识到在大数据背景下会计电算化的积极作用,同时,也可以积极鼓励企业使用会计电算化,在面对小型企业资金缺乏时,也可以适当给予财政帮助,以全面促进会计电算化的发展。总之,通过多种方法,多渠道提高企业管理层对会计电算化的重视程度,以促进企业加大对会计电算化资金投入,推动会计电算化发展。

3.结束语

总而言之,会计电算化在企业有着传统记账方式不可比拟的优势,企业应正确认识在大数据背景下会计电算化能够给企业带来的帮助,同时,企业在实行会计电算化的同时,对于工作中出现的问题要及时进行总结,通过合理方式进行优化,使得会计电算化在大数据时代下能够更好发展。

作者简介:刘永清(1973—),男,湖南安化人,全日制研究生,研究方向:会计电算化、财务管理、高等职业教育。

• 37 •

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务