大数据环境下审计新技术手段和工具研究 | |||
|
|||
马长芳 大数据环境下审计新技术手段和工具研究
摘要:随着计算机云时代的来临,大数据(Big data)也吸引了越来越多的关注。在以云计算为代表的技术创新发展情况下,这些原本很难收集和使用的数据开始容易被利用起来了。通过各行各业的不断创新,大数据正在逐步为人类创造更多的价值,而审计工作的重点就是对各种数据进行分析整合,因此探讨审计工作中可利用的有关大数据的新型技术手段和工具必将为审计工作带来变革性的影响。
关键词:大数据 新型技术 审计 影响 一、大数据的概述
1.大数据的概念 大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。 2.大数据的基本特征 大数据的特征可以概括为4个“V”,有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。包含网络日志、视频、图片、地理位置信息等不同数据类型。第三,价值密度低。通常在海量的存储数据中,我们需要的仅一小部分数据。第四,处理速度快。在大数据中有个“1秒定律”或者秒级定律,也就是在数据分析处理时一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。这一点也是和传统的数据挖掘技术有着本质的不同。以上四个方面可归纳为4个“V”:大容量(Volume),多样性(Variety),价值(Value),生成速度(Velocity)。 3.大数据的意义价值 大数据的意义是由人类日益普及的网络行为所伴生的,最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的,因此各行各业推行大数据应用是现代科技技术发展的必然要求。 二、大数据环境下,审计可用到的新型技术手段和工具
1.大数据环境下出现的新技术 现阶段大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。总的来说大数据处理需要的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。 2.审计可用到的新型技术手段和工具
在大数据环境下,传统的很多审计技术和方法显得效率低下和无法实施,大数据时代的超大数据体量和占相当比例的半结构化和非结构化数据的存在,已经超越了传统数据库的管理能力,这就要求审计去探索利用新的大数据存储、处理和检索方法。围绕在大数据环境下一批新兴的数据挖掘、数据存储、数据处理与分析技术。在实施审计时,可使用分布式拓朴结构、云数据库、联网审计、数据挖掘等新型的技术手段和工具,以提高审计的效率。 三、大数据环境下,审计如何更好地使用型技术手段和工具
1.关于使用分布式拓扑结构 分布式拓扑结构是常用的一种网络拓扑结构,除分布式拓扑结构外,常用的网络拓扑结构还有总线型、星型、环型等多种拓扑结构。分布式拓扑结构的网络具有如下特点:由于采用分散控制,即使整个网络中的某个局部出现故障,也不会影响全网的操作,因而具有很高的可靠性;网中的路径选择最短路径算法,故网上延迟时间少,传输速率高,但控制复杂;各个节点间均可以直接建立数据链路,信息流程最短;便于全网范围内的资源共享。缺点为连接线路用电缆长,造价高;网络管理软件复杂;报文分组交换、路径选择、流向控制复杂,在一般局域网中不采用这种结构。 针对分布式拓扑结构的特点,在审计中选择何种拓扑结构应因情况而定。例如在组建联网审计系统时多采用分布式拓扑结构,这是由该系统的整体功能和需求决定的,联网审计系统在设计时多被分成被审计端网络、传输网络、审计端网络三部分。被审计端网络拓扑主要包括审计部门、被审计部门和现场审计系统等。审计端网络拓扑主要包括审计署网络中心、审计端专网等。传输网络是根据实际情况,为安全准确的传送审计数据所采取的传输方案、传输技术,在传输网络中有个重要点就是为保护审计单位和被审计单位,审计端和被审计端都应设置逻辑隔离。 2.关于使用云数据库 云数据库是指被优化或部署到一个虚拟计算环境中的数据库。体特征有:可以实现按需付费、按需扩展、高可用性以及存储整合等优势;可以使用户按照存储容量和带宽的需求付费;可以将数据库从一个地方移到另一个地方(云的可移植性);可实现按需扩展;具有高可用性(HA)。 关系型数据库(Relational Database Service,简称RDS)是一种专业、高性能、高可靠的云数据库服务。RDS提供WEB界面进行配置、操作数据库实例,还为用户提供可靠的数据备份和恢复、完备的安全管理、完善的监控、轻松扩展等功能支持。相对于用户自建数据库,RDS具有更经济、更专业、更高效、更可靠、简单易用等特点。伴随云数据库的发展,RDS将成为用户在大数据时代把握时代数据脉搏、进行高效数据分析的得力助手,而RDS做为云上的关系型数据库服务通过控制台进行简单、方便的数据管理,并通过高可靠的架构确保您的数据安全。 在审计实施时,若能在相对封闭安全的审计系统内部网络环境下尝试使用关系型云数据库,可实现在一定权限下数据共享,进行高速数据分析,会对审计效率和质量带来质的飞跃。 3.关于联网审计 联网审计在上文中已经提到过,这是计算机辅助审计发展到一定阶段的产物,联网审计系统的研究有利于推动财政财务收支相关数据和业务处理日益电子化、信息化、网络化形势下审计工作的开展。我国电子政务快速发展,有的已进入全国数据大集中阶段,尤其是与审计工作密切相关的预算执行、国库集中支付等金财工程正在不断建设与完善。联网审计系统为联网审计提供了一个良好的网络平台,有利于在新形势下有效配置审计资源、提高审计效率。 联网审计不仅需要满足联网审计要求的计算机环境,还需要安全的网络环境,因此联网系统的每个环节数据加密和数据备份工作,选择安全可靠的拓扑结构。在联网审计过程中,数据采集是由于被审计单位的网络环境、工作平台,特别是数据分布(即数据存储)方式各不相同,因此应根据不同的情况使用不同的采集方法。比如被审计单位的数据比较集中,通过单一数据采集点的设置,就可以采集到审计所需要的全部数据。如果被审计系统的数据存储是分层次的,需要通过多级数据采集点才可以采集到审计所需要的全部数据。也有不少被审计单位独立自行进行数据存储,没有与相对应的上级或者下级单位联网,所以审计所需要的数据在一个单位内就可以采集到。在联网审计中,数据存储是联网审计中的另一重要环节,存储过程主要考虑数据存储的成本、性能、可扩展性和稳定性。现阶段网络通讯中最主要的三种存储模式为:直接连接存储(DAS Direct Attached Storage)、网络附加存储(NAS Network Attached Storage)、存储区域网(SAN Storage Area Network)。DAS存储简单、成本低,但是存储性能低,可扩展性不强;NAS安装简单,存储方便快捷,缺点是它对整个网络进行集中存储,不适于大型数据库的应用。相对而言,SAN最适合联网审计系统,它存储性能强,适合海量数据的存储,可扩展性及安全性较高。 关于审计人员直接用到的联网审计平台终端,可以用现在很多地方在用的财政联网审计平台举例。该平台主要是针对财政审计设计实施的,平台界面简洁清晰,模块功能逻辑清晰,系统稳定性、安全性可靠,用户完全可以根据自己的需要设置新的分析模块和审计方法。平台中模型树是系统运用的核心,可根据需要设置部门预算分析模型、指标管理分析模型、支付管理分析模型、总预算账务分析模型等,每块模型又可以建查询模型、疑点分析模型等。系统用到的查询分析模型是基于SQL语句对数据库数据进行查询分析的模型,主要功能是有针对性的通过对某一类数据的查询找出被审计数据的问题所在。 4.关于数据挖掘技术 在审计中若使用数据挖掘技术,选择适用的数据挖掘方法是非常重要的。通过分析审计数据的存储量、数据结构等特点, 可选择下面面两种应用到计算机辅助审计当中去。 ①聚类分析方法。聚类分析简单地说就是从海量数据中找出相似的数据组成不同的簇,并尽可能保证同一簇中的对象具有相似性, 不同的对象尽可能相异。这样能够容易地识别密集的和稀疏的区域, 发现全局的分布模式和数据属性之间的相互关系。通过聚类分析能直观的获得数据分布的情况, 观察到每个簇的特点。在审计中, 常会检查数据的偏差、异常、极端值。例如: 进行数值的大小排列;对不同的数据组进行数据比较;确定数据的值域, 计算最大值和最小值的差额; 按时间进行数据排列; 计算事件发生的频率,占比。得到这些数据后,可以通过与往年审计数据的比较, 分析出被审单位数据的真实性及准确性。②神经网络方法。神经网络网络方法是模拟人脑神经元提出的一系列的算法模型。神经网络方法具有并行分布处理数据和自适应、自学习的功能,具有较快的总体数据分析处理能力, 特别适合于审计系统。 数据挖掘的一般步骤为:理解数据和数据的来源;获取相关知识与技术;整合与检查数据;去除错误或不一致的数据;建立模型和假设;实际数据挖掘工作;测试和验证挖掘结果;解释和应用。在审计中使用数据挖掘技术可整合简化以下五步骤:确定业务对象与审计目标、数据的采集、数据的整理及准备、建立模型。确定业务对象与审计目标:了解数据和审计业务的问题和相关背景,明确需要分析的问题, 为能够采集到准确有效地数据提供具体方向;数据的采集:确定业务对象与审计目标后,审计人员需导出被审单位财务管理数据,然后将数据导出后存入审计人员的电脑中, 置于审计人员自己定义的某一目录下,之后要对数据的含义, 对审计业务、审计业务流程的理解以及对数据产生全面深入的认识。分析数据是找到与要分析的主题相关的数据表和数据字段, 预测对分析结果影响较大的数据。在分析的基础上, 为建立模型选择变量、选择记录, 并将数据进行适当的变换, 使之成为适合于数据挖掘的形式; 数据的整理及准备:由于数据可能是不完全的、随机的, 有复杂的数据结构,所以要对数据进行初步的整理, 完善不完全的数据,选择与数据挖掘有关的变量;建立模型:建立模型是一个不断尝试改进的过程, 根据具体分析主题和数据情况来选择哪种分析方法对要解决的问题最有效, 有时可以在已有的挖掘算法基础上, 结合各类算法的优点, 形成新的改进算法。而且, 并不是写好算法后剩下的一切就可以自动完成,任何一个模型都需要人员的参与, 不仅是设计人员, 同时也要包括经验丰富的审计人员。对建立好的模型要进行试用, 由对被审单位业务熟悉的审计人员对挖掘结果进行评价。随后, 应根据模型分析的结果, 对模型以及模型的输入参数的值等进行反复的修正和完善;评价和解释结果: 挖掘工具常提供可视化的工具展现挖掘结果,最后要对该结果进行分析、评价,并合理解释挖掘的结果。结果不理想时,可以寻求别的算法,或调整挖掘算法的有关参数。挖掘结果为审计人员提供问题的线索, 审计人员仍需根据线索进一步追踪检查相关资料, 落实问题。 四、小结 大数据的发展必将给审计带来新的变革,不仅是工作方式方法的变革,更是审计思维方式的一次变革。科学合理的运用大数据产生的一些新型工具和技术手段可以提高审计效率、减少审计资源的浪费、提高发现问题的概率和准确度,在一定程度上降低审计风险。就现实状况而言,大数据技术在审计工作中的使用还不成熟、存在诸多问题,还有巨大的发展空间,因此探究如何更好地利用大数据环境下的新型技术、工具为审计工作带来新跨越将作为审计事业发展的一个方向。 |
|||
【打印本页】 【关闭窗口】 |
|||