线上期刊服务咨询,发表咨询:400-808-1701 订阅咨询:400-808-1721

数据分析论文8篇

时间:2023-07-19 09:28:27

数据分析论文

数据分析论文篇1

关键词:大数据 交易平台 数据资源 数据分析服务 融合

1.引言

目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。

在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。

2.相关研究

目前大数据交易的相关研究中,比较有代表性的有:

(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。

(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。

(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。

(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。

除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。

3.现有大数据交易平台的不足

大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。

3.1 数据供需的错配

现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。

3.2 大数据资源定价困难

大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。

3.3 数据的时效性不强

现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。

4.融合数据分析服务的大数据交易平台设计

本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。

4.1 数据分析服务的概念界定

数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。

4.2 平台设计的总体思路

本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。

图1 平台设计的总体思路

4.3 核心模块的设计

融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。

图2 融合数据分析服务的大数据交易平台的主要模块

系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。

大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。

4.3.1 大数据资源池模块

大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。

(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。

(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。

(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。

4.3.2 数据分析服务模块

数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。

(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。

(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。

(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。

4.3.3 协同模块

协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。

(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。

(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。

图3 交易各方的利益分配

需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。

5.融合数据分析服务的大数据交易平台的优势

本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。

5.1 直接面向应用,从根本上避免了数据供需的错配

在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。

5.2 融合后定价更有根据

在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。

5.3 融合后可提供实时数据

在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。

5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力

融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。

交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。

6结语

本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。

参考文献

[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.

[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.

[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.

[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.

[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.

[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.

[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.

[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.

[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.

[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.

[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.

[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.

[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.

[14]杨琪,龚南宁 .我国大数据交易的主要问题及建议[J].大数据,2015(2):38-48.

数据分析论文篇2

1.1数据采集

数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据,这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型,开发数据质量技术。而数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

1.2数据预处理

数据采集的过程本身就有会有很多数据库,但如果想达到有效分析海量数据的目的,就必将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且在导入基础上做一些简单的辨析、抽取、清洗等操作。

①抽取:因为我们通过各种途径获取的数据可能存在多种结构和类型,而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。

②清洗:对于海量数据而言,数据所处的价值层次不一样,就必然存在由于价值低而导致开发成本偏大的数据,还有与数据分析毫无关系的数据,而另一些数据则是完全错误的干扰项,所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。

1.3数据的存储与管理

当我们采集数据完成后,就需要将其存储起来统一管理,主要途径就是建立相应的数据库,进行统一管理和调用。在此基础上,需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术;以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。

1.4数据的统计分析

一般情况下,统计与分析主要就是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

1.5数据分析与挖掘

所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中,揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是,数据挖掘一般不会有预先设计好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

2数据分析的8个层次

2.1标准化报告(StandardReports)

标准化报告作为数据分析的第一个层次,要求相对较低,主要是借助相应的统计工具对数据进行归纳总结,得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。

2.2即席查询(AdHocReports)

用户可以通过自己的需求,灵活地选择查询条件,系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中,用户随意添加想要查询的指标按钮再加上相应的限制条件,就可以立即生成可视化的统计结果,不仅一目了然,而且没有任何操作难度。

2.3多维分析(QueryDrilldown)

多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称,常用的分析方式包括:下钻、上卷、切片(切块)、旋转等各种分析操作。以便剖析数据,使分析者、决策者能从多个角度多个侧面观察数据,从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作,切片的结果是得到了一个二维的平面数据(切块是在给定的数据立方体的两个或者多个维上进行选择操作,而切块的结果是得到了一个子立方块)。转轴相对比较简单,就是改变维的方向。

2.4仪表盘与模拟分析(Alerts)

仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件(如滑动块、可调旋钮、选择框等),来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时,图形中的曲线、柱形组或分析指标等要素就会发生相应的运动,而这种运动正好反映了该参数的变化对模型行为的影响,如果这种变动引起了模型中最优解或其他关键数字的变化,能够随时将关于这种变化的结论正确地显示出来。

2.5统计分析(StatisticallyAnalysis)

我们知道概率论是数理统计的基础,数理统计是在其基础上研究随机变量,并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面:

①描述统计:主要是集中趋势、离散程度、分布形状等,统计图(方图、箱线图、散点图等);

②数据的分类汇总;

③基础统计分析:方差分析、时间序列分析、相关和回归分析、(主成分)因子分析等统计分析方法。

2.6预测(Forecasting)

在统计分析和数据挖掘领域,对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式,然后以这些模式为支点,就可以对未来进行预测。

2.7预测模型(PredictiveModeling)

随着数据分析学家对数据挖掘技术的不断探索,出现了很多预测模型以及与之相对应的算法,但是很难确定某个模型是最精确的,因为不同的领域,不同的条件,对应的预测模型是不一样的,所以没有统一化的最优模型,只存在有选择性的最优模型。下面介绍几种典型的预测模型。

①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut,该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,b0称作常数项(截距项),b1称作回归系数。b0+b1xt是非随机部分,ut是随机部分。而在很多情况下,回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系,这就是多元线性回归模型需要解决的问题,其一般形式为:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是这个多元回归问题的m个自变量,b1、b2、…、bm是回归方程对应于各自变量的系数,又称偏回归系数。

②贝叶斯网络:贝叶斯网络是基于概率推理的数学模型,而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合,有向无环图中的每一个节点便是一个随机变量,而有向边表示随机变量间的条件依赖,条件概率表中的每一个元素对应有向无环图中唯一的节点,存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的,在多个领域中获得广泛应用。

③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法,在经济领域也被证明是最有效的预测模型。在不同的时间序列下,指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。

2.8最优化

(Optimization)因为优化问题往往可以带来巨额的收益,通过一系列可行的优化,可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判,就可以确定最优方案那是最好的。但是事实不会那么简单,所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为:

①线性规划:当目标函数与约束函数都是线性函数时,就是一个线性规划问题。而当同时满足约束函数和目标函数时,则可以认为是最优解。

②整数规划:要求决策变量取整数值的数学规划。

③多目标规划:指衡量一个决策优劣的标准不止一个,也就是有多目标函数。

④动态规划:将一个复杂的问题划分为多个阶段,逐段求解,最终求出全局最优解。

3用Excel实现简单的数据分析

①对于企业而言最重要的是利润,所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据,通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。

②其次,我们必须要做进一步的分析。已经对整体的情况有了一定的把握,所以就可以朝着不同的方向去挖掘一些有价值的信息,为企业高层做决策提供有力的依据。对产品销售而言,客户结构能够有效地反映客户的地域分布,企业可以根据客户的来源,在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区,对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额,而对于销量最小的地区考虑开辟新的市场。

统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小,以及各地区总销售额大小。借助图表描述,管理者可以对企业在某段期间内的销售状况有一个大概的把握,只有掌握了这些的信息,才能更细化地去研究具体的影响因素。划分等级,对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意,以形成一个稳定的大客户群。而对于那些少量购买的客户,也要制定出相应合适的方案来留住客户。所以,分析销售额的分布情况,可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。

4用R语言实现数据多层次分析

R语言是一种自由软件编程语言与操作环境,是一套完整的数据处理、计算和制图软件系统,它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时,当我们遇到很大的原始数据,但用来建模的数据较小,则可以先在数据库中进行整理,然后通过R与数据库的接口提取数据,数据库适合存放和整理比较规整的数据,和R中的数据框有良好的对应关系,这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。

5结语

数据分析论文篇3

异常客户是在一段考察时期内与客户的一般行为模式不一致的对象,它们往往被称为孤立点。异常客户分析(即孤立点挖掘)具有重要的现实意义,对于一个企业来说,这些数据往往比常规的客户模型信息更有价值。本文针对销售企业,假设已经用一定的方法探测到了孤立点,接下来采用最小二乘法拟合直线中的斜率分析其性质,从而确定是积极的客户还是消极的客户。

二、最小二乘法拟合直线

最小二乘法是一种数学优化技术。它以某一社会、经济或自然现象为对象,寻找一拟合曲线,以满足给定对象系统的一组观测数据。通常要求选择的拟合曲线会使各观测数据到拟合曲线的误差的平方和最小。

本文研究销售企业(如商场)异常客户的性质。设一段时期内客户的累计消费金额为y,对应的消费时期为x。假定测得客户的n个数据(x1,y1),…,(xn,yn),则在XOY平面上可以得到n个实验点:Pi(xi,yi)(i=1,…n),这种图形称为“散点图”(如图1,图2)。在利用最小二乘法进行分析时,各种非线性关系的拟合曲线均可线性化,因此此处选择直线y=ax+b作为拟合直线,寻求x与y之间近似线性关系时的经验公式。其中a为直线的斜率,b为直线在y轴上的截距。

如果Pi(i=1,…n)全部位于同一条直线上,则可认为变量之间的关系为y=ax+b,但一般情况下不会如此。记估计值=axi+b,则各实验点与拟合直线之间的误差为εi=-yi=(axi+b)-yi,它反映了用直线y=ax+b来描述(xi,yi)时,估计值与观测值yi之间的偏差大小。则有:

要求偏差越小越好。但由于εi可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能反映二者在总体上的接近程度,这就是最小二乘原则。于是问题归结为根据这一要求来确定y=ax+b中的a和b,使得最小。因为F(a,b)是关于a、b的二次函数并且非负,所以其极小值总是存在的。根据罗彼塔法则,F取最小值时,有:

于是得到了符合最小二乘原则的相应解:

三、基于斜率的异常客户挖掘算法

1.问题描述

本文的目的是研究某一消费时期内,异常客户的消费倾向。取异常客户一年内各月份的累计消费金额为参考,记录的数据如下(表1,表2)。根据其散点图(图1,图2)可以看出,客户的累计消费金额随时间都呈上升趋势,所以难以观察出该客户是否对商场保持持久的忠诚度,是否有转向竞争对手的可能。基于斜率的异常客户挖掘算法正是要解决识别客户性质这一问题。

2.算法描述

算法:Outlier_Analysis。根据输出的a值来判断异常客户的性质:积极的或消极的。

输入:客户数据,即参考点,由有序点对(xi,yi)表示;参考点的个数n。

输出:a(直线的斜率),b(直线在y轴上的截距)。

方法:

(1)初始化a、b。

(2)对客户的n个观测数据(即n个记录点)进行相关数据计算:

(3)ifa<0then

客户购买金额呈减少趋势,为消极客户

else

客户购买金额呈上升趋势,为积极客户

数据分析论文篇4

关于医学论文数据、资料的统计分析方法,总结如下:

1.定量资源

对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因索方差分析;

2.定性资源

对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用X-检验;

3.回归分析

对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;

4. 多因索、多指标资料

数据分析论文篇5

无论是政治,还是经济形势,任何政府、企业、个人,面对未来进行投融资等项目决策,不经过数据分析论证就简单的决定会带来巨大的危害,已经渐渐的被人们认同。所以,只要参与社会政治、经济等活动,进行投融资,期望带来一定的经济效益,或者社会效益,就必须加强数据分析工作,对投融资意向进行评估,为决策提供科学的依据。

(一)项目数据分析

1、什么是项目数据分析工作

项目数据分析就是研究将经济学理论用数学模型表示,并应用于项目投资分析的方法论。项目数据分析过程是:提出项目(研究机会)、初步可行性研究(市场、技术、资源、环境研究、效益、风险分析评价)、测算经济效益、评估和决策、可行性研究(市场、技术、资源、环境研究、效益、风险分析评价)、评估和决策、项目实施。

2、项目数据分析工作的内容、特点

(1)项目分析工作的内容

一般来说,项目数据分析的内容包括项目的经济效益评价、项目的风险分析和项目的比较选择。

项目的经济效益评价主要是在假设项目没有风险情况下的经济效益,主要针对非贴现指标(会计收益率和投资回收期)和贴现指标(净现值、内部收益率、获利指数和动态投资回收期)。

项目的风险分析,主要是进行盈亏平衡分析、敏感性分析和概率分析。

项目的比较选择,主要是独立方案、互斥方案和不完全互斥方案的设计、评估等选择。

(2)项目分析工作的特点

项目数据分析工作是一门边缘科学,其特点是以定量分析为主要分析手段,通过分析翔实的数据进行项目的论证得出定性结论,并以定量数据进行说明。显然,项目数据分析,必须通过建立数学模型的方法进行分析涉及经济学、数学、统计学和预测学。

(二)什么是投融资

1、项目投融资的概念。

投资是指 “为了在获得预期的收益而作出的确定的垫支或牺牲的各种经济行为” 。因此,投资并不局限于与基础建设相关的经济活动,还包括证劵投资、信贷投资和信托投资。

2、项目投资的特点

项目投资的特点是现在投入资金进行经济效益的博弈,通过对该项目的管理进行长期或者未来的收益,不仅具有时间性,而且具有较强的风险性,其本质就是获得预期的收益。

一些大型的投资项目,通常都由一家专业的财务顾问公司担任其项目的财务顾问,财务顾问公司做为资本市场中介于筹资者与投资者之间的中介机构凭借其对市场的了解以及专门的财务分析人才优势,为项目制定严格的,科学的,技术的财务计划以及形成最小的资本结构,并在资产的规划和投入过程中做出理性的投资决策。

(三)项目数据分析工作对投融资具有重要的意义

1、数据分析工作提高了工作效率,增强了管理的科学性。无论是国家政府部门、企事业单位还是个人,数据分析工作都是进行决策和做出工作决定之前的重要环节,数据分析工作的质量高低直接决定着决策的成败和效果的好坏。

2、越来越多的企业将选择拥有中国项目数据分析师资质的专业人士为他们的项目做出科学、合理的分析,以便正确决策项目;越来越多的风险投资机构把中国项目数据分析师所出具的项目数据分析报告作为其判断项目是否可行及是否值得投资的重要依据;越来越多的企业把中国项目数据分析师课程作为其中高管理层及决策层培训计划的重要内容;越来越多的有志之士把中国项目数据分析师培训内容作为其职业生涯发展中必备的知识体系。

二、从事项目数据分析工作的感受

(一)从数据分析师的角度,项目数据工作需要做到以下几个方面的服务,才可以为被服务对象提供优质的有价值的投融资报告。

1、真诚服务

所谓真诚服务,主要是因为投融资报告的价值来自于数据分析师精湛的业务能力,细致的数据搜集能力、阅读能力、分析能力和预测能力。无论是竞争性项目、还是基础性项目,由于数据分析工作时一门边缘科学,需要对真实和翔实的数据进行定量或者是定性分析,需要对国家或者国际政策进行审读,需要对经济形势进行判断,需要对项目所属的行业进行科学的宏观把握,因此,项目数据分析师在搜集相关数据,在分析相关数据时,在阅读国家或者国及政策时,在斟酌行业趋势时,都需要真诚的付出,否则,闭门造车或者移花接木式的投融资报告,只能是危害客户,只能给客户带来更大的风险,而不是丰厚的收益。

2、真心服务

所谓真心服务,主要是指项目数据分析师在服务客户时,需要站在客户的角度思考问题。由于项目数据分析师,是从属于某公司,因此从公司利益出发,需要为公司赚取一定的利润,这部分利润就来自于数据分析师所服务的客户。从客户角度思考,实际上客户委托数据分析师针对企业的项目意向而进行的数据分析,实际是希望数据分析师提供的项目方案,不仅是可行的,能够为公司获得预期利益,而且是风险较小的,可以操作实施的投融资报告。

3、真实服务

所谓真实服务,就是指数据分析师在进行项目数据分析,通过建立数学模型的方法进行分析并提出具有科学性的、前瞻性的、科学性的、可操作性的投融资项目预测报告时,需要是真实服务。一般来说,客户在提出项目设想时,是充满了憧憬,也具有天真的幻想,那么数据分析师提出的可行性报告如果是刻意逢迎客户的主张,那么对客户来说将是灾难性的打击。

4、真情服务

所谓真情服务,主要侧重于项目付诸于实践中,项目数据分析师跟踪调查项目实施的禁毒,以及修正项目风险分析和比较选择。

(二)从数据分析师所服务的客户角度来看,客户也需要做到以下几个方面的工作:

1、信赖数据分析师的服务

对数据分析师服务的企业来说,信赖数据分析师是必要的。一方面,投融资项目报告,制定严格,具有科学性,是理性的投资决策;另一方面,

2、忠诚数据分析师的服务

3、诚挚和数据分析师的合作

数据分析师在进行投融资项目分析时,一方面,客户的意项是否描述清晰、完整、完全,是非常重要的,它决定了投融资项目报告的起点和方向;另一方面,企业的真实经营状况,也对项目报告具有决定性的意义。因此,企业需要同数据分析师进行诚挚的、真诚的合作,否则,项目数据报告就存在不可预知的、本可避免的巨大风险。

三、为项目方和投资方案例分析

支持创新 不忘避险—“倍爱康”生物科技项目作为股东类项目,“中投信保”为“倍爱康”提供4笔贷款担保,累计担保余额1900万元,实现保费收入28.5万元。

“倍爱康”是由冶金自动化研究院投资兴办的高新技术企业,主营磁分离酶联免疫检测系统等医疗器械和试剂的购销与制造。企业贷款用途为引进加拿大的磁酶免系统。但贷款后对该产品的市场推广未见成效,研发费用又较高,在销售无法取得突破的情况下,使得公司的净利水平偏低。同时,下游各地方医院压款情况严重。虽引入的国外先进技术不如预期般成功,企业仍按时还贷,该项目顺利完结。

数据分析论文篇6

【关键词】关联数据;定量分析;语义网

Abstract:The paper focused on Linked Data which has been published by 1990- 2010 in China for the analysis of data,then used quantitative analysis method to carry on the statistical analysis,analyzed the situation of Linked Data from time distribution,author distribution,periodicals distribution,Scientific research fund distribution and the subject distribution.At the same time,this paper summarized the shortcoming and development trend of Linked Data research.

Key words:Linked Data;quantitative analysis;Semantic Web

关联数据的概念为WWW(World Wide Web)的发明者,被誉为互联网之父的Tim Berners-Lee于2006年在《关联数据笔记》中首次提出,在该文中他分析了Web的发展与演变,提出了发展数据网络的思想,而数据网络的核心和关键则是关联数据。2009 年在TED大会上,他提出关联数据就是一箱箱数据,当通过开放标准关联在一起时,从中可以萌发出很多新事物和新应用[1]。

关联数据简单的说就是一些RDF格式的数据,也是用三元组(主体,谓词,客体)来表示资源。所以研究关联数据,知道数据的RDF(Resource Description Framework)格式是必不可少的。关联数据和RDF数据最主要的区别在于关联数据是要到网上,并供人搜索的,所以描述资源的三元组的不再是统一资源标志符(URI),而是URI和.

[2]白海燕.基于关联数据技术的信息组织深度序化研究[2010-09-26]..

[3]Boutin G.Tying Web 3.0,the semantic Web and linked data together[2010-09-26].http:///archives/understanding_the_new_web_era_web_30_linked_data_s.php.

[4]赵华等.UG在我国的研究、应用现状及进展[J].现代情报,2008(10):137-141.

[5]黄永文.关联数据在图书馆中的应用研究综述[J].现代图书情报技术,2010,05:1-7.

[6]吴玥,李占羽.基于关联数据开放政府数据[J].电脑知识与技术,2010,31:8688-8691.

[7]赵梓彤,谢海先.关联数据在网络信息管理中的应用[J].图书馆学研究,2011,12:47-50.

[8]张宁.基于关联数据的农业信息空间数据组织研究[J].农机化研究,2012,04:249-252.

[9]洪娜,钱庆,方安,范炜,李亚子,王军辉.生物医学关联数据研究进展与比较分析[J].图书情报工作,2012,06:123-129.

[10]刘炜.关联数据:概念、技术及应用展望[J].大学图书馆学报,2011,02:5-12.

[11]D2R Server-Publishing Relational Databases on the Semantic Web[EB/OL][2010-12-28].http://www4.Wiwiss.fu-berlin.de/bizer/d2r-server/.

[12]:Overview[EB/OL].[2010-09-12].http:///.

[13]Open Link Software[EB/OL][2010-09-11].http://.

[14]Coetzee P,Heath T,Motta E.SparqPlug:Generating linked data from legacy Html,Sparql and the DOM.[2010-09-26].http:///ldow2008/papers/05-coetzee-heath-sparqplug.pdf.

[15]Cygan关联数据k B.Pubby-a linked data frontend for Sparql endpoints.2010-09-26].http://www4.wiwiss.fu-berlin.de/pubby/.

[16]Talis platform.[2010-09-26].http:///platform/.

[17]沈志宏,张晓林.关联数据及其应用现状综述[J].现代图书情报技术,2010,11:1-9.

[18]徐华.关联数据在国外图书馆中的应用及其借鉴意义[J].图书馆学研究,2011,16:87-89.

[19]纽约时报以关联数据形式新闻目录[J].中国传媒科技,2009,06:11.

数据分析论文篇7

企业统计的目的是为企业经营决策管理提供统计信息。在市场经济条件下,企业经营决策极具风险性,风险产生于不确定性并由不确定性程度决定风险的大小,而不确定性又与信息的准确和及时程度直接相关,信息愈准确及时,不确定性愈低,反之,亦然。所以,准确性和及时性是对统计资料的两项基本要求。其中,准确性的要求是第一位的,是统计工作的生命。它确定着统计资料是否有效和价值的高低,是衡量统计数据质量的根本标志。准确可靠的统计数据,便于决策和管理者正确地把握形势,客观地剖析问题,从而作出科学的决策。反之,有水分的、失实的统计数据,相互矛盾的统计数据,给决策者以错误的信号,将会误导决策和调控,对企业的发展将会造成重大损失。因此,统计工作者必须以对本职工作高度负责的精神,以统计数据为对象,以消除统计数据的差错为目标,千方百计搞准统计数据,达到强化统计数据质量控制的目的。

二、常见的统计数据质量问题及分析

(一)、数据虚假

这是最常见的统计数据质量问题,也是危害最为严重的数据质量问题。这类统计数据完全是虚构的杜撰的,毫无事实根据。造成统计数据虚假的因素多种多样,比如,有意虚报,瞒报统计数据资料,指标制定不严密,统计制度不完善,不配套等。

(二)、拼凑的数据

这种数据是把不同地点,不同条件,不同性质的数据在收集、加工、传递过程中,人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种东拼西凑的数据,虽然分别有事实根据,但是从整体上看数据是不符合事实的,其性质与数据虚构相同。

(三)、指标数值背离指标原意

这是由于对指标的理解不准确,或者是因为指标含义模糊,指标计算的随意性大等原因造成的数据质量问题,表现为收集整理的统计数据不是所要求的统计内容,数据与指标原意出现走样,面目全非。

(四)、数据的逻辑性错误

这是指统计资料的排列不合逻辑,各个数据、项目之间相互矛盾。例如,企业卷烟库存商品中主要的组成部分是省产烟、省外烟、国外烟,如果企业报送的统计资料中,卷烟库存商品总金额显著下降,而省产烟库存金额大幅度上升,省外烟和国外烟库存金额只是持平或只有小幅度的下降,这就存在矛盾,表明数据有逻辑性错误。

(五)、数据的非同一性

它是指同一个指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据的不可比性。例如,2003年的统计资料中不含税价在30元以上的卷烟为一类卷烟,而在2004年的统计资料中,不含税价50元以上的卷烟为一类卷烟,如果在此基础上来比较两年的一类卷烟的销售量,而得出一类卷烟销售量大幅度下降的结论显然是不合理的。

(六)、数据不完整

这里指调查单位出现遗漏,所列项目的资料没有搜集齐全,不符合统计资料完整性的要求。数据不完整,就不可能反映研究对象的全貌和正确认识现象总体特征,最终也就难以对现象变化的规律性做出明确的判断,甚至会得出错误的结论。

(七)、统计手段和统计分析落后

目前许多企业统计工作仍处于手工状态,很原始!即使采用计算机也仅仅是减少工作量去做一些汇总、指标计算,并没真正引用先进的计算机技术和网络技术。所做的统计分析也局限于事后分析,即对统计数据进行单纯的讲解说明;不能利用网络技术实行信息共享等方式进行事前分析和预测。换句话说,“统计预测”这一职能根本没有发挥作用,缺乏对信息的收集、综合和系统化。

此外,常见的统计数据问题还有计算错误、笔误等。

可见,统计数据质量问题既可能是来自于设计阶段,也可能是来自于统计资料的整理阶段。

三、统计数据质量控制方法

(一)、统计数据质量控制的原则应当是全过程的、全员参加的、以预防为主的数据质量控制。

首先,统计数据质量控制要贯穿于统计工作的全过程。每进行一步,都要对已完成的工作进行检查、对已发生的差错及时进行纠正,做到层层把关,防止差错流入下一个工作环节,以保证统计数据的质量。其次,参加统计数据质量管理和控制的人员应当是全面的。全体统计工作者都要树立数据质量意识,各个主要的工作环节都要落实专人负责。统计数据质量的好坏,是许多工作和许多统计工作环节质量的综合反映,牵涉到统计工作的所有部门和人员,因此,提高数据质量需要依靠所有统计工作者的共同努力,决不是单纯靠某一个部门或少数人所能搞得好、抓得了的。只有人人关心数据质量,大家都对数据质量高度负责,产生优质的统计数据才有坚实的群众基础。因而,统计数据质量控制要求把差错消灭在它的形成过程中,做到防检结合,以防为主。这就要求有关人员在质量控制中具有超前意识,抛弃那种出现了统计数据问题才想办法解决问题的被动的局面。

实行全员性的质量控制,就要把统计数据质量目标及其关键交给广大统计工作者,落实到每个工作岗位,使每个岗位都有明确的工作质量标准,做到合理分工、职责明确,职责越明确,数据质量控制就越有保证。

(二)、统计设计阶段的质量控制

统计设计是统计工作的首要环节,统计数据质量的好坏,首先决定于这个过程,它是提高统计数据质量的前提。如果设计过程的工作质量不好,就会给统计数据质量留下许多后遗症。设计过程的质量控制需要抓好以下几项工作:

1、正确规定统计数据质量标准。数据质量标准是指根据不同的统计目的对统计数据精度所提出的要求。满足统计目的精度的统计数据就是准确的,高质量的统计数据。首先要作充分的调查,系统地收集市场和用户对统计数据的反映和实际使用效果的情况;其次要分析研究过去统计数据的主要质量问题,找准统计数据质量控制的主攻方向;最后要进行反复论证,考虑到统计工作中实际能够达到的水平。

2、合理设计统计指标体系及其计算方法。

统计指标设计得是否合理,也是影响统计数据质量的因素之一。采用统计报表搜集资料,首先要实行标准化管理,制定的指标要符合统计制度的规定,范围要全,分组要准,指标涵义的解释和计算方法要精确;其次要对统计报表的设计、颁发、填制、汇总的全过程实行全面质量管理。

(三)、资料整理鉴别阶段的质量控制

统计资料整理鉴别阶段出现的差错是统计数据质量问题的重要方面。如果资料不准确,就会影响结论的正确。因此,要特别注意审查资料的可靠性和适用性,要弄清楚统计指标的口径范围、计算方法和时期时点。对于口径不一致或不完整的资料,需要进行调整、补充;对于相互比较的资料,必须要注意有无可比性;一旦发现数据有严重的质量问题,应进行核实,避免有质量问题的资料进入汇总处理阶段。总之,对搜集到的资料,经过鉴别推敲、核实审定、使之准确无误,才能使统计数据的质量得到保证。

(四)、人为错误的质量控制

1、尽可能采用计算机处理统计资料,同时提高统计分析水平。

计算机作为当今社会不可缺少的高科技产物已渗透到我们生活、工作中的各个环节。运用计算机整理、汇总统计资料,速度快、效果好,其优越性是手工整理无可比拟的。现在国内大部分著名企业基本上实行网络化、全球化,利用网络资源了解世界先进行业信息,采用科学先进的统计分析方法和手段,进行横向、纵向对比,找差距挖潜力,努力赶超世界先进企业。要能够写出有一定深度的统计分析预测报告,系统、全面、科学地去挖掘利用网络资源和从市场取得的第一手资料,完善整个分析、预测手段方法和过程。但是,也应重视计算机处理数据的质量问题,提高计算机数据处理的关键在于提高录入数据的可靠性。

2、统计工作者本身应提高自身素质。

统计人员没有深厚的专业知识和丰富的实际工作经验,没有跟上时代及时进行知识更新,不善于统计调查获取第一手资料,写不出有一定深度关于本企业某一方面对决策层有参考价值的统计分析报告。因此,对统计人员应该加强培训工作,企业内部应建立配套的培训机制,对每一层次统计岗位实施针对性的培训,必要时到企业外请有关专家学者授课,或到相关先进单位进行考察学习,做到取长补短。统计工作者本身也应该努力学习统计知识,钻研业务,不断提高统计业务素质和水平,杜绝因业务不熟悉而造成的数据质量问题。

3、加强对统计人员的职业道德培训。

目前,上级部门下达计划和各类政绩考核对统计数据干扰不可低估。有些地方,以是否完成计划和各类数据的高低作为考核地方政绩的依据,导致很多下级部门所报的统计数据高于计划数或持平,这并不是计划部门的计划多么精确合理,而是说明某些统计对象或统计部门受某种利益的驱动而使统计数据的质量得不到保障。当然,数据不真实、不准确的原因是多方面的,其中统计人员的思想道德对统计数据的影响是很大的。这就要求我们加强对统计人员的思想品德和职业道德教育,要求每一个统计工作者必须坚持实事求是的工作作风,认真对待每一个统计数据,如实地反映情况。

4、加大统计执法力度,保证源头数据的准确性。

统计部门今后应在加强统计信息工程建设的基础上从数据采集的圈子中跳出来,重点加大统计执法检查,对弄虚作假的单位要坚决严肃查处。在立法上,罚款数额应该大幅增加,以威慑统计违法者,逐步建立全社会的统计诚信体系。

数据分析论文篇8

[关键词]统计工作数据误差原因策略

一、目前我国统计工作现存的不足之处

领导的重视程度不够,或者说,一些领导干部在如何正确看待统计工作的问题上存在有一定的误区,从而出现了“拍脑袋、凑数字、瞎估计”的现象,统计工作,由于统计方法、手段等的不合理、不完善,造成了统计性误差的存在;统计数据的真伪,由于缺乏有效的监管措施,在一定程度上,存在着人为地虚报或瞒报的成份。

二、存在于统计工作中的“数据误差”产生的主要原因

第一,行政部门领导干部的干预,领导干预对统计信息的准确性的影响非常大,多年以来,由于受到领导干部业绩考核指标的影响,许多基层干部出于无奈,不得不故意虚报统计数据,来为自己的“政绩”增光添彩。同时,其主管部门对此也处于无奈的窘境。第二,统计数据采集不准确。数据采集是统计数据的源头,力求统计信息准确就必须保证所采集的数据是真实的。现在的现状是:(1)报表人责任心不强,报表随意性大。(2)报表人员素质不高,对报表不理解。(3)很多的企业不重视统计,有的则是会计人员兼职。(4)某些地区、部门、行业,出于对自身利益的考虑,故意瞒报统计数据,以达到少缴、甚至不缴国家规定必须缴的一些规费、税金,从而导致了国家的相关规费、税费的大量流失。而这些地区、部门、行业,却因此而得到了大量的不当收益。第三,虽然我国的统计工作已经与国际接轨,但由于我国正在建设有中国特色的社会主义市场经济,现阶段仍处于发展中国家的阶段。统计工作中的统计方法、手段,还需要进一步的规范和完善。因此在数据采用及事理分析中,就容易产生错误,造成统计数据质量下降,影响统计工作。

三、针对我国目前统计工作中存在的“数据误差”应对的策略

1.加大对统计工作的宣传力度。力争使每一位统计参与者,特别是党政领导干部都要了解统计工作对我国国民经济建设起的巨大作用,努力提高他们对统计工作的正确认识,得到他们对统计工作的支持。开展统计法制教育,以法治统。通过多种多样的形式进行普及《统计法》的教育,从思想上提高他们对提高统计数据质量的认识,促使他们在实际工作中坚持原则,敢于同影响统计数字真实性的违法行为作斗争,真正做到以法治统。其次,还可对统计人员进行《统计法》的理论考试,让法深入人心,以便他们理直气壮地按法办事。再次,对大中专学校经济类专业应加设一门《统计法》基本知识课,以便学生将来走上统计工作岗位后能够依法办事,知法工作,把保证统计数据质量放在首要地位,为党政领导及企业管理和决策提供可靠的依据。

2.对目前干部考核中一些片面强调GDP增长的业绩考核制度进行改革。长期以来,统计工作中存在着“以数字论英雄”的局面,从而出现了“官出数字、数字出官”的怪现象。淡化统计数字的政绩观,建立科学的干部考核制度。这是走出“官出数字、数字出官”怪圈,让统计数据不受个人意志左右的治本之策。首先应当在调查研究的基础上,制定切实可行的考核目标,防止因考核目标不切实际而引发的虚报浮夸的歪风蔓延。其次,应完善干部实绩考核统计制度,将定量考核与定性考核有机结合起来,改进目标考核实绩的统计方法,确保目标考核实绩数据的准确性;最后,应建立干部政绩公议制度,扩大干部政绩考核的民主。实施领导干部政绩公议制度可改变过去那种干部只“对上负责、不对下负责”的弊端,提高干部工作的公开化、民主化程度,不断增强干部政绩考核准确性。增强他们工作的责任感和为民服务意识。

3.完善统计工作中的统计考核指标体系,以及与此相适应的统计方法,从而在源头上来遏制问题产生的基本动因。必须对我国统计工作现状进行深入的分析,总结出统计工作中的行之有效的方法。在现实工作中,政府已经相应成立了国家统计局直属调查队,其隶属关系不在当地,因而可以免受许多人为因素的干扰,为我国宏观经济决策提供重要的参考依据。

4.努力提高我们统计从业工作者的自身素质。统计工作者自身素质的提高,是做好统计工作的首要的、基本的条件。试想,如果一个统计工作者对统计工作不太了解,统计手段落后,基层统计队伍不稳定,我国统计工作的质量的提高又从何谈起?

5.综合使用行政手段、法律手段和经济手段,提高统计违法成本。可以从以下三方面着手:一是对违法的统计工作人员除依法处理外,一律清除出统计队伍。二是对参与违法的领导,一经查实,必须依照有关法规从重从快处罚,决不手软,达到以儆效尤的目的。三是将处罚费用与统计违法行为责任人挂钩,从经济上处罚责任人。这样,就可以把行政手段、法律手段和经济手段有机结合起来进行综合处罚,让违法者得不偿失。

四、结论

统计工作必须还要强调“以人为本”,以人的全面发展来带动统计工作的正确发展;并通过统计工作的正确发展,反过来推进人的全面发展。此外,充分运用现有的科技成果,使政府各职能部门数据共享,使得虚报、瞒报者无处藏身。与此同时,还可以利用网络资源,在查出虚报、瞒报的同时,去引起、带动职能部门对其进行专项调查,从而使统计工作能真正地服务于国家建设,同时服务于党风廉政建设,服务于人民的需要。但这是一个漫长的过程,需要一步一步地去努力。我相信统计工作在国家宏观调控和微观管理下,在广大统计工作者的努力下,其可靠性、真实性和权威性会逐步提高,统计数据失真的现象会得到有效的控制。统计工作会随着大家的共同努力会不断提高。

参考文献:

[1]杨伟胜,魏宏.统计在企业管理中的应用[J].统计月报,2002,(7).

[2]符华敏.我国的统计现状分析[J].统计学杂志,2003,(3).

推荐期刊