还剩7页未读,继续阅读
文本内容:
密级内部公开环境数据中心大数据平台分析Big dataplatform analysis聚光科技(杭州)股分有限公司目录.大数据背景11什么是大数据111发展现状121大数据的应用
132.大数据平台介绍24定位
2.
1.
4.产品概述2114功能224设计
2.
3.4技术错误床定义书签
2.
4.总结
254.环境数据中心
35.背景定位315功能
3253.
2.15错误!未定义书签
3.
2.
3.36技术错误!未定义书签
34.总结
46.大数据背景1什么是大数据11大数据最早在上世纪年代被提出,是指无法在一定时间内用常规软件工具对其90内容进行抓取、管理和处理的数据集合现在,业界普遍认同所谓“大数据”具有明显的特征”量级速度“3V Volume,和多样性大数据普遍具有量级大,要求处理速度快,数据本身具有Velocity Variety丰富的多样性在甲骨文公司和中国挪移研究院的相关研究文档里,都追加了第四个价值;而旧在其相关文档中给出的第四个则是真实性V——Value,M“V”Veracity大数据的价值在海量的规则或者不规则数据之中,用新的数据处理手段,以很快的速度计算或者分析出潜在规律性、根本性的判断、趋势或者预见发展现状
1.
2.随着挪移互联网的带宽的增加和智能设备销售量的上升,互联网业迎来了“云计算”和“大数据”世界经济论坛一份有关大数据的研究报告称,每天全球几十亿人使用计算机、设备、电话和医疗设备,产生海量的数据信息这些用户大部份来自GPS发展中国家,他们的需求和习惯尚未被真正理解,如果能够借助大数据相关技术分析和挖掘数据暗地里的信息,将有助于认识需求、提供预测和防范危机大数据的真正意义并不在于大带宽和大存储,而在于对容量大且种类繁多的数据进行分析并从中萃取大价值采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率数据已成为矿物和化学元素一样的原始材料,未来可能形成“数据探矿”、“数据化学”等新学科和新工艺模式大数据处理的兴起也将改变云计算的发展方向,云计算正在进入以分析即服务为主要标志AaaS的时代Cloud
2.0大数据的应用
1.
3.大数据的开辟与应用有着三个特点、数据样本,再也不是抽样,而就是数据的总体分析数据是把所有搜集到的数1据包括在内、数据不必百分之百地准确,不必剔除特例,而是从“海量”的数据中总结出绝2大部份人的共同特性用“绝大多数的特性”代表“总体的特性”、再也不注重数据之间的“因果性”,而只注重于它们之间的“相关性”3在《大数据时代》中举了不少实例讲解以上的观点、语言的翻译1传统翻译软件是设定了不少的语法规则,用这些僵化的规则拆解每一个句子,然后再逐字翻译生成不同语文的语句但这往往使翻译出来的语句非常生硬拗口,甚至错误率极高业界还盛传一个有关微软公司“机器翻译部门”的一个笑话部门每有一个语言专家辞职,翻译质量就会提高一些谷歌的翻译软件却不是这么做,他们翻译团队的成员大多非但不是语文学家,甚至连翻译成的那种语言都一窍不通他们都是一些统计学家,从大量的已存的翻译文章中对照,寻求规律,然后产生翻译的文字事实证明虽然网上搜集来的翻译文章有不少是错误的,是低质量的,但由于数据量极大,这些错误自然就被忽略了,这种方法的确大大提高了翻译的质量和准确性也就是说“不百分之百”精确的大数据用简单算法比精确的小数据用复杂算法要有效地多!、流感的预测2以前卫生单位发布流感成灾的信息,往往都是从各大医院和卫生所搜集来的数据,这个方法的最大缺点是“信息是滞后的”,但是“灾”已成事实了,卫生单位才警告社会,这时已经有不少人被感染又是谷歌提出了不同的预测办法他们是以有多少人搜索“咳嗽怎么办?”或者“发烧怎么办?”来警示流感可能发生了但除了注意到搜索这些词语的频率大幅增高外,还可以锁定是哪个区域的人开始大量搜索这种问题的答案于是谷歌就能提早告诉大众有流感开始盛行,而且传染区是向哪个方向迁移这个项目使得卫生单位及早研制预防疫苗,及早控制疫情的扩散,大幅降低了流感的传播、飞机票价高低和多早预购的关系3也许大家会直觉地认为越早买机票就越可以买到较便宜的机票一家叫Farecast公司的创始人从他的亲身经验启示了一个新的服务他发现坐他旁边的人比他晚好几天购买机票却比他的购买价格还低于是他搜集了所有航空公司的票价与提前订购时间的数据关系,并建立了数学模型现在我们任何人可以上到他的网站输入farecast.com,你的出发地和目的地,加之你要出发的时间,即将这个网页能告诉你是现在就赶快买票还是再等几天才买.大数据平台介绍2由于互联网的数据不外露,在网上的大数据TO B背景定位21功能
2.
2.设计23总结
24.环境数据中心3背景定位31环境管理部门每天要面对大量的数据,如环境监测数据、排污收费数据、排污申报数据、环境统计数据、环保信访数据、行政处罚数据、总量减排数据等这些数据,往往存在来源复杂、格式多样、不一致、不许确、不完整、存放分散等问题,给环境管理带来诸多艰难各业务系统也彼此独立,从而形成了一个个信息孤岛,数据难以共享,环境决策缺乏有效的数据支持,难以做到科学决策因此,需要建立统一的环境数据中心,全面整合各类环境资源数据,实现数据的集中管理使之成为环保各业务科室之间协同工作的数据中心,成为多媒体、文档资料和政策法规的存储中心,成为环保决策所需的数据仓库中心功能
3.
2.数据的管理
3.
2.
1.数据中心的数据来源主要于国家下发的软件系统,如污染源普查软件、环境统计软件;
1.已有的业务系统,如排污申报与收费管理系统、环保热线等
2.12369表格、电子文档、图片、视频、扫描件等;
3.Excel数据直报系统系统提供定制的录入界面,用户手工填报
4.对于这些来源复杂、格式多样、不一致、不许确、不完整、存放分散的数据进行统一的标准建立,实现信息共享,数据交互数据的管理
3.22文件的上传、修改、删除
1.•元数据的编辑
2.资源的共享
3.
2.3设计
3.
3..总4结。
个人认证
优秀文档
获得点赞 0