还剩3页未读,继续阅读
文本内容:
论数据采集工具的现实状况、问题、处理方案和展望
一、数据采集工具的I现实状况和存在的问题数据采集工具日勺发展通过了两代产品第一代数据采集工具重要是根据财务软件使用的数据库,直接拷贝财务软件数据库文献例如用友U811版本欧I软件后台数据库采用ACCESS,直接拷贝有关UFDATA.MDB文献用友U852版本日勺软件后台数据库采用SQLSERVER,可以有三种采集方式第
一、通过ODBC或者OLE DB等方式直连SQLSERVER数据库,把数据下来生成第三方文献格式,例如ACCESS或者文本文献等第
二、在SQLSERVER企业管理器或者查询分析器中直接备份需要的数据库,生成SQLSERVER数据库日勺备份文献*.BAK,然后直接拷贝该文献第
三、直接找到SQLSERVER的物理文献*.MDF,拷贝对应的文献这一代采集工具一般为通用型数据采集工具,例如文献型数据查找拷贝工具、SQLSERVER采集工具、ORACLE采集工具等这一代工具有其长处第
一、工具简洁,根据常用数据库类型做有关工具;第
二、采集数据比较完整,基本上是整个数据库所有照搬,属于数据库级不过也有明显的I局限性第一,需要有有关数据库日勺基础知识,例如ODBC数据源配置、WINDOWS认证或者SQLSERVER混合认证方式另一方面,采集的数据位所有数据,其中有诸多数据没有用,假如碰到尤其大的数据时,采集的时间很长,并且占用很大的硬盘空间第三,直接拿到的数据库备份,需要有该数据库的I环境才能恢复进去,这些需要有有关数据库操作经验的人员才能掌握第
四、采集工具分散,不能集成在一起使用因此,第一代数据采集工具在应用方面的局限性,催生了第二代采数工具的产生第二代数据采集工具充足运用了财务软件系统自身日勺后台数据库资源,通过直接连接后台数据库,采集需要用到的数据表,并通过数据转换算法把数据导出到设计了固定表构造的第三方文献中例如使用工具采集金蝶K3数据,通过填写连接SQLSERVER数据库的参数,金蝶K3服务器IP、顾客名SA、SA的)密码,直接连接到金蝶K3的数据库,然后关联有关数据表t_Accountt_Balance t_Voucher t_VoucherEntry进行查询输出成固定构造数据kmk科目库、kmye年初数库、pzk凭证库第二代工具有其长处第
一、以财务软件为单位,每种财务软件做一种接口,针对性强;采集工具集成度高,把多种财务软件接口都集成在一种数据采集工具上,以便维护和使用;第
二、采集数据属于字段级,仅采集需要日勺数据表中的某些字段,采集后的数据很小;第
三、直连数据方式,可以充足运用数据库环境资源,高效且省资源然而,这种方式也有其致命口勺弱点第
一、字段级口勺数据采集,需要对财务软件数据构造非常熟悉,只要有一点问题都需要到现场重新采集数据,非常麻烦并且假如需要某些其他的辅助字段,由于需求没有考虑周全,也需要重新采集第
二、只支持直连数据库采集,不支持备份方式采集,对于诸多单位不容许直连数据库只提供备份的状况,就需要自己手动恢复数据,对使用者规定较高第
三、采集后的数据都是按照原则数据构造进行转换整顿后的数据,原始表构造已经不复存在,这样的数据作为证据保留下来是有问题的J,对时性无法保障
二、针对数据采集工具之局限性日勺处理方案数据采集工具有如下三点原则性分歧或者局限性之处第
一、数据采集的颗粒度过大或者颗粒度过小第一代工具强调数据库的全盘拷贝,不管所采集数据与否有用所有采集,导致取了诸多没有用H勺数据,并且采集速度明显会减少,这种数据库级的采集方式颗粒度过大;而第二代采集工具仅采集使用到附表中的I某些字段,目前没有需求的字段都不会提取,假如一旦出现表构造分析不完整或者需求的增长,都要重新到现场采集,费时费力费钱,这种字段级日勺采集方式颗粒度过小第
二、数据采集接口是按照数据库类型组织还是按照财务软件类别组织第一代工具按照数据库日勺几种类型来组织采数接口,缺陷就是需要一定H勺数据库基础知识,上手不轻易第二代采集工具按照财务软件类别组织,缺陷就是财务软件诸多,需要对每种财务软件构造理解透彻,比较费功夫,一旦分析有误轻易采集数据不全第
三、采集后的I数据是整个数据库的备份还是需要通过转换后的数据第一代工具强调采集整个数据库,并且采集日勺数据不做任何变动,保持原貌,缺陷是数据过大,不好处理第二代工具在采集日勺同步做了数据转换操作,已经变化了原有数据库的构造,缺陷是构造发生变化,不能作为原始证据针对以上三点原则性分歧或者局限性之处所提出日勺处理方案
1、选择适中的采集粒度,即数据表级采集采集我们也许用到的数据表,字段不做筛选,整张表所有采集,表中记录通过where条件做过滤这样既可以防止采集无用的数据,又可以保证表构造的完整性,及时需求扩展到同一张表时其他字段也不用重新采集
2、综合财务软件类别和数据库类型自组织采集接口既有多种财务软件H勺单独接口,也有几种数据库的通用采集接口,将万全模式和傻瓜模式相结合当碰到已经有财务软件单独接口的状况,直接使用简朴模式采集,当碰到没有见过的财务软件时,采用完全模式也可以把数据完整采集到
3、采集的数据不要通过转换处理,转换过程放到单独的I数据转换阶段处理数据为用到H勺某些表,并且保持表的构造完整性,不变化表的本来的任何属性这样既可以减少数据过大,内容冗余问题,又可以保持原有格式作为原始证据之用
三、此后数据采集工具发展的方向通过对数据采集工具日勺现实状况、问题及处理方案的探讨,未来的新一代数据采集工具应当具有如下特点
1、自动搜索财务软件工具运行后通过自动检索本机注册表,本机目录,找特性文献等方式,自动检索出本机安装的财务软件及版本,并最大也许的把可以有关连接数据库的参数检索出来自动填入实现真正意义上的“以人为本”的傻瓜式取数
2、支持备份取数工具应当支持多种数据库备份的数据采集,即在安装了对应备份的I数据库环境基础上,工具提供备份还原的功能,并直接在还原日勺数据库上进行数据采集工作,将备份恢复和采集数据融为一体此外,针对多种财务软件自身的备份文献,也要加紧研发有关解析接口,可以直接读取备份文献
3、支持多种数据库方式取数数据采集工具应当能支持多种数据库的采集,包括常用的ORACLE,SQLSERVER,DB2,SYBASE,MYSQL,INFORMIX,ACCESS,SYBASEANYWHERE,INTERBASE,POSTGRESQL,TXT,EXCEL,DBF也应当包括通用数据库采数方式,例如odbc,ado方式等
4、取数模板开放性此前的数据采集接口,采了哪些表,哪些字段都是写到程序中的I,都通过了编译处理时,对于应用者来说都是黑箱操作,不透明未来的数据采集模版应当是开放式欧I,透明的这种采集接口模板化构造设计,可以轻松制作多种采集接口,支持接口的任意导入和导出,其开放式、图形化日勺采集模板设计界面,以便所有应用者制作数据采集接口虽然是自行开发设计H勺财务软件,通过简朴配置就能成功取数
5、取数不安装数据库客户端便捷性数据采集工具应当把连接多种数据库的方式和驱动资源进行封装,并且可以自由添加多种资源文献(例如access H勺系统数据库等)例如在连接ORACLE数据库时,诸多状况客户机上没有安装ORACLE数据库0U客户端程序,这是我们的采数工具也应当支持直接连接,而delphi中日勺ODAC组件直连ORACLE日勺方式就是一种很好的例子
6、保持原始数据表构造采集的数据保持原始数据日勺表构造,对于作为原始证据来说至关重要只有和原始数据库中的表构造,包括表名称、字段名称、字段类型、字段长度这些信息一致,才也许说采集区I表和原始数据表一致,才能作为副本作为证据保留假如对表构造进行了变动或者进行了转换,那么就失去了与原始表相似的这些原子特性,就存在不一致或者也许有错误在数据中
7、压缩加密日勺安全性工具采集后的数据一般为文本格式,这样支持大数据寄存,并且要进行压缩加密,保证采集的数据安全性首先文本日勺压缩比率较高;另首先,单个文献的压缩加密很难被破解虽然发生了数据丢失,也打不开看不着里面的数据文献
8、支持财务软件多工具应当支持市面上至少90%日勺财务软件,保证应用者拿到采数工具就可以去采回数据并且工具应当支持没有财务软件模版的通用数据库采集,只要懂得财务数据库类型就可以把所有数据采集带回。
个人认证
优秀文档
获得点赞 0