还剩45页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
HUNAN UNI VERSITY毕业设计(论文)设计(论文)题目数据采集自动化处理与数据挖掘学生姓名2008526年月日20041610326数据采集学生学号自动化处理与数据挖掘为三个不同的局部进行维护,提供了更高的独立性20042软件工程级开发班对于数专业班级据表示层来说,可扩展性是一个关键因素为了支持可扩展性,Web效劳需要一种机制以防止名字冲突,并允许一个程序只处理自己所关指导老师心的元素XML名称空间Namespaces提供了一种简单、通用的方式以区分相同名字的元素或属性为了支持可扩展性,XML中的每个元素和属性都有一个相关的名称空间林亚平系主任(院长):数据格式Web效劳需要一种方法定义Web效劳消息中使用的数据类型XML Schema标准标准化了一个描述XML数据类型的符号集,还定义了一个内置简单数据类型的集合和在各XML文档中建立元素类型的机制XMLSchema规定了XML文档的逻辑结构,定义了元素、元素属性以及元素和元素属性之间的关系系统的体系结构传统的两层结构在过去应用系统开发过程中,Client/Server体系结构得到了广泛的应用其特点是,应用程序逻辑通常分布在客户和效劳器两端,客户端发出数据资源访问请求,效劳器端将结果返回客户端但Client/Server结构存在着很多体系结构上的问题,比方当客户端数目激增时,效劳器端的性能会因为负载过重而大大衰减;一旦应用的需求发生变化,客户端和效劳器端的应用程序都需要进行修改,给应用维护和升级带来了极大的不便;大量的数据传输增加了网络的负载等等三层结构简介所谓三层体系结构,是在客户端与数据库之间参加了一个“中间层〃,也叫组件层这里所说的三层体系,不是指物理上的三层,不是简单地放置三台机器就是三层体系结构,也不仅仅有B/S应用才是三层体系结构,三层是指逻辑上的三层,即使这三个层放置到一台机器上三层体系的应用程序将业务规则、数据访问、合法性校验等工作放到了中间层进行处理通常情况下,客户端不直接与数据库进行交互,而是通过COM/DCOM通讯与中间层建立连接,再经由中间层与数据库进行交互⑸随着分布式对象技术的逐渐成熟,多层分布式应用体系结构得到了越来越多的应用应用系统只有向多层分布式转变,才能最终解决Client/Server结构存在的问题在多层架构下,应用可以分布在不同的系统平台上,通过分布式技术实现异构平台间对象的相互通信将应用系统集成于分布式系统之上,能极大地提高系统的可扩展性在多层分布式应用中,在客户端和效劳器之间参加了一层或多层应用效劳程序,这种程序称为“应用效劳器〃开发人员可以将应用的商业逻辑放在中间层应用效劳器上,把应用的业务逻辑与用户界面分开在保证客户端功能的前提下,为用户提供一个简洁的界面这意味着如果需要修改应用程序代码,只需要对中间层应用效劳器进行修改,而不用修改成千上万的客户端应用程序从而使开发人员可以专注于应用系统核心业务逻辑的分析、设计和开发,简化了应用系统的开发、更新和升级工作因此,本系统将选择三层体系结构,图
2.1是系统高层逻辑体系结构图用部署三层架构就B/S模式的系统的开发,具体技术又有多种选择JSP+J2EE,ASP+IIS,ASP.NET+Microsoft.NET Framework+IIS,PHP+Apache,就这几门技术,可以说各有其优缺点,分析如下JSP技术具有良好的跨平台性,加上J2EE功能十分强大,但是J2EE的布置使开发本钱显得略高,而且没有良好的安装界面PHP技术是早期动态网页技术中的强手,但随着JSP技术与ASP技术的不断更新,使得PHP技术稍微比较落后ASP技术类似于PHP技术,开发简便,快速,加上HS的功能支持,是比较简易快速的开发技术ASP.NET可以说是ASP技术的替代技术,是ASP的一大进步,在Microsoft.NET Framework的强大支持下,可以使用C#、VB、JavaScript等数十种语言来编写代码,采用预先编译技术,使得代码平安性加强Microsoft.NET Framework是微软推出的一套下一代开发平台从开发人员的角度来看,.NET是一个公共平台的类库FCL,包括一个公共语言运行库CLR因为只要符合.NET的公共运行标准CLS的语言都可以使用它提供的强大的类,并编译为微软的中间语言MSIL,在其他的应用中就可以当作一个组件来调用同时享受公共语言运行库带来的一切好处垃圾自动回收GC、实时编译JIT、跨语言互动、跨平台.NET可比喻是操作系统提供应开发人员的面向对像的API应用程序编程接口ASP.NET只是.NET中的一局部它除了是编译执行速度快外,最大的优点是页面和代码别离的编写方式,对惯使RAD工具的人来说是个福音再加上.NET运行库提供的支持事件的各种WEB控件,和以前编写网页方式相比可谓是一场革命ASP.NET可以使用.NET平台快速方便的部署三层架构.NET中可以方便的实现组件的装配,后台代码通过命名空间可以方便的使用自己定义的组件表示层放在ASP.NET页面中,数据库操作和逻辑层用组件来实现,这样就很方便的实现了三层架构
2.
4.4IISIIS是Internet InformationServer的缩写,它是微软公司主推的效劳器,最新的版本是Windows2003里面包含的IIS6,IIS与WindowNT Server完全集成在一起,因而用户能够利用Windows NTServer和NTFS(NT FileSystem,NT的文件系统)内置的平安特性,建立强大,灵活而平安的Internet和Intranet站点IIS支持HTTP(HypertextTransferProtocol,超文本传输协议),FTP(FeleTransfer Protocol,文件传输协议)以及SMTP(Simple MailTransfer Protocol,简单邮件传输协议),通过使用CGI和isAPi,ns可以得到高度的扩展ns支持与语言无关的脚本编写和组件,通过ns,开发人员就可以开发新一代动态的,富有魅力的Web站点HS不需要开发人员学习新的脚本语言或者编译应用程序,ns完全支持VBScript,JScript开发软件以及Java,它也支持以工和WinCGI,以及ISAPI扩展和过滤器IIS的设计目的是建立一套集成的效劳器效劳,用以支持HTTP,FTP和SMTP,它能够提供快速且集成了现有产品,同时可扩展的Internet效劳器HS相应性极高,同时系统资源的消耗也是最少,HS的安装,管理和配置都相当简单,这是因为HS与Windows NTServer网络操作系统紧密的集成在一起,另外,HS还使用与Windows NTServer相同的SAM(Security AccountsManager,平安性账号管理器),对于管理员来说,IIS使用诸如Performance Monitor和SNMP(Simple NerworkManagement Protocol,简单网络管理协议)之类的NT已有管理工具IIS支持ISAPL使用ISAPI可以扩展效劳器功能,而使用ISAPI过滤器可以预先处理和事后处理储存在ns上的数据用于32位Windows应用程序的Internet扩展可以把FTP,SMTP和HTTP协议置于容易使用且任务集中的界面中,这些界面将Internet应用程序的使用大大简化,HS也支持MIME(Multipurposelnternet MailExtensions,多用于Internet邮件扩展),它可以为Internet应用程序的访问提供一个简单的注册项体系结构建立的几个原则系统在.NET体系结构的选择上,基于以下几个原则
1.尽量创立可重用代码在确认体系结构和基础代码将要提供什么样的效劳时,最重要的任务就是找出那些通用的、可重用的任务,这些任务将被不同的程序模块调用构建HWMPS的体系结构和基础框架也必须是可扩展的,应该支持功能的增加与扩展而不影响原有的功能模块
2.加强设计模式与最正确实践在设计HWMPS体系架构时,应自底向上的设计每一步进行底层的最正确模式设计
3.提供通用功能提供一个健壮的体系结构另一种益处就是能够发布被其他组件共享的有用功能,比方定义一些异常类、日志类、页面类,所有的基页面都继承自这些类
4.提供开发基础除了加强设计模式和提供通过功能外,自下而上的建立体系结构还有另外的好处,许多开发团队会遇到一个问题,那就是每个人会按自己独特的方式去完成任务,由于规模大并且对每一个问题可以提供多种解决方法,这个问题会变得特别突出通过建立一个强壮的体系结构,可以向开发者明确的描述如何去完成不同的任务,可以提供标准化的代码,用开发者用来处理缓存、调用上下文、数据访问等当开发者围绕该体系结构执行各种不同的任务时,就可以告诉他们如何使用数据挖掘什么是数据挖掘数据挖掘Data Mining,又称为数据库中的知识发现Knowledge Discoveryin Database,KDD,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘〃知识并非所有的信息发现任务都被视为数据挖掘例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索information retrieval领域的任务虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创立索引结构,从而有效地组织和检索信息尽管如此,数据挖掘技术也已用来增强信息检索系统的能力数据挖掘能做什么数据挖掘能做以下六种不同事情分析方法
1.分类Classification首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类例子1信用卡申请者,分类为低、中、高风险2分配客户到预先定义的客户分片注意类的个数是确定的,预先定义好的
2.估值Estimation估值与分类类似,不同之处在于,分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别是确定数目的,估值的量是不确定的例子1根据购置模式,估计一个家庭的孩子个数2根据购置模式,估计一个家庭的收入3估计real estate的价值一般来说,估值可以作为分类的前一步工作给定一些输入数据,通过估值,得到未知的连续变量的值,然后,根据预先设定的阈值,进行分类例如银行对家庭贷款业务,运用估值,给各个客户记分Score0~1然后,根据阈值,将贷款级别分类
3.预言Prediction通常,预言是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言从这种意义上说,预言其实没有必要分为一个单独的类预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少
4.相关性分组或关联规则Affinity groupingor associationrules决定哪些事情将一起发生例子1超市中客户在购置A的同时,经常会购置B,即A=〉B关联规则2客户在购置A后,隔一段时间,会购置B序列分析
5.聚集Clustering聚集是对记录分组,把相似的记录在一个聚集里聚集和分类的区别是聚集不依赖于预先定义好的类,不需要训练集例子1一些特定表现的聚集可能预示了一个特定的疾病2租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群聚集通常作为数据挖掘的第一步例如,〃哪一种类的促销对客户响应最好?〃,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后对每个不同的聚集,答复下列问题,可能效果更好
6.描述和可视化Des criptionand Visualization是对数据挖掘结果的表示方式数据挖掘的实现在技术上可以根据它的工作过程分为数据的抽取、数据的存储和管理、数据的展现等关键技术
1.数据的抽取数据的抽取是数据进入仓库的入口由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理在数据抽取方面,未来的技术开展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护
2.数据的存储和管理数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的效劳器
3.数据的展现在数据展现方面主要的方式有查询实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识系统功能设计3概要说明系统主要由3局部组成,分别Downloader,Parser,Importer.每个不同的局部有不同的责任,而每两个局部之间都是相互关联的Downloader负责把文件从不同的效劳器上下在下来而Parser负责把文件解析成标准格式的文件最后Importer把文件分别放入到Master Data,Orphan Data,Failed Data中Downloader模块Read downloadtype anddestinationfolder fromAppSettings.config主要处理流程EmailDownload TypeFtp,Ssh,Local
1.Loop everyX minutes.
2.Loop everyX minutes.X isconfigured inX isconfigured inAppSettings.config AppSettings.config图
3.1Down loader主要数据流图图
3.2Down loader设计类图此模块采用的XML schema如图
0..2由r--!SshSetting1I•■■■■■■■■■■■■■■I目HttpSetting;;・•••••••・•・・・一•・\可---»LocalSetting图
3.3Downloader的XML schema此模块完成的功能
1.从FTP效劳器上下载文件
2.从Email效劳器上下载文件
3.从Ssh效劳器上下载文件
4.从Local效劳器上下载文件摘要目前,随着社会经济的开展,金融市场变的异常庞大和复杂,而基金作为一种金融衍生产品,在金融市场中占有一席之地随着基金产业的不断开展,各种类型的基金进入金融市场,作为一种理财产品,就是要为群众效劳,帮助大家理财,然而当投资者面对大量的基金产品,不知应该怎样选择,所以我们的目标就是帮助普通的投资者和金融机构做出判断,指引他们选择适合自己的基金为了到达上面的目的,我们就需要大量的数据来做支撑,所以采集这些基金产品的数据是十分重要的,每天有来自世界各地的金融机构为我们提供这些数据,而我们的目的就是要采集这些数据,保持数据的完整性和正确性就是我们这套系统的主要功能我们采用程序的方式来实现这样的数据采集,并且不需要人工干预,本套系统采用了C#语言,以及三层结构本身的一些设计上特点做了较为详细的分析,以及大量采用了XML技术,三层架构的设计实现了一套功能相对完备并具有良好用户界面和可扩展性的系统在本中也对本文中的创新点进行阐述,同时展望了采集数据的自动化和数据挖掘的开展方向以及前景关键词基金,XML,数据挖掘Parser模块主要处理文件流程「Start
3.4Parser主要数据流图图
3.5Parser处理Matrix流程图Parser ClassDiagram«datatype»ImportXmlAlcorianclass«datatype»FileFormatAlcorianclassPerformanceFileAlcorianclass+Deliveryld+DownloadedFileName+DownloadedFileFolder+DownloadedFileFullName+ParsedFileName+ParsedFileFolder+ParsedFileFullName+GetNextParseFile+UpdateParseFileStatusParserFactoryProviderDeliveryAlcorianclass+GetParser+GetCurrentFileFormatByDeliveryld«interface»IFileParser+ProcessParserResult-status-numFailedBaseFileParser-numSuccessful#lsHeadLine#lsEndLine#ReadLine#ParseLine«utility»FileUtility+ConvertExcelToCSV+GeneratelnvalidFileTxtFileParser XIsFileParser+GenerateValidXmlFile+GetProviderRawFileByFileld+UodateStatusTable+ConvertExcelToCSV图
3.6Parser设计类图此模块采用的XML schema图
3.7,程序根据这个schema来处理各种各样的文件,这个xchema在这个模块里叫做File Format.图
3.7Parser的schema文件File Format分为三种,分别为Matrix Format,XML Format,Special Format.Matrix Format:Delimiter指的是文件中一行数据的分隔符ColumnRegex指的是一行数据的正则表达式MinPercentageOfParsed指的是最低通过率Orientation指的是文件的方向,例如excel有的方向不同DecimalPoint指的是数字的分隔符StartLineNo指的是文件数据的起始行Sheetindex指的是excel文件的sheetoEndLine指的是文件数据结束的最大空行算结束DataPointld指的是数据点的名称DataFormat指的是数据点的格式,例如时间的格式XMLFormat:XSLTFilePath指的是路径SpecialFormat:Name指的是特殊文件的名字此模块完成的功能
1.实现了将Excel文件转换为clean file(即转换完格式的文件)
2.实现了将Txt文件转换为clean file
3.实现了将Xml文件转换为clean file
4.实现了将各种Special文件转换为clean fileImporter模块主要处理流程Importer MappingData FlowRunbulk-mappingfilesizeisavaluewhelhergetallmapping GetfileserverinfofrominfoforproviderornotAppconfigThroughProviderldprovidersGetbulk-mappingfilesize noExternalId.PerfbrmanceFileStatusfromAppconfigGelfromdatabase Getfromcache▼accordingo accordingioI-oad PerfbrmanceldPcrfomianccldDatapointXPathConfigOutpulNodewhichis DataPointusedformappingdalapointsAccordingPerfonnanceldisexistPerformanceIdisaGetprioritysetting flagformatchedorforthisprocessfromunmatchedappconfigCacheperformanceStatus:ParsedDoneIdforthisrccoredStatus:ImporiDoneStatus:ImportingIteratetoGelfileinfofrom PerforniancePrioridatabasebystatusandprioritytyStatus IteratetooperatedatapointUpdatefilestatusGetdaapointvalueaccordingloUpdateprioritytableDatapointXPathConNo activeflagfigStatus:ImportFailure工oadFileserveruccessiu DoestherecordmatchedaccordingtoyesperlbmianceIdnoGeltheProviderldfromfileAdddatatoordinaryAdddatatoorphandatagroupcontainer datagroupcontainerGetdeliverbulk-ProverderDeliverj mappingflagaccordinglofileldsdeliverybulk-Mappinginfoinclude noProvidcrld.Externalid.Perfromanceld yesCacheproviderJsallmappinginfoExleneralldPerfbrmappingfilewithProviderld.and◄yesmanceldMapping sizefilesizeCachebeginning—Ume—▼/IteratetooperaterecordGetrecordwith noUpdatefilestatus MasteiDataExtemalldXPathIfiherecorddoesntexist,add.-PrbviderClassis-...no CallordinaryexistindatabaseSavedatagroupaccesscontainerssaveUpdateProvidcrCiass InsertProvidcrCiassProvidcrCiassnoRowData:Faikireccacvidersall Callorphandatagroup►RawData:Ophancontainerssavebefore30yes.noRefreshallneverAusedmappinginfoincacheCachetime图
3.8Importer的主要数据流图Importer MappingClassDiagramAlcorian::PerformanceFile+GetNextImportFileAlcorian::PerformanceDataPointlnfo+GetAllDataPointListAlcorian::PerformanceProviderClass+GetPerformanceId-RefreshMappingsAlcorian::Performanceinfo+GetAllDataPointList图
3.9Importer设计类图此模块采用的XML schema,效劳器根据此schema将不同的file放到产品数据库上此模块完成的功能
1.将前面解析的文件放进Master Data.
2.将前面解析的文件放进(kphan Data.
3.将前面解析的文件放进Failed Data.基金数据点定义表格表
3.1基金数据点定义表DataPointld DisplayNameDataFormatProviderid ProviderId tokencharlOExternalldExternal Idvarchar50ExternalName ExternalName varchar200CUSIP cusiptokenchar9ISIN isintokencharl2Ticker tickertokenvarchar20SEDOL SEDOLtokenvarchar7MEX MEXtokenvarchar7WKN WKNtokenvarchar6PriceDate PriceDate smallDatePriceCurrencyldPrice CurrencycurrencyNAV NAV positiveDecimall9-5TypeOffer OfferpositiveDecimall9-5TypeBid BidpositiveDecimall9-5TypeMarketPrice MarketPrice positiveDecimall9-5TypeMarketHighPrice MarketHigh PricepositiveDecimall9-5TypeMarketLowPrice MarketLow PricepositiveDecimall9-5TypeMarketPriceVolumn MarketPrice VolumnpositiveDecimall9-5TypeIndexLevelPrice IndexLevel PricepositiveDecimall9-5TypeUnitValue UnitValuepositiveDecimall9-5TypeAUV AUVpositiveDecimal19-5TypeOfferAUV OfferAUV positiveDecimall9-5TypeBidAUV BidAUV positiveDecimall9-5TypeGrossAUV Gross AUV positiveDecimall9-5TypeOfferGrossAUV OfferGross AUVpositiveDecimall9-5TypeBidGrossAUV BidGrossAUVpositiveDecimall9-5TypeUnauditedNAV UnauditedNAV positiveDecimall9-5TypePreliminaryNAV PreliminaryNAVpositiveDecimall9-5TypeDailyDividendDate DailyDividend DatesmallDateDailyDividendCurrencyId DailyDividend CurrencycurrencyDailyDividend DailyDividend positiveDecimall9-15TypeDividendExDate DividendExcluding DatesmallDateDividendReinvestmentDate DividendReinvestment DatesmallDateDividend ReinvestmentPriceDividendReinvestmentPrice positiveDecimall9-5TypeDividendDeclaredDate DividendDeclared DatesmallDateDividendRecordDate DividendRecord DatesmallDateDividendPayDate DividendPay DatesmallDateDividendCurrencyId DailyDividend CurrencycurrencyTaxFreelncome TaxFree Income decimal19_9TypeInterestincome InterestIncomedecimal19-9TypeQualifiedDistribution Qualified Distribution decimal19-9TypeNonQualifiedDistribution NonQualifiedDistributiondecimal19-9TypePercentFranked%Franked decimal19_9TypeDomestieDividend DomesticDividend decimal19-9TypeForeignDividend ForeignDividend decimal19_9TypeCapital GainExcluding DateCapitalGainExDatesmallDateCapital GainReinvestment DateCapitalGainReinvestmentDatesmallDateCapital GainReinvestment PriceCapitalGainReinvestmentPricepositiveDecimall9-5TypeCapitalGainDeclaredDate Capital Gain DeclaredDate smallDateCapitalGainRecordDateCapital GainRecord DatesmallDateCapitalGainPayDate Capital Gain PayDate smallDateCapitalGainCurrencyldCapitalGainCurrency currencyMiddleTermCapGainMiddle Term CapitalGain decimal19-9TypeLongTermCapGain LongTerm CapitalGain decimal19-9TypeShortTermCapGain ShortTermCapitalGain decimal19-9TypeReturnOfCapGain Returnof CapitalGain decimall9-9TypeDailyYieldDate DailyYield DatesmallDateTrailing7DayYield Trailing7Day Yield percentageDecimal9-5TypeIndexYield IndexYield percentageDecimal9-5TypeMonthlyYieldDate MonthlyYield DatesmallDateSECYield SECYieldpercentageDecimal9-5TypeTNADate TNADate smallDateTNACurrencyldTotal Net Assets CurrencycurrencyTNA TotalNetAssetspositiveLongShares SharespositiveDecimall9-5TypeShareHolders Shareholders positiveintegerFundSizeDateFund SizeDate smallDateFundSizeCurrencyIdFund SizeCurrency currencyFundSizeFund SizepositiveLongRawReturnDate RawReturn DatesmallDateNetMonthlyReturn NetMonthly Return decimal9-5TypeNetQuarterlyReturn NetQuarterly Returndecimal9-5TypeNetYearlyReturn NetYearly Returndecimal9-5TypeGrossMonthlyReturn GrossMonthly Returndecimal9-5TypeGrossQuarterlyReturn GrossQuarterly Returndecimal9-5TypeGrossYearlyReturn GrossYearly Returndecimal9-5TypeNonAuditedReturn Non-Audited Returndecimal9-5TypePreliminaryReturn PreliminaryReturndecimal9-5TypeSplitDate SplitDate smallDateSplitTypeSplit TypebyteOldScale OldScale nonNegativeDecimal9-5TypeNewScale NewScale nonNegativeDecimal9-5TypeTaxCreditDate TaxCredit DatesmallDateTaxCreditCurrencyId TaxCredit CurrencycurrencyCommodityCollectible CommodityCollectiblepositiveDecimal9-5TypeREIT REITpositiveDecimal9-5TypeQualifiedSmallBusiness qualifiedSmallBusinesspositiveDecimal9-5TypeForeignTax foreignTaxpositiveDecimal9-5TypeRetainedCapitalGain retainedCapitalGainpositiveDecimal9-5TypeQualified5YearCapitalGain qualified5YearCapitalGain positiveDecimal9-5TypeTaxationDate TaxationDate smallDateTaxationCurrencyIdTaxation CurrencycurrencyInterim Interimdecimal19-9TypeTID TIDdecimal19_9TypeTIS TISdecimal19-9TypeFixIncomePercentage FixIncome Percentagedecimal9-5Type数据库设计系统要求
1.磁盘空间要求Performance系统使用SQL SEVER2005数据库,默认表空间大小应不小于1000M,并提供一定的自增冗余
2.内存需求Performance数据库默认数据库效劳的系统内存应不小于lOOOMoAutomation ofData Collectionand DataMiningABSTRACTAuthor:Wu xiangbinTutor:Li WeiAtpresent,as thesocial andeconomic development,financial marketsbecome unusuallylarge andcomplex,and thefund asa financialderivative products,financial marketsin aplace.With thecontinuousdevelopment of the industry,various typesof fundsinto thefinancial markets,financial productsas ameansfor thepublic services,financial managementhelp people,but wheninvestors facea lotof fundproducts,they donot knowwhat tochoose,Our goal is tohelp ordinaryinvestors andfinancial institutionstomake ajudgement,the guidelinesthey chooseto suittheir ownfunds.To achievethe aboveobjectives,we needto doa lotof datasupport,the collectionof dataproductsof thesefunds isvery important,every dayfrom allover theworld financialinstitutions toprovide uswith these data,and ourgoalisto acquisitionof thesedata,and maintaindata integrityand accuracyofthis systemis ourmain function.We adopta programapproach toachieve sucha datacollection,and doesnot requiremanual intervention,this setof systemsused c#language,and thethree-tier structureitself todo somedesign featuresamore detailedanalysis,and alarge numberof XMLtechnology,The three-tier system designed toachievea relativelycomplete setof featuresand hasa gooduser interfaceand scalabilityofthesystem.In thispaperalso onthe pointon innovation,and theprospect ofautomated datacollection anddata miningdirectionfor thedevelopment andprospects.Key words:fund,XML,data mining.数据库逻辑结构图图
3.10表示了Performance系统的RAW DATA的数据库的图,表示了没有匹配上的数据DMPerformDB.RawData diagramPK ProvIdcrChssIdchar[io]MintPK31st•加usiy乂snslcatstirreExcludingDate啊坳snjicatstifre亚帆匕HE2眦喇耳Curren^ls gTcteiOiRribJttondedr^i|is,5EHectkeReinvestPrlce smMdateWne;nDedareOateReoorcDMe sicat!tifre3avOatsFiieiajstcste mMUtethnechar|10smsiicatetime七阳UnnE HEbutionUnmfi^reiTaxCrsct口力rren IConrr-octyCcchar|10PK ProvldsrOassUchaqiofbe睚:T咪*axDate snsicatetifreQualirecSraiiBjsIress32Clral|9,5^relcnTwCrectRdalnedCap^Gaindecimal
19.5「quaiffecSfsa-CasitaiGfiir IMdecM|tS啊declfnaijs.S10meicatstifreCurren^Id Unrw士际允戊八0佗询8而则叫decimal3-*aiccoivnVaiij!119,9cnar|iQ PK ProvIderClassId char[10tinylnt51acatedme PKDirtrsiaonlV-pe51acatetlmePK ExdidlncDstechar|3tinylntPK2MkwwnArulcPK3**alccownTyceUnnatcFedMsthlyY软PK ProvIderQassIdchar[10insPK EftcthtDetedatetimetlnylnt叫PK ProvlderOassIdch iomint»K YlelfiTypemacatetlrePKYleicType眼ErectiveC^atsaedral|9,SYieificnar|iQ sneYltiC况所研9,5Hel3皿廷出catetifr*cnar|lQRieu char|10CurrencfldPrice Fnal|19JsmalMMiUhHEHhlPrtSReU皿皿cnar|10Unn品阳8WYleG PKProvldcrtlassld char[10ttnylnt smaicatetlme咪PriceTypeErect ifflficatetlir*PK veC^teUnna^recRetimC sp«on的叫UnnstchecSpitg,zdecimal|9,ZHighLOWYMumPK ProvIderClassId char
[10]smsPK WEDatecatstire StoncardDevittioniidecimal|9,z PKProvIderClassIdch叫io tlnylntdecimal|92SslItTypeEESte5H2cttetlmee cMMCMMr|ia rnjcatstir*OWSciieNewSaie非CITBI|9,5UnHs^reRawF.2tL*nReturndn叫9Jdecimal19,5啊PKProvMerdassId char
[10]Heldchar|1051acatetimeIQsnacatetir*9K WumTypesmaliint咏TlneFe-osErect varcng-psns3K veDstecatetlrre Unfnfi^re CaliyCiv»flendPK ProYldcrClassIdchar[10smaPK ErecttvsC*8te icatstireCurrencyia喇助decimalDlvlcenc|19,15■工gqiQ;nalcat!tire,,出UnnamNPK ProYlderflsssId
[10]ttiylntPK Investrnentrypesmaidatetlme咏EndDete叫Currefcrld cnar0i mt配网Assetvaluesnares19JmtShareHoicefsHeia mr|ia SH2血*耀catstltr-eUnna^edTaxaticn ProYlderClassIdPKchar[10smeMectiveDatecatstire的阿decimal口寸rren IdIntrlmTIDdeclmai|w9TI5decimal119,9ixlncF阴Ten式2CI4dKM|9J,出char|lfl ecatstlrre图
3.10Raw Data数据库图图
3.11表示了Performance系统的Master DATA的数据库的图,表示了匹配上的数据IQ.87IJ•:---,•二3K3n低trjA-t X9■气YearUW2HC
3.*VTT3«C.Vs「a2HC flTfWK“Cormac4M FSGat^nrear**v L~rear aratftav3rv*wa irjAv.W・一MrXX1二;*;•.--*.•:¥•焚•Q・i1二二•二二二,j j•-.二J;•1J**▼▼〃■1自0靖靖二•”》・x、“yg.,4-JI1如;知•---IJ心J…-w*••二二..-.ij**▼口〃|蝴㈣-1XM—-QQ幽幽二二•1::二二一Z—SaTW丫S*▼•好WaAtoneG--».-T—取Wl幽miMXL我WMMMAIQM Z“・¥•,,€孙S二二•二二二3・£S,9二it二ii.---il,T:jiax•s«---°X—QM1二-二•.•.•1二-二二二《*一▼■1^1由4僧以二二•.二31・二;闾・吗闾¥,3•二二启・川二iJ—储制••二二•_----oII--~9rHI*J♦皿*▼•崖靖•;---i-“yg》.,二二•二二二i;一■^由僧二.”一J个■,|T二一…侬二”一出制7・吗二二,二ij01国tii¥•3心孙U闾:•--1知H~””“9S5•*▼114以1二八.印制*R II%I*a・Y・n心孙d二二•二二二二匹:I*---i;|1“二Ves-yCa,,二•.jya\・吗用1-•i$二二”;;,“—.;」Y•心孙仁P^ca二-•:二.二•1丫1”••;■*川通⑶・^■,自四4-JI4H:“二二二,|,9K9»*AfrTB3«caC chan*»*«|9;--11;H V«W3M-rCw aC-—储制n73rar AT4A-rda-一;•・川由
7..:C11;-T工一”如:H工二,MMQWeq-二:必酊;[a.“牙牙;4-J11,Y•,科》:“工1i»--iJt1h工二-J1m商Y・n*C力“jgwk・1“二二二;J01』x“ys.j.~“11年闾*一通用丫心孙苫二二••工二;■•^.1注靖*小|知劣-“•二7二》:•-41C/,1“3心叫LrcACrcA1-»;旬阳年⑶Y•,科占■*1・**:二•二;T^^•1014Mrjl Wvfiay星9KP.lrxaYMM3n里.“ys,.x•・打玲,70T.•-.1J》5*rear,.埼*▼射自靖*«3**CltJ3■MBRK二-jt,•二心叫a90C4“1・刈4trjAunnr*ttMAOBMnr.Ji*r«awATA3WDM PerformDB.MasterData diagram二■...LricAOurMdn1・5刈・^PK HGBVfW PK5»^arr»»c»c3n顿flr.lrtS*:S*:513*k.K PB^tfTTlKAC;・
3.S*:S*:X.,G户〜n«心1»4*4Sr・—£•»ATJ=皿”.匚,■gOtuXbW%w^nc«*▼114制■gUArt^lor*▼114制K^叫*MaJUn1=:二1g.M3ra..he.Mrxe ATA3次▼♦:AAATSSJM”■Un trj4JMnr«akMo3,幻iJ:J♦•*“A/-Atardjaa;4•r«aBBiinr.-gw”.aOnUCUHM rrj4JWir«i•C^rt^r,3dM,侑X X“*5crrraac-2”亚”,P.^rtjac.v MHCDV|1r«X»*J3MvWtorTa;wjaie PK Pe^crmecAC ChMl1C**:91s92lsrt^r―a;y3pX*•iM6»U|B*|lr«,s・3Xx
二、・去彷*▼.1irgwYT.二W,01的-
44.-J•MCI1通ir3ATk,«MrUdaM・.0•■T“£35*Ly*»PK丸Iffv«AXFM*chm1G■传KPe^OfTv«c«c5«1维LJ—R KgrrlCArigw”,■aA3W・^aar.MM汕*flMnet«^UA3Art;•一▼、“汕kv*小▼.1蝴-;-OLadneauO=6kB#.m9j.J0ax•-H汕O rV^.r C4^.w v4一M,r.aLe bari jcg^wt e5M制「sgLgg:.uraCJC**
3.r,:araCJC外i汕•jrUlaMOLBCUO,-ya M幽C-*C.**9a Xora*C―痴r.JigD,-〜a一▼.024r■:j*r・33PKP.ra-Raw*©ZrICUMAnr X
9.^*rv3ac“Fg..=5MKG Arigwr,5-33;7:..二ira.•一・”qirgMTrr.B,mnrr©I|*3*m9碧・1分■Saxrr•,3WAMttrrr.arjnwr图
3.11Master Data数据库图
3.12表示了Performance系统的Status DATA的数据库的图,表示了数据失败的日志DMLogDB.StatusData diagramea»or£-IMIM•erftxT-tnc^dtxciwdt^oLMB1otolUwtrwutnnDodwvUBtBMeconlltabBEMoUUBMMdDVMtfMMlMenOua^it*dwictonaiMxrrwelrGomoJemo.tci,“BWanCoMclewbctotaGnDwteFiBxJoto^orTvnoAtro**cst**Wl E□uaWfMlSmalCSdwnMM*nr®«B-1•auCred.4etMrwtfCacHa^Cec,□uaWt«dSrearVasatWOtai・ihM«»chatc«iJBt»图
3.12Status Data数据库系统界面设计系统登陆界面:Morningstar DataManager-PerformanceManagerLog inbelowE-mail AddressPasswordForgotyour password□Low-Bandwidth图系统登陆界面主要菜单页面:Mo「ningsta「DataManager-Pe「fo「manceManage「d^jHomeWelcome Welcometo MorningstarsDataManager-EURO Performance1Guideline JClReports出ImConfigurationSIQFilest±llr1Values田I口Statistics3QFeedQCjjQLogdJQSPData图主要菜单页面搜索文件页面:Search FilesProviderIDProvider NameFileIDRaw FileNameFileTypeRaw StatusProductionStatusStorage TimeResponsibleUserResponsible ChinaUserCheck PeriodHoursSearch Cancel图搜索文件页面反应文件界面:[@Edit▼告匾Z!RefreshHView Download▼Upload Actions▼[§Logs%Search CopyPager ProviderIDProvider FileIDResponsibleUser ResponsibleChinaDelivery RawFileNameRawFileUser Sizec1256BNPPARIBAS UK HENDERSON...637382ROBERTORO...CONNIELUO MAILFTOEICS.XLS276,99r1256BNPPARIBAS UKHENDERSON...635838ROBERTORO...CONNIELUO MAILFTOEICS.XLS277,50r1256BNPPARIBAS UKHENDERSON...634354ROBERTORO...CONNIELUO MAILFTOEICS.XLS277,50r1256BNPPARIBAS UKHENDERSON...632772ROBERTORO...CONNIELUO MAILFTOEICS.XLS277,50r1256BNPPARIBAS UKHENDERSON...631329ROBERTORO...CONNIELUO MAILFTOEICS.XLS276,48r1256BNPPARIBAS UKHENDERSON...630031ROBERTORO...CONNIELUO MAILFTOEICS.XLS275,96r1256BNPPARIBAS UKHENDERSON...628653ROBERTORO...CONNIELUO MAILFTOEICS.XLS276,99r1256BNPPARIBAS UKHENDERSON...626851ROBERTORO...CONNIELUO MAILFTOEICS.XLS275,45r1256BNPPARIBAS UKHENDERSON...625212ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...623894ROBERTORO...CONNIELUO MAILFTOEICS.XLS274,43r1256BNPPARIBAS UKHENDERSON...622709ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...621354ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...619689ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...618033ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...615232ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,40r1256BNPPARIBAS UKHENDERSON...614359ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...613519ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...612073ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,40r1256BNPPARIBAS UKHENDERSON...610723ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,40r1256BNPPARIBAS UKHENDERSON...609115ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92r1256BNPPARIBAS UKHENDERSON...607731ROBERTORO...CONNIELUO MAILFTOEICS.XLS273,92图
3.16反应文件界面Provider信息页面:ProviderlD:1256Provider Name:BNP PARIBAS UKHENDERSON OEICProvider InfoBNPPARIBASUKHENDERSONOEIC“Provider isactive DoNot ContactProvidername:File FormatFiles DownloadedTheprovider willsendProvider ClassesPrices oflast tendays「「「Price DividendsEU SDValuationsROBERTO ROMERSAResponsibleperson ResponsibleChina userCONNIE LUODeliversvia MAILFile FrequencyDAILY2330Latest timeof DeliveryLast EMailSenderFile nameftoeicsProvider ContactsE-mail deliveryinformation FTPdelivery informationProvidersends datato thisinbox@morningstar Pickup fromthis FTPLink toFTP-EU▼ftp
3.morningstar.comE-mail subjectUser namePriceshendersonE-mail senderPassword@uk.bnpparibas.c...or007x1220P.mailiruan+Dn+hAH FTD图
3.17Provider信息页面配置File Format页面:FileformatProviderID:1256ProviderName:BNPPARIBASUKHENDERSONOEICValidforfilescominginfrom2000-01-01▼CreateNewFiletype Exitafter#blankrowsSheetExcelOnlyDelimiterFirstRowDecimalsymbolSingleDateRowSingleDEXCEL▼16▼1▼/^3▼#N/A▼#N/ANamecolumns UniquecodecolumnsISIN CUSIPTicker2-B▼+#N/A▼+#N/A▼▼+#N/A▼+#N/A▼#N/A▼-N/A▼#N/APriceDate DateFormatPriceCCY NAVBid OfferMid|3-C________________MM/DD/YYYY4-D▼5-E#N/A▼#N/A▼#N/AGrossPriceDate DateFormatGrossPriceCCY GrossNAVGrossBid GrossOfferGrossMic[-1#N/A#N/A▼#N/A#N/A▼#N/A▼#N/ADivDate DateFormatDivPayDate PayDateFormatReinvestDate ReinvDateFormat#N/A MM/DD/YYYY#N/A▼|-1#N/A▼-1▼Div TaxFreeDivNonQualifiedDiv QualifiedDivIncomeInterestl#N/A#N/A#N/A▼#N/A*N/ACGDate DateFormatCGReinvDateReinvDateFormat CGPayDatePayDateFormatCGCCY ShortTermCGLongT«#N/A▼E1▼#N/A▼-1▼#N/A■bl___#N/A#N/A▼二N/ADailyDivDate DateFormatReinvestDate ReinvDateFormatDailyDivCCY DailyDiv#N/A▼1-1#N/A▼1-1#N/A▼#N/ATNADate DateFormatTNACCY ClassTNATNAFormat SharesShareHe#N/A▼MM/DD/YYYY#N/A▼#N/A1▼#N/A|#N/ADownloader测试图
4.1Email测试下载文件测试表
4.1Email测试用例Id caseexpect1without email is movedintoattachment HistoryFolder2The attachmentemail ismoved intoisunmatched HistoryFolder3The attachmentThe attachment isdownloaded,email ismoved intoismatched withoneImportedFolderprovider4The attachmenttheattachmentisdownloaded forismatched withtwotimes,emailismoved intoproviderPl andP2ImportedFolder5Move theemail intoOccursexception inFailedFolderdownloadprogress下载文件测试图
4.2Ftp测试主要数据流图表
4.2Ftp测试用例Id caseexpect1Download thisfileOne filepass thecheck2Ignore thisfileOne filecan tpassthe check下载文件测试表
4.3Ssh测试用例Id caseexpect1Download thisfileOne filepass thecheck2Ignore thisfileOne filecan tpassthe check下载文件测试Copy表
254.
1.5Local下载文件测试Move图
4.3Local Move测试主要数据流图表
4.5Local Move测试用例Id caseexpectOne filepass the1Copy thisfile,then backup thecheckraw file anddelete theraw fileatlast2Ignore thisfileOne filecan tpassthe checkParser测试表
4.6Parser测试用例ICasedExpectSince thisis reusingthe oldcode,1Excel conversionteststhis partshould befine.Give anarray ofdata,and column2Column Expressiontestsexpression,expect correctparsed result.Define datapoint format,do level13Format conversiontestsvalidation andconversion.Other datapoint needto beconverted4Currency conversionbasedon currency.Convert anarray ofparsed datato5Output testsoutputformat.Cumulate invalidinfo forone line,6Invalid outputtestsdisplay atthe endof line.Importer测试导入文件到数据库中表
4.7Importer测试用例1Id CaseExpectFile info in db has been changed as1import onesuccess fileto database.“ImportFailer”.File info in db has been changed as2import onefail fileto database.“ImportDone”,and datapoints,value wereexistin database.import onematched andsuccessful Fileinfo indb hasbeen changedas3datapoint value to database.^ImportDone〃,and datapointvalue wasinMasterData.import onematched butnot Fileinfoindbhasbeenchangedas4successful datapointvaluetoImportDone〃,and datapointvalue wasindatabase.RawData:Failer.5import oneUnmatched Fileinfoindbhasbeenchangedasdatapoint valueto database.^ImportDone〃,and datapointvalue wasinRawData:Orphan.以固定优先级翻开importer表测试用例2Id CaseExpectOpen importer process with an used1Importer processexit.priority.Importer processrun normally,and updateOpenimporter processwith anunused2the performancepriority table.priority.Open aimporter processsuccessfully,Terminate theOpen newimporter processwiththeold3importerprocess,wait for30priority,the processrun normally.minutes.结论5本文总结本文详细的介绍了使用C#语言基于三层架构系统的实现,同时也描述了使用相关技术的好处和原由在系统里主要了将rawfile转化为clean file,再由clean file转化到产品数据库中,系统由Downloader,Parser,Importer这三大主要功能模块软件开发使用vs2003作为开发工具,采用.net框架选择.net来开发整个系统的优势在于采用.net编写的程序具有很好的可开发性,这样在Windows的环境下进行开发快捷可以节省很多的时间,然后可以成功发布本文从如下几个方面阐述了整个系统首先,对整个系统的结构和系统整个大的背景以及所要到达的目标进行描述整个系统是在随着金融业务的飞速开展,基金在再整个金融行业中的重要性日益凸现,对这些数据的提取是相当重要的,为此我门的系统的意义是非凡的系统的前景展望作为世界上基金分析行业第一的MorningStar,再行业内有着不同凡响的地位,有着世界上最全最大的基金数据库,也有着世界上最顶尖的基金分析人员,然而这一切的一切都要依赖于最基础的数据,没有数据就没有MorningStar的现在而我们的系统的真正存在意义就是更准确的采集数据,把所有数据全部采集到我们的数据库中随着经济的开展,金融行业必然会逐渐庞大和复杂,从而基金的数量也会越来越多,所以我们的系统的价值也会越来越提升下一步工作在完成毕业设计的过程中,虽然作者抱着求知、务实和创新的态度,但是由于作者的能力、技术水平以及表达能力的局限,不可防止的存在缺乏和问题再实际的测试环境中,我们发现了很多问题在本版本中,例如处理某些特殊文件的时候,不能把原始文件转化为我们需要的文件格式,在处理包含巨大数据的文件的时候,处理的效率太低,不符合实际的时间在实际开发过程中,有很多变动的地方,没有去更新最开始的详细设计,希望能够更新和代码同步,待产品发布之后,能够及时和分析人员进行沟通,从而在下一版本中改良系统的功能致谢时光如逝,四年时间就这样匆匆忙忙过去了人生的脚步又开始了下一个里程碑,说到里程碑便想到在做工程的过程中,工程中设定了很多的里程碑,每走到一个里程碑都会有相应的总结可是现在还不想总结,姑且停下来想想这四年的时光,入学时和家人一起走在湖大的校园里、军训时候同学们的欢声和泪水、老师的谆谆教诲、和同学一起做学习基础知识、实习时候几个同学一起努力编程、跟工程组的成员一起加班一起愉快的合作日子都历历在目大学的四你的时光中,不敢说有多大的造诣,但还是收获颇丰首先,感谢我的父母,他们为我的教育和成长付出巨大的艰辛,感谢这么多年教育我做人和做事,抚育我成长,没有他们就没有我的一切感谢我的导师李玮,从实习到毕业设计、毕业论文,都给予我珍贵的意见和细心的指导在论文的选题和企业工作协调上,给了我很多的帮助,使得毕业设计的题目跟我在企业中的工作得以相结合他认真负责的工作态度,诲人不倦的师德,和蔼可亲的样子深深的烙在我的心底,将使我终生受益感谢晨星咨讯(深圳)有限公司Data Aqu的工程经理Nathan在我实习期对我的照顾,让我的毕业设计同工作协调起来,和在实施上的指导与帮助感谢我企业里的老师高扬,感谢他在工作任务很大的情况下来教我,他在技术上的严谨态度以及他在给我讲不懂的东西的时候的不厌其烦的态度,反而处处为我着想考虑到我的感受给予我深刻的印象感谢他在毕业设计上给予我技术支持和生活上的关心同时感谢工程组的其他同事Mike.York、Standly,佳佳在技术上和生活上给予我的关心和支持还要感谢我的同学华德锋、王雷、唐祖东、王守利、李强全他们在我实习期间帮我担待一些生活上的事,同时给予我技术上和学习上的帮助最后感谢我的母校一湖南大学对我4你来的栽培,没有她就没有很多人的今天参考文献
[1]Christian Nagel,Bill EvjenjayGlynn.C#高级编程语言[M].北京:清华大学出版社,2006:
11272.
[2]Jeff prosise.程序设计技术内幕[M].北京:清华大学出版社,2005,24-
172.
[3](美)David Flanagan原著,张铭泽等译.JavaScript权威指南,第四版[M]・北京:机械工业出版社,2003245-
280.
[4]郝刚.开发指南指].北京人民邮电出版社版006:126-
156.
[5]Eric A.Meyer原著,许勇,齐宁译.CSS权威指南[M].北京中国电力出版社,2001:89-
123.
[6].软件工程,实践者之路,第五版[M].北京:清华大学出版社,2004:78-
189.
[7]A.Johnson.Microsoft Corporation.C#Language SpecificationWhite Paper[EB/OL].,2007-10-
04.
[8]Microsoft Corporation.Microsoft.NET PetShop
3.x:.NET PetShop的设计模式与体系结构[EB/OL].,2004-04-
25.
[9]Jeff Prosise.Keep SitesRunning SmoothlyBy AvoidingThese10Common ASP.NET Pitfalls[0L].,2006-
7.L10]Friz Onion.Web DeploymentProjects[0L].,2007-
4.L111Dino Esposito.Subclassing andOverriding ASP.NET Pages[0L].,2007-
4.
[12]Jeff Prosise.Scalable Appswith AsynchronousProgramming inASP.NET[0L].,2007-
3.
[13]Dino Esposito.The ASP.NET ViewState[0L].,2003-
2.
[14]Rob Howard,10Tips forWriting High-Performance WebApplications[0L],,2005-
11.1本课题的简介数据采集自动化处理其实就是一个系统,此系统主要任务就是自动化的采集数据对各种基金数据进行整理,分类,最后得到我们可以识别的标准格式的文件类型的数据文件Performance ProcessorDataFlow“丫必OlniKiMflnumfMFonit仙的1期巾耐IngHim,“刖CakiittiliiQQHtidhocmot你・cKa.tIHHSan“tinMiFoviWRhFithUtfDownl PMIttugtCIOMPfocwiorwd COWMItnflitlodunImports—OMIgroup♦;lor牌wWwbucwjib州ewXMLlilt触#MMKM州伽加MR鼬丽PeWw即馋物niBdmjlXML他XLSTXTXMLetc!RaiDataibMUNKltoiitnPWmw ChMUMi晒他tiRtpMtBulldMPrMmor刖型恢D僧忖僦MMIIMen岫amegdliewn»iiM|DiupraMlTtfKBNIC HianrtMiki,Jii•用IlfW5«rPrxMiorKiintfiNOEitMhWqfhmmfNMEIWIWMHhrMjirAmrME图系统整体数据流图图-1是整个系统的结构图,通过结构图可以很清楚的看到整个系统的大致的结构和所完成的一些功能有一个初步的了解
1.2本课题的目的和意义随着社会不断的进步和开展,人们的生活变的越来越充裕,手中的钱也越来越多,因此人们选择了理财产品,而不在是存在银行中,但是众多的金融衍生产品使投资者眼花缭乱共同基金这种新兴投资方式的出现,是市场经济特别是证券高度兴旺的必然结果面对各类证券数量的迅速扩张和投资风险的不断加大,个人投资者对共同基金的倚赖性逐渐增加这是因为:共同基金将众多小额的资金聚集起来,积少成多,能从规模经济中获益随着我国经济商品化,货币化进程的开展和我国社会市场经济体制确实立,逐步开展和完善的证券市场将在其中发挥越来越重要的作用因此,可以预料,共同基金在我国产生和开展也将是为期不远的现实而我们的这个题目的目的就是在于帮助分析人员提供大量的基金数据,使分析人员不用关心数据,我们会提供应他们正确和完整的数据,而这些数据的来源就是世界上各个金融机构提供应我们的文件中包括的数据,我们采用自动化的数据采集,保证了快速和准确的把数据收集起来,然而再美国境内,美国的机构提供的都是格式统一的文件、这样我们很容易把数据转化为我们内部可以识别的格式文件,在美国之外,也就是欧洲和亚洲等各个机构提供的文件格式不同,比方excel,pdf,txt等各种各样的格式,我们需要应对各种的方式来处理文件,最终得到统一的格式,为金融分析人员提供第一手的数据这个系统的意义还在与能够减少人工的参与,大量减少人工的工作量,再最以前都是人工的读文件取数据并且录入数据,采用现在的信息化处理数据能够减少公司的开支并且得到最准确和及时的数据,这是金融分析最重要的一点技术背景2Web效劳的概念Definition:A Webservice isa softwaresystemdesignedto supportinteroperable machine-to-machineinteraction overa network.It hasan interfacedescribed ina machine-processable format(specificallyWSDL).Other systemsinteract withthe Webservice ina mannerprescribed byits descriptionusing SOAPmessages,typically conveyedusing HTTPwithanXML serializationin conjunctionwith otherWeb-relatedstandards.Web效劳是一个软件系统,是被开发用来支持可同时操作的,跨越网络的机器对机器之间的交互它包含一个以机器可处理格式描述的接口(特指WSDL)其他系统同Web效劳交互以一种本身的描述中规定的方式,使用SOAP消息,代表性在同Web相关的标准的联结中使用一个XML连续,利用HTTP传达(消息).NET WEB效劳的优势谈到.NET,.NET是微软为Web效劳提供的一个平台微软做.NET的目的是,希望在PC和Internet之后,为用户提供更高层次的效劳也就是说,PC上做的事,有了Intemet,可以做到100倍,而Web效劳来到后,也许能做10000倍Web效劳最终的目的可分为用户、开发商和企业用户从用户看,Web效劳将用户的需求分成儿个局部,逐步完成比方说,买一束花在今天的互联网上也能做到但你需要去搜索卖花,搜索到的也许并不是你所最想要的;你还需要输入信用卡号和地址,而且所有的数据也不能重复使用而在Web效劳中,你只需告诉计算机我要买束花就行了;因为你的很多数据已经存在Web效劳中从开发者角度看,Web效劳的目的是让人们开发的程序都能相互结合起来,比方说,卖花与付款两个效劳模块,在开发时并没有任何协议,是独立开发的,但把它们放在一起,也能运行对于商业用户来说,不但可以提高效率,降低IT预算,软件可以重用,而且,能够做的事情更多.NET是一个很长的过程,最终目的是任何时候任何一个程序都可以与另一个程序兼容Web效劳的优势就像滚雪球那样,滚到一定程度,效果就出来了足够多的Web效劳出现后,成长的速度会非常快XMLXML定义XML是可扩展标志语言(extensible Markup Language)的简称像HTML一样,XML是从所有标志语言的元语一标准通用标志语言SGML(Standard GeneralizedMarkupLanguage)那里派生出来的设计之初,XML的目标之一是取代HTML为新出现的复杂的Web应用提供标准的Internet语言然而,由于XML在可扩展性、可移植性和结构性等方面的突出优点,它的应用范围早己突破了HTML所到达的范围尽管严格地讲,XML只是一种数据标志说明语言,但它已经开始渐渐地把一系列相关的技术包含进来了,像DOM,XSL,XLL,XML命名空间XML是一种元标记语言,所谓“元标记〃就是开发者可以根据自己的需要定义自己的标记比方开发者可以定义如下标记bookXname,任何满足XML命名规则的名称都可以标记,这就为不同的应用程序翻开了大门HTML是一种预定义标记语言,它只认识诸如等已经定义的标记,对于用户自己定义的标记是不认识的XML可以通过DTD(Document TypeDefinition,文档类型定义)和XML schema对其结构进行定义和验证)CML技术支持DOM(Document ObjectModel,文档对象模型)和SAX(Simple Applicationfor XMLXML简单应用程序)两种编程接口技术,还能使用XPath语言对数据内容进行查询XML技术支持XSLT(extensible StylesheetLanguageTransformations,可扩展样式表语言转换)格式转换,利用XSLT技术能将XML文件转换为各种不同的格式,如格式不同的XML文件、HTML文件、文本文件、无线标记语言(WML)和SVG文件等主要特点
1.简单性;
2.可扩展性;
3.互操作性;
4.开放性;
5.结构化数据数据表示HTTP是一种基于文本的协议,因而缺乏表示RPC消息中的参数值的机制,这也是XML作为Web效劳的一个重要成分出现的原因XML是一项将类型和结构置于信息上层的技术,它架起了应用程序数据类型与存储和传输单元之间的桥梁,因此XML可以被看作是一种串行格式化的传输语法,允许数据被串行化为易于被任何平台解码的消息格式,提供了在网络应用之间交换结构化数据的机制XML采用纯文本表示,设计的初衷是为了存储、传送和交换数据的XML是一种标记语言,标记在XML中不是预先确定的,而必须由使用者自己定义XML允许使用者自由发表有用的信息,不仅可以是有关数据结构的,也可以是关于数据意义的另外,XML文档的结构、内容和外观可以作。
个人认证
优秀文档
获得点赞 0