还剩17页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
资源数据采集技术方案企业名称2023年7月-0一一年七月目录第1部分概述(
31.1项目概况(3L2系统建设目日勺(
31.3建设的原则(
41.
3.1建设原则(4(L4参照资料和原则5第2部分系统总体框架与技术路线(5(
2.1系统应用架构
62.2系统层次架构(6厂商支持,顾客可根据需要选择合适日勺服务器硬件和数据库并且假如需要更系统平台时J2EE也能以便日勺进行移植把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统日勺可移植性、可伸缩性和可扩展性
2.
3.2XML技术XMLeXtensible MarkupLanguage,可扩展标识语言,是目前最热门的网络技术之一,被称为“第二代Web语言”、“下一代网络应用日勺基石”自它被提出以来,几乎得到了业界所有大企业日勺支持XML具有卓越日勺性能,它具有四大特点优良日勺数据存储格式•可扩展性•高度构造化•以便日勺网络传播•以XML技术作为支持,为顾客自定义应用界面和业务数据构造,并将其与底层数据库定义格式、界面原则输入、输出日勺接口转换作了实现,可实现分布式、异构应用系统之间日勺数据互换我们将在本项目中重要以XML为存储方式,以便扩展和数据分析
2.
3.3WEB
2.0技术Web
2.0,是相对Web
1.02023年此前日勺互联网模式日勺新日勺一类互联网应用日勺统称,是一次从关键内容到外部应用口勺革命,是根据“六度分隔”注:由美国哈佛大学社会心理学专家斯坦利米尔格兰姆发现日勺,你和任何一种陌生人之间所间隔日勺人不会超过六个,•也就是说,最多通过六个人你就可以认识任何一种陌生人、XML、AJAX等新理论和技术实现日勺互联网新一代模式由WebL0单纯通过网络浏览器浏览html网页模式向内容更丰富、联络性更强、工具性更强日勺Web
2.0互联网模式日勺发展已经成为互联网新日勺发展趋势Webl.O到Web
2.0日勺转变,详细日勺说,从模式上是单纯的读响“写、“共同建设”发展油被动地接受互联网信息向积极发明网络信息前进运行机制上,由“Client Server响“WebServices”转变;作者由程序员等专业人士向所有一般顾客发展;应用上由初级日勺“滑稽”日勺应用向全面大量应用发展采用创新日勺Ajax技术,同等网络环境下,页面响应时间最高减少90%o系统集成APIXML文档构造在诸多方面可以以便地反应对象日勺构造,这也是其适合面向对象日勺软件技术日勺一种要点使用XML对数据源日勺数据进行处理,它起着接口层或者封装日勺作用,这样不一样日勺应用程序之间,不一样日勺操作系统之间,不一样日勺数据库之间都可以互换数据使用XML作为数据互换工具还可以处理异构数据库之间日勺集成对本项目中波及到日勺数据采集、转换、分析、处理等问题,我们将开发专用日勺数据接口,采用XML技术作为数据互换日勺页面描述规范XStream是一种Java和XML互相转换的)工具使用非常日勺简朴,并且可以自定义转换日勺过程,不过这个组件仅能做日勺就是这些最基本日勺工作,有了这个组件,我们可以不用考虑详细一种Java对象和XML之间问题了第3部分系统设计规范第4部分系统详细设计
4.1应用功能设计
4.
1.1资源采集我们可以使用采集,对网络上日勺多种资源进行挖掘a采集工程:采集工作日勺详细设置文献,包括了要采集日勺资源链接
1.精确:根据指定资源格式(字段日勺定义,进行数据库字段级别日勺采集
2.蜘蛛/爬虫:根据指定日勺文献匹配体现式启动对指定网站日勺资源进行全面分析和采集b字段多种资源日勺最小单位,譬如您要采集某个网站日勺多种帖子,那么每个帖子可能包括如下字段:作者、标题、日期、内容等c链页:某些帖子在多页面里日勺,这种状况下您可认为帖子日勺内容字段设置链页属性,自动把多种分页日勺内容合并到内容字段d追踪:某些资源是要从列表页面中,通过点击多种页面才显示的,这种状况下,您可认为内容自动设置跟踪属性,自动获取最终的内容e登录验证:某些资源网站需要您登录后才可以访问内容,这种状况下下,您可认整个网站、每个链接甚至每个资源单独定义登录验证以满足详细需求
1.参数:这是模拟登录需要日勺参数,譬如顾客名、密码等
2.登录采集工程:某些网站日勺登录认证相称复杂,往往会采用某些动态参数/值,假如用固定的参数是无法满足登录需求日勺,这个时候,您可以使用采集工程来自动获取登录参数日勺值
3.登录脚本:假如即便使用采集工程仍然无法满足某些尤其网站日勺登录需求,您可以使用自定义日勺登录脚本来实现对应日勺登录认证f数据处理
1.脏字过滤:对符合国家规定日勺敏感字符口勺过滤,还可以自定义要过滤的字符,以保证采集到的内容符合有关法律法规
2.垃圾内容过滤:使用贝叶斯概率模型对已采集日勺内容自动分析鉴定与否为垃内容,您可以自行对多种垃圾内容进行过滤
3.内容嗅探:对于Flash/Silverlight播放器,会在页面加载之后才从后台获取实际日勺文献(.FLV/MP3/.XAP等,您可以使用内容嗅探实现对这些实际内容日勺采集
4.关键字/标签(Tag自动分析:运用全文分词对采集日勺内容进行分析,自动获取内容口勺关键字/标签列表
5.文献格式批量转换:对大量文献日勺迅速转换,变化图片或视频日勺大小/添加水ER变化格式,抽取压缩文献Office系列文档转换为HTML,以多种方式修改文献名称和内容,修改图片文献属性,文本排版,文本混淆,文本简繁大.写编码互转,文本切分合并,网页文本互转,不良图片过滤,数据转换等..图片转换:变化图片大小和格式,添加水印,支Jpg、bmp、png、gif icljpe.等….压缩文档抽取/转换/生成压缩文档,支.zip、ra.等.Offic.文档支持支.doc、docx^xls、xlsx xml、pdf、rt.等.文本排版:段落智能修正、去掉干扰符、修正段落首尾空格、修正标点符号,支.txt,htm,eml…文本切分合并.按大小.行数或段落数剪切文本内容.和并内容.支.txt,htm,eml.不良图片过滤:识别并过滤不良图片,支持所有图片..数据转换:使用自定义脚本转换数据和文献,支持采集工程、多种数据库和多种件..迅•速下载.
1.链接分析复制要下载多种资源(如图片等日勺链接或网页内容,全自动分析.下载到当地磁盘2嗅探:复制视频地址或内容,全自动分析并下载视频,特有嗅探功能,支持.有视频网站..通过多线程并行采集,加紧采集速度4L.数据导.....导出数据库:把采集后欧I数据导出到各大数据库/数据文献中..Excel、XM.等文献形式导出.可以把文献导出.FTP.自定义导出脚本41资源信息公…采集后的数据:可以把采集后的数据,公布到指定网••站或系统.网络祈求:可以自定义祈求,譬如网络投票等.任务计划可以指定采集、转换、导出、公布、祈求等多种任务定期执行ab可启用多种线程来完毕同一种采集任务可自由设定采集网页数和暂停日勺时间,此功能重要处理采集过快而被屏闭或严禁访问等问题c可以在采集当中随身暂停、启动或停止任务
4.L5消息告知可以自动通过多种方式(邮件、系统日志、系统声音等)告知采集公布状况a b在多种任务完毕之后,如采集,公布,计划任务等监控指定网站并在数据变化时监控设置当网络资源更新或采集到新的I资源信息时,通过多种告知方式,随时提醒脚本定义脚本是对多种功能的自定义扩展,支持JavaScript语言编写a采集脚本:在采集工程中,假如碰到某些特殊日勺资源,正常的I采集方式无法胜任的时候,可以通过脚本来进行自定义的采集be公布脚本:可以针对特殊的网站进行发送祈求常用脚本:系统内置的常用的脚本,如对专用链的|解释/编码、条形码H勺生成、敏感字符的I过滤、中文分词/Tag识别、计算数学体现式、RSS解释与生成、消息告知等认证码识别系统自动识别多种登录页面的认证码、验证码等ab默认识别全自动识别多种常见的认证码智能识别自定义识别多种特殊的认证码系统扩展系统提供如下丰富的程序接口,以便系统进行二次开发abc d消息告知编写多种特定的消息告知方式以满足需求中文分词/Tag识别数据转换转换多种采集后的数据到系统当中功能扩展对多种功能(采集、公布、脚本、消息告知、计划任务等进行自定义设置并应用到实际的系统运行中任务管理可以对采集、公布、祈求、计划任务、脚本、消息告知等多种任务进行全面管理
4.L11地图周围资源采集可根据采集到的数据在地图上显示,以该点为中心,在指定的I搜索范围内搜索其周边的所有资源信息,并采集到系统当中以酒店为例以酒店为中心的15公里范围内,在这范围内的I所有酒店、旅行社、小吃、旅游景点、购物场所、公交信息等都可以搜索到并采集下来
2.3关键技术与路线(7第3部分系统设计规范(9第4部分系统详细设计(9第1部分概述L1项目概况Internet已经发展成为当今世界上最大日勺信息库和全球范围内传播知识的重要渠道,站点遍及全球日勺巨大信息服务网,为顾客提供了一种极具价值日勺信息源无论是个人日勺发展还是企业竞争力的提高都越来越多地依赖对网上信息资源日勺运用目前是信息时代,信息是一种重要的资源,它在人们日勺生活和工作中起着重要日勺作用计算机和现代信息技术日勺迅速发展,使Internet成为人们传递信息日勺一种重要的桥梁网络日勺不停发展,伴伴随大量信息日勺产生,怎样在海量的信息源中查找搜集所需日勺信息资源成为了我们此后建设在线预订类旅游网重要日勺构成部分因此,在当今高度信息化日勺社会里,信息日勺获取和信息日勺及时性而Web数据采集可以通过一系列措施,根据顾客爱好,自动搜取网上特定种类的信息,清除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤反复数据直接将信息按照顾客日勺规定展现给顾客可以大大减轻顾客日勺信息过载和信息迷失L2系统建设目日勺在线预订类旅游网是在线提供机票、酒店、旅游线路等旅游商品为主,波及食、住、行、游、购、娱等多方面日勺综合资讯信息、全方位日勺旅行信息和预订服务日勺网站假如顾客要搜集这一类网站日勺有关数据,一般的做法是人工浏览网站,查看近来更新日勺信息然后再将之复制粘贴到Excel文档或已经有资源系统中这种做法不仅费时费力,并且在查找日勺过程中也许还会遗漏,数据转移日勺过程中会出错针对这种状况,在线预订类旅游网信息自动采集日勺系统可以实现数据采集日勺高效化和自动化
1.3建设的原则
1.
3.1建设原则由于在线预订类旅游网日勺数据采集波及时方面多、数据量大、采集源数据构造多样化的特点因此,在进行项目建设的过程中,应当遵照如下原则可扩充性根据实际日勺规定,系统可被以便地载减和灵活日勺扩展,使系统能适应变化和新状况可以实现模块级别日勺动态扩展,并且是运行时的所谓运行时模块日勺动态扩展,例如说你需要增长某些新日勺功能,你可以将新开发日勺类和文献按照Bundle进行组织,然后直接扔到运行时环境下,这些功能就可以用了因此系统不会受技术改造而重新做出调整创新性软件口勺投资要考虑到此后的发展,不能使用落后的产品与技术,防止投资日勺挥霍;在系统软件选型、开发技术上,到达国内外先进水平规范性和原则性整个设计方案从网络协议、操作系统到各个设计细节,应当所有遵照通用日勺国际或行业原则,符合国家有关原则规范日勺低耦合性采集系统与其他系统彼此间相对独立,直接进行数据库入库、sql同步或者基于txt/xml日勺数据互换,保证整体系统的低耦合性高效性在底层日勺技术实现上采用java语言,跨平台,跨数据库,运行效率卓越安全、稳定、精确、及时性采用先进口勺算法,采用多种子系统和工具构成一种安全、稳定、精确、及时日勺处理方案方案在总体设计上遵照稳定、开放、可扩展、经济、安全日勺原则,从而使整个方案构成合理,技术先进,易于扩展,既能满足目前日勺业务数据处理规定,又能符合长期发展日勺需要易操作和易维护原则整个系统易于维护,轻易操作,易学,易用,完全通过WEB方式完毕,减少维护日勺技术难度,也减少了人为隐患日勺发生L4参照资料和原则重要参阅并根据如下某些参照资料及原则•《中国项目管理知识体系》(C-PMBOK,
2023.5•GB/T1526-1989《信息处理数据流程图、程序流程图、系统流程图、程序网络图、系统资源图曰勺文献编制符号及约定》•GB/T8566-1995《信息技术软件生存期过程》•GB/T8567-1988《计算机软件产品开发文献编制指南》•GB/T9385-1988《计算机软件需求阐明编制指南》•GB/T13702-1992《计算机件分类与代码》•GB/T11457-1995《软件工程术语》第2部分系统总体框架与技术路线网络信息资源采集系统是一套功能强大日勺网络信息资源开发运用与整合系统,可用于定制跟踪和监控互联网实时信息,建立可再运用日勺信息服务系统可以从多种网络信息源,包括网页、BLOG、论坛等采集顾客感爱好日勺特定信息,经自动分类处理后,以多种形式提供应最终顾客使用
2.1系统应用架构U互联网网Ftj览器一|、、互联网网J图囱.图客户端数据流控制流网络蜘蛛:按照指定规则抓取网站数据•数据分析:分析从网络蜘蛛来日勺数据,过滤掉我们不需要日勺信息•数据解析:根据指定资源格式(字段日勺定义,进行数据库字段级别日勺解析•组分析:根据不一样日勺网络资源类型进行分类,并以多种存储方式进行存储
2.2系统层次架构表现层互联网目附用既务整个系统分为四层,分别为:浏览器数据层:数据层负责存储抓取来口勺多种信息及数据,这里面包括网页、文档、关系型•数据、多媒体数据等支撑层:支撑层提供了关键的硬、软件支撑系统,包括应用服务器、WEB服务器、•规范接口等规范支撑系统应用层:在应用层重要提供网络资源采集、数据转换、分析、处理、导出、公布、•采集监控、消息告知、登录验证、任务计划、认证码识别等服务体现层:体现层通过浏览器等方式,为顾客提供多样化口勺信息服务•
2.3关键技术与路线为了充足满足本项目日勺建设:我们采用先进、主流、可靠、实用、性价比好日勺三层架构体系,充足考虑此后纵向、横向扩张能力采用构件化和面向对象技术,使系统具有灵活日勺扩展性和良好的移植性
2.
3.1J2EE规范体系从软件层次上看,我们采用了经典日勺J2EE三层架构体系,即应用一支撑一数据三层简朴地说,J2EEJava[tm]2Platform EnterpriseEdition是一种原则中间件体系构造,意在简化和规范多层分布式应用系统日勺开发和布署,有了它,开发者只需要集中精力编写代码来体现应用日勺商业逻辑和表达逻辑,至于其他系统问题,如内存管理,多线程,资源分布和垃圾搜集等渚B将由J2EE自动完毕J2EE已经被证明是一种稳定日勺、可扩展日勺、成熟日勺平台,在国内外拥有众多成功日勺应用实例J2EE应用服务器Application Server采用目前国际最先进日勺开发理念、拥有许多适合基于Internet应用需求日勺特点三层构造体系——最适合Internet环境,可以使系统有很强日勺可扩展性和可管理•性面向对象、组件化设计——2EE是一种组件技术,已完毕日勺模块能以便的移植到•其他地方,可以提高开发速度,减少开发成本基于JAVA完全跨平台特性——与平台无关,适应Internet需要,并能得到大•多数。
个人认证
优秀文档
获得点赞 0