还剩2页未读,继续阅读
文本内容:
日志格式WEBWEB日志格式轻松看懂WEB日志格式WEB日志是网站分析和网站数据仓库的数据最基础来源,了解其格式和组成将有利于更好地进行数据的收集、处理和分析
1、日志格式类型目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式NCSA格式又分为NCSA普通日志格式CLF和NCSA扩展日志格式ECLF两类,目前最常用的是NCSA扩展日志格式ECLF及基于自定义类型的Apache日志格式;而W3C扩展日志格式ExLF具备了更为丰富的输出信息,但目前的应用并不广泛,所以这里主要介绍的是NCSA扩展日志格式ECLF o
2、常见日志格式的组成这是一个最常见的基于NCSA扩展日志格式ECLF的Apache日志样例
58.
61.
164.141[22/Feb/2021:09:51:46+0800]“GET/reference-and-source/weblog-format/HTTP/
1.12066326http://,google,cn/searchq=webdataanalysis,z/Mozilla/
4.0compatible;MSIE
6.0;Windows NT
5.1可以看到这个日志主要由以下几个部分组成访问主机remotehost显示主机的IP地址或者已解析的.域名标识符Ident由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能授权用户authuser用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的日期时间date一般的格式形如[22/Feb/2021:09:51:46+0800],即[日期/月份/年份:小时:分钟:秒钟时区],占用的的字符位数也基本固定请求request即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括以下三个部分请求类型METHOD常见的请求类型主要包括GET/POST/HEAD这三种;请求资源RESOURCE显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源;协议版本号PROTOCOL显示协议及版本信息,通常是HTTP/
1.1或HTTP/
1.Oo状态码status用于表示服务器的响应状态,通常Ixx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误传输字节数bytes即该次请求中一共传输的字节数来源页面referrer用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空上例中来源页面是google,即用户从google搜索的结果中点击进入用户代理agent用于显示用户的详细信息,包括IP、OS、Bowser等
3、日志格式扩展apache日志格式可以自定义来配置其输出格式,常见的基于NCSA扩展日志格式ECLF自定义添加的包括域名domain和cookie其中域名在一个网站拥有二级域名或者子域名时,可以更好地区分日志;而cookie可以作为用户的身份标识[WEB日志格式】。
个人认证
优秀文档
获得点赞 0