当前位置:编程学习 > 网站相关 >>

web数据收集方法分类

进行web分析,首要也是非常重要的一步就是有效的收集web数据,当用户和web站点进行交互时,通常有四种方法可以用来收集数据:web日志文件、web beacons、Javascript标记以及包嗅探器,本文将对这种方法进行详细描述。�0�2
一. 捕获点击流数据的方法
1)�0�2�0�2Web日志——应当用于搜索引擎日志分析
捕获过程:
客户在浏览器上输入url
页面的请求到达web服务器
web服务器接受请求,在web日志中为这个请求创建一个条目(通常捕获的数据包括页面的名称、IP地址、客户的浏览器以及日期时间戳等)
web服务器将页面发送给客户
优点:web日志可能是最容易被访问的数据源;可以捕获和存储搜索引擎机器人对于站点的访问和行为的唯一的数据捕获机制;使用web日志,总是可以拥有数据。
注意点:web日志主要是为了捕获技术信息(404错误、服务器使用趋势、浏览器类型等)而创建的,如果用于捕获商务和市场信息并不理想;如果web服务器没有设置cookie,对访客进行某种程度的准确识别将是比较困难的;ISP和代理服务器缓存的页面意味着一些流量对web服务器来说是不可见的,因此日志文件里就没有那个请求的条目。
2)�0�2�0�2Web beacons——用于追踪客户行为和电子邮件的打开和查看机率
Web beacons通常是web页面中1*1像素的透明图像,位于一个img src的html标记之内。这个透明图像通常存放在一个第三方的服务器上,与存放web页面的服务器不同。
捕获过程:
客户在浏览器上输入url
页面的请求到达一个web服务器
web服务器将页面返回,连同一个对第三方服务器上的1*1像素的图像的获取请求
页面被加载,执行对该1*1像素的图像的调用,发送页面视图的数据给第三方服务器
第三方服务器将图像返回浏览器,一起返回的还包括可以读cookie和捕获匿名访客数据,这些数据包括已经浏览的页面、IP地址、页面浏览的时间、之前设置的cookie和更多的内容
Web beacons也可以用于电子邮件,和web页面一样,当邮件被下载到邮件阅读器则请求透明图像,邮件是否被阅读的数据就被返回和记录。
优点:web beacons易于实现;由于机器人并不执行图像请求,所以web beacons不会收集到无用于数据,这样可以使得日志可以维持在一个可管理的规模上,不需要复杂的过滤
注意点:
beacons常常和广告以及广告网联系在一起,因此可能受到一些指责;跨越多个站点追踪一个访客的行为,其中很多隐私问题会被披露,因此很多访客使用全局的选项配置,或者使用工具软件自动删除cookie,这些都削弱了web beacons的数据收集能力
如果在邮件程序中关闭了图像请求,web beacons也无法收集邮件信息了
beacons不能像javascrip标记那样,可以对要捕获的数据进行扩展和定制,它捕获的数据少,但可以跨越很大范围的站点
根据其特性,beacons和第三方的服务器进行交互,主要是设置第三方的cookie,有些浏览器不接受或者不显示第三方的cookie,工具软件也可能会删除第三方的cookie,这都使得beacons难以追踪用户的访问
3)�0�2Javascript标记——最流行的捕捉方式
捕获过程:
客户在浏览器中输入url
页面的请求到达一个web服务器
Web服务器将页面返回,连同附加在这一页面上的javascrip的代码片段
页面被加载,执行javascript的代码,收集信息,包括浏览的页面、关于访问者会话的细节、cookie,然后返回给数据收集服务器
有些情况下,当收到第一批数据的时候,服务器就将其余的代码返回给浏览器来设置cookie或者获取更多的数据
好处:如果不能访问web服务器和web服务器日志,javscrip标记是唯一的选择,通过这种方式可以轻松的在页面中安装这些标记,或者使用ASP供应商来生成报表;不用担心页面缓存的问题,只要javscript标记可以执行,分析工具就可以收集数据;收集数据更灵活,还可以在一些特定的页面上实现定制的标记;javascript使得数据服务和数据捕获相分离;如果使用第三方的cookie,跨越多个域来跟踪用户变得更容易。
注意点:
不是所有的用户都会开启javascript,目前还是有极少数的用户关闭了javascript
在页面上创建标记以收集数据,是一个艰苦的过程,需要在站点演化的过程中进行定期的维护
javascript标记收集的是“浏览器端”的数据,而不是“服务器端”的,一些站点并不是在cookie或url参数中存储数据,而是在访客会话期间,将数据存储在服务器上,这种情况下,标记是不能获取到相应的数据的
用javascript标记捕获关于下载和重定向的数据要比web日志更困难
如果站点的javascript已经负荷很重,站点上已经有大量的javascript在完成一系列智能化工作,慎用javascript标记来收集数据,有些情况下,可能造成冲突,甚至使网站无法正常工作
4)�0�2�0�2�0�2�0�2�0�2�0�2 包嗅探器——专业性更强,但是也更复杂;如果javascript能够满足,暂时不考虑包嗅探器
捕获过程:
客户在浏览器中输入url
请求被路由到web服务器。但在请求到达之前,它会通过一个基于软件或硬件的包嗅探器,收集请求的一些属性,将关于访问的更多数据返回给包嗅探器
包嗅探器将请求发送给web服务器
请求先传送给包嗅探器,然后返回给客户。包嗅探器捕获返回的页面信息并存储数据。一些包嗅探器方案的厂家还附加了javascript标记,从而可以回送给包嗅探器更多关于访问者的数据
包嗅探器将页面发送给用户浏览器
好处:既可以收集到服务器端信息可以收集到用户端信息,可以即刻收集大量信息,要比用标准的javascript标记快得多
注意点:对于大多数公司来说,很难说服IT部门在web服务器端加一个额外的软件层或者物理硬件,对于这种非标准的做法,可能会遭到反对;包嗅控器收集Internet web服务器流量的原始包,面临着两个挑战:一个是需要将需要数据从原始数据中解析出来,另一个是隐私问题,原始数据中包括了用户的隐私数据;使用包嗅探器方法的同时,还需要使用javascript标记的方法,否则数据收集不全面。
二.�0�2数据捕获机制需注意的事项
1)�0�2 第一方vs第三方cookie
大部分的供应商会设置自己的(第三方)cookie,但你如果是自己进行数据捕获的话,尽量使用所在域的第一方cookie,这样至少可以越过安全设置和安全工具软件。
2)�0�2 数据所有权
主要是针对使用供应商捕获数据的情况,供应商输出数据,是聚合过的数据,如果想深入下去,就没有办法了,最好是能掌握所有数据的所有权
3)�0�2 用户用在最后一个页面上的时间难以计算
4)�0�2 所有的数据捕获机制都是脆弱和不完善的
5)�0�2 客户至上,确保客户能够获取页面而并非收集数据,高度警惕客户的隐私问题
6)�0�2 成本
 
补充:Web开发 , 其他 ,
CopyRight © 2012 站长网 编程知识问答 www.zzzyk.com All Rights Reserved
部份技术文章来自网络,