闲谈流量统计（II）— 采集

发表于 2020-03-20 分类于产品阅读次数： Waline：

通过在网页中嵌入一段 JS 跟踪代码，然后这段代码会收集相关信息通过虚拟1像素的gif图片的形式来发送相关的信息给服务器，以完成数据采集。之所以说是虚拟1像素，是因为这个图片是看不到的，整体的流程如图所示。

当在网站中添加了跟踪代码段之后，就会针对用户访问的每个页面发送网页浏览数据。服务器通过处理此数据可以推导出大量信息，其中包括用户总共在您网站上停留多少时间；用户在每个网页上停留的时间以及用户查看这些网页的次序；用户单击了哪些内部链接（根据下一个网页浏览的网址得到）。

此外，IP 地址、用户代理字符串以及 analytics.js 在创建新跟踪器时查看的初始网页可用于确定以下这类信息：用户的地理位置，用户使用的浏览器和操作系统，屏幕尺寸以及是否安装Flash或Java、引荐网站等。

以上信息来自：《谷歌分析实战指南，第 10 页

目前小程序采用的也是页面采集的方式，但是不排除以后的采集模型会和APP的采集方式靠近。

接下来说一下APP 采集。通过在APP中嵌入一个采集 SDK，在APP 的启动、关闭等系统事件，以及用户操作的事件，以及一些内容曝光等事件处罚SDK的程序，将以上的内容进行重新整理、加工、存储、发送。

在这之后，可以知道用户使用了什么手机，在APP的页面时长，用户在APP上的操作轨迹，还可以结合用户画像等进行进一步的分析。

APP采集和页面采集最大的区别在于，APP的数据可持续性。在流量数据的生存过程中，可以将数据标记为一个生产用户。在数据发生阶段，不类似于网页的实时发送，APP可以在手机本地完成加工处理，并可以尝试多次发送，降低事件发生的失败率。

Hbrid 的采集方式很多是将页面采集和 APP 采集相结合，页面的事件会发送给 APP 采集的SDK，由 SDK 增加加工后在发送到服务器。这样可以保证数据的一致。

后台数据的收集其实一直都有，但是在用户行为数据分析层面并不是特别流行，大多数情况都是作用于业务日志数据的收集，这个就不展开说了。主要说一下弊端：

按照页面采集和APP采集，数据传输的过程中也主要分为两个方式。

页面的数据传输都是实时传输。由于页面没有稳定的缓存机制，并不适合将数据缓存在浏览器中定时发送。所以，目前的数据发送都是实时的，用户每点击一个网页，或每有一次用户行为，哪怕是鼠标划出某些路径，数据就会即使上报。

这样的弊端就在于数据发送的到达率不可以保证，即浏览器只能保证数据发送了，但是由于弱网络等情况，服务器不可以保证数据可以被百分百接受。据我了解，现在上报请求也有升级，某一些产品会选择 socket 的方式来保证数据的稳定性。

APP 的数据传输就有了很多的能力。