闲谈流量统计（III）— 分析

发表于 2020-03-20 分类于产品阅读次数： Waline：

数据仓库设计

在数据采集阶段，会有很多的脏数据。这些数据有可能是用户恶意攻击，也有可能是在传输的阶段数据丢失，也有可能是服务处理产生。在数据加工的过程中就要做好这些数据地域工作。

一般，在数据入库之前就会核对数据的完整性，或者核对特定的格式、数据结构、加密字段等，这一步操作可以去除大部分的非针对性的恶意攻击。

还有一些针对性的恶意攻击，需要细致化的分析攻击的数据。可能会采取过滤 IP，过滤设备等手段进行数据清洗。

再者，后续可以继续根据数据排查刷量数据等、爬虫数据。这一些数据的在不同的场景口径可能会不一样，有一些企业或去除爬虫数据，有一些企业会默认少部分的爬虫行为，常常这一类的数据与业务结合，不会直接过滤。

由于采集阶段的数据比较的原始，一般企业会先做一层简单的数据汇总，比如在行为数据补充用户数据，简单的计算出部分缺失数据。

在一些分析产品中，也会补全上下游联路，或者前后页面的跳转关系，页面时长统计等计算。

有条件的企业还会补充IP库，画像库来进一步的丰富用户数据。

同时为了满足应用层的分析结果，数据也会进行一些轻度的聚会。

这一环节基本就是面向应用的数据设计，大部分场景使用维度建模就可以满足。

数据分析的基本结构

现在很多人提倡增长黑客，即 AARRR模型：

流量分析产品
用户行为分析
数据大屏

同时还有很多产品把流量数据作为数据源，与业务数据解惑，做更加精细化的分析。