闲谈流量统计(III)— 分析

捌、数据处理

数据仓库设计

1. 脏数据清理

在数据采集阶段,会有很多的脏数据。这些数据有可能是用户恶意攻击,也有可能是在传输的阶段数据丢失,也有可能是服务处理产生。在数据加工的过程中就要做好这些数据地域工作。

一般,在数据入库之前就会核对数据的完整性,或者核对特定的格式、数据结构、加密字段等,这一步操作可以去除大部分的非针对性的恶意攻击。

还有一些针对性的恶意攻击,需要细致化的分析攻击的数据。可能会采取过滤 IP,过滤设备等手段进行数据清洗。

再者,后续可以继续根据数据排查刷量数据等、爬虫数据。这一些数据的在不同的场景口径可能会不一样,有一些企业或去除爬虫数据,有一些企业会默认少部分的爬虫行为,常常这一类的数据与业务结合,不会直接过滤。

2. 数据补全

由于采集阶段的数据比较的原始,一般企业会先做一层简单的数据汇总,比如在行为数据补充用户数据,简单的计算出部分缺失数据。

在一些分析产品中,也会补全上下游联路,或者前后页面的跳转关系,页面时长统计等计算。

有条件的企业还会补充IP库,画像库来进一步的丰富用户数据。

同时为了满足应用层的分析结果,数据也会进行一些轻度的聚会。

3. 应用层数据处理

这一环节基本就是面向应用的数据设计,大部分场景使用维度建模就可以满足。

镹、数据分析

1. 经典分析模型

数据分析的基本结构

  1. 有多少用户
  2. 用户在来的
  3. 用户是谁
  4. 用户来做了什么
  5. 用户给产品创造了什么价值
  6. 用户是怎么离开

2. 增长黑客模型

现在很多人提倡增长黑客,即 AARRR模型:

  • Acquisition:获取用户
  • Activation:提高活跃度
  • Retention:提高留存率
  • Revenue:获取收入
  • Refer:自传播

3. 分析产品

流量分析产品
用户行为分析
数据大屏

同时还有很多产品把流量数据作为数据源,与业务数据解惑,做更加精细化的分析。

闲谈流量统计(IV)—— 实战| Why·Liam·Blog

The Why·Liam·Blog by WhyLiam is licensed under a Creative Commons BY-NC-ND 4.0 International License.

WhyLiam创作并维护的Why·Liam·Blog采用创作共用保留署名-非商业-禁止演绎4.0国际许可证

本文首发于Why·Liam·Blog (https://blog.naaln.com),版权所有,侵权必究。

本文永久链接:https://blog.naaln.com/2020/03/data-analytic-3/