铜仁市论坛

首页 » 分类 » 常识 » 从0开始数据分析一数据分析初相识
TUhjnbcbe - 2021/2/13 22:21:00
临沂白癜风医院 http://baidianfeng.39.net/a_zzzl/190525/7168767.html

本系列是从0开始学习数据分析文章。

从0到1,从工具到思维,系统掌握业务实操型数据分析知识体系。

考虑到内容较多,故分为系列文章,具体多久更完?看吧。。大概15篇

为什么做这期?

数据分析越来越重要。用数据分析解决业务问题:如网站流量分析、留存分析、消费行为、运营策略分析等。汇报展示,打造有说服力的“数据报告”。

我学习数据分析的目的是优化我的应用“公考相伴”社交平台。

整个系列目录如下:

一、数据分析初相识

走进数据分析

多种多样的数据类型

统计指标:集中趋势、离散趋势、分布形态

异常值的识别与处理

数据分析的6大步骤

二、Excel入门到表格分析

Excel功能介绍

核心函数库:文本函数、数学函数、逻辑函数、条件聚合函数

函数对数据进行预处理

数据去重、拆分、排序、筛选

查找与引用函数

使用数据透视表快速汇总

认识图表、床架你图标

实战:大数据人才需求分析报告

三、SQL入门

SQL

表、字段、记录

MySQL与Navicat的可视化工具

增删改查命令

数据筛选和排序

函数计算数据

对数据进行分类汇总

联表查询

存储数据

四、数据可视化理器Tableau

Tableau

如何获取数据

准备数据

构建图表

创建仪表板

创建故事

保存与发布

实战:美妆产品销售分析

五、Python网络爬虫

爬虫

Request库

BeautifulSoup

尝试改写网页

遍历整个网页

登陆问题

爬取整个网站

解析JSON

存储数据到CSV

实战:爬取销售数据

六、Python的pandas、matplotlib

Pandas

读取数据

请理数据:缺失、重复、异常、空值

数据运算:排序与筛选

Matplotlib

画布

绘制直方图、折线图、散点图

调整视觉标签、设置多图并列

七、初识互联网商业模式

互联网行业

行业研究方法

企业研究方法

B2C/C2C商业模式

O2O/B2B商业模式

B2B2C商业模式

八、解析数据指标体系

用户生命周期

用户指标

留存指标

时长指标

渠道指标

功能指标

销售指标

直播类指标

九、构建用户画像

用户画像

创建用户标签

创建用户画像

RFM模型

Excel实现RFM模型

实战:消费者用户画像分析

十、用户引流与转化

网站流量

漏斗分析

AARRR用户增长模型

用户下单基本流程

分析下单路径中的关键优化点

Excel绘制漏斗图

实战:电商推广渠道分析

十一、分析消费行为,优化营销渠道和推荐系统

计算复购率

计算回购率

分析男女用户消费频次是否有差异

分析用户头部贡献了多少成交

分析那类商品最畅销

相关性分析

聚类分析

实战:直播带货数据VS消费者偏好

十二、预售销售额、调整运营策略

销售数据

线性回归模型

线性回归模型预测数据

销售额影响因素

确认销售额优化方向

实战:预测电商双十一销售额

共享单车为什么推广红包车

红包策略引导用户再分布

成本优化解决方案

十三、促进用户活跃度、提升用户留存

用户活跃度

影响活跃度的因素

签到功能、积分体系

实战:如何提升用户活跃度

Excel计算留存率

ahaMoment提升留存

寻找流失点

实战:留存率下降原因分析

十四、AB实验迭代功能

AB实验的基本概念、应用场景

AB实验的统计学原理:假设检验

AB实验的业务基础:流量分层

AB实验的基本流程

AB实验结果的分析与解读

实战:AB实验真的有用吗?

寻找异常下单行为

杜邦分析法

实战:识别电商异常数据

十五、撰写数据报告

数据分析报告结构

数据报告的分析思路与框架

图表展示

PPT排版设计

图文排版技巧

数据报告演讲技巧

本期目录:

数据分析初相识

走进数据分析

多种多样的数据类型

统计指标:集中趋势、离散趋势、分布形态

异常值的识别与处理

数据分析的6大步骤

一、数据分析初相识:

1.走进数据分析

随着互联网的发展,任何岗位都离不开数据分析。

互联网产生数据,数据产生价值,数据分析就是找出价值。

例如中国联通的数据分析JD就是构建用户画像,推荐相关产品。

用户:网上购物——评价、购买量、价格

产品:设计优化——跟踪用户行为、监测数据

运营:成交量——数据指标、有效营销手段

数据分析师需要掌握:

硬性数据处理和分析工具的使用

对事物的认知方式、经验积累

总之,数据分析的流程如下:

确定分析目标

数据获取

数据清洗

数据探索

洞察结论

数据报告

互联网数据分析:

互联网是信息传输的一种载体,通过电子化的方式留存信息、与传统线下基于实物的传输方式相对应。互联网数据分析就是对基于线上产生的数据的规律进行总结、提炼,帮助我们做出决策。数据就是原始的生产材料。

就比如纸币等值于数字货币。

2.多种多样的数据类型

数据,是对事物的描述和记录。

根据计量层次,进一步对数据进行分类。

2.1定类数据

按照类别属性进行分类,各类别之间是平等并列关系。

这种数据不带数量信息,并且不能在各类别间进行排序

主要数值运算,计算每一类别中的项目的频数和频率

2.2定序数据

可以进行排序、比较优劣

可以将编码进行排序,可以表示之间的高低差异

2.3定距数据

具有一定单位的实际测量值

精确性比定类数据、定序数据更高

可以计算各变量之间的实际差距(加/减)

2.4定比数据

可以比较大小,进行加、减、乘、除运算

定距尺度中,0表示数值,定比尺度中,0表示没有

定比数据中存在绝对零点的,而定距数据不存在

以上4种类型数据,统称为定性、定量数据:

定性数据:一组表示事物性质、规定事物类别的文字表述型数据。(包括定类数据、定序数据)

定量数据:以数量形式存在着的属性,并因此可以对其进行测量。(包括定距数据、定比数据)

把这些数据以一定的标准组合起来的时候就是数据矩阵/二维数据表

3.统计指标

体现总体数量特征的概念和数值。

根据数据分析的目的不同,统计指标也会变化。

如房屋设计中,统计对象是建筑面积、竣工面积等。

又如提升用户转化率中,统计对象是网站浏览量、着陆页、跳失率。

统计指标根据它要体现的内容分为总体、相对2大类。

基础统计指标如下:

总量指标:特定条件下的总规模、总水平或工作总量。如GDP、总人口、销售总额。即常说的总和SUM。是一种最基本的统计指标

平均指标:用一个数字显示其一般水平。也叫集中趋势指标

相对指标:体现相对情况的指标。通过2个有联系的现象数值相比得到的比率。描述的是相对关系,而不是总体情况。

比例=各数据/总比%

比率=数据项:数据项

倍数可以突出上升、增长幅度。

学过行测的都知道r增长率,考查销售情况可以通过环比、同比增长率求得。

环比更注重短期的涨幅表现,同比更注重长期的涨幅表现。

4.统计指标:集中趋势指标

数据分析过程中,常遇到这些问题:

简单的方法可以通过平均值来了解不同选择的平均水平,进而得出初步结论。

平均值是集中趋势指标中的一种。

集中趋势指标,用于体现数据一般水平的指标,帮助我们最快速了解样本数据的概况。最常用的就是平均值。

平均值=所有数据相加/数据的个数

中位数,按顺序排列后,居于中间位置的数。

众数,出现次数最多的数值。反映的是局部特征、密集度。且众数可有多个。

可见,对于集中趋势指标,不同的统计方式,统计标准,都是从不同的维度反映样本特性。

5.统计指标:离散趋势指标

离散趋势指标,体现内部差异度的指标。

极差

平均差

标准差

极差,相距最远的2个点之间的距离。体现数据内部最大的差异情况。

平均差,一组数据与平均值差异的平均差异。

其公式:

事件启动型的数据,在样本量较小的时候,容易导致误差。其对离散值数据更敏感。

标准差:

相对于平均差,标准差更能代表离散程度的指标。更加放大了他们之间的差异程度。

可见标准差更能体现差异程度。

标准差也是最常用的离散指标。

6.统计指标:分布形态指标

分布形态,将一组数据通过点线面的方式呈现出来的形态。

上图就是示例分布形态。

分布形态还可以是正太分布。

对于一组数据的分布形态而言,

高度意味着一般水平

宽度意味着离散程度

除了正太分布,还有:

分布形态的基本形态:

左偏分布

右偏分布

正太分布

7.判定、处理异常值

样本量没有那么大的情况下,可以通过与均值相除计算倍数的方式快速筛选异常值。

筛选出异常值后,需要对异常值

检测异常值:与总体差异度。

7.1判定异常值:

异常值的产生是有很多场景的,主要有:

错误记录

错误添加

真实、正确:判断是否反映特殊事件对异常值修改调整即可。如果是周期性数据就不做处理

7.2处理异常值:

对于需要进一步处理的数据,

错误数据:填充空值、填充样本平均值

真实、正确需要做调整的数据:根据实际情况调整:数值*需要调整比率

8.数据分析的流程

目标确定:解决什么问题?达到什么目的?

数据获取:字段设计、数据提取(SQL)

数据清洗:保证数据的可用性。主要针对异常值、空白值、无效值、重复值

数据整理:格式化(如日期的处理、行列格式化)、指标计算(基础的计算,如平均值、总额)

描述分析:数据描述(数据的基本情况)、指标统计(分析实际情况的数据指标)

洞察结论:数据报告核心,体现数据分析能力

撰写报告:报告背景(业务现状)、报告目的(解决什么问题)、数据基本情况(数据可信度)、可视化图表(数据的可理解程度)、策略选择(提出解决方案)

感谢读者和我一起从0开始,用数据解析世界!

yinlei

你的鼓励是对我最大的支持!

1
查看完整版本: 从0开始数据分析一数据分析初相识