第 1 章统计基础知识
推荐帖子:【统计】【统计概述】(https://jb243.github.io/pages/1641)
1。 简介
2. 基本统计术语
3. 数据定义
4. 数据可视化
a. 分位数-分位数图
1.简介
⑴ 概率与统计
① 概率: 对可能性的数学和理论研究
② 统计: 收集、分析、解释或表达数据的研究
○ 概率和统计相似但又明显不同
③描述性统计:总结和描述数据的统计技术
④ 推论统计:计算某个值出现在数字汇总之外的概率的统计技术
⑵ 概率的含义
① 频率论者
○ 声称概率是物体的内在属性
○ 例子: 硬币是正面和背面概率各为一半的物体
② 贝叶斯主义
○ 声称概率只不过是人类的信念
○ 例子:考察一枚硬币正反面的频率并不能真正证明每个频率都是二分之一
⑶ 统计趋势
①经典统计学中的主要问题:求分布,增加幂
② 现代统计学的重大问题: 大数据、机器学习
2.基本统计术语
⑴ 平均值(mean)
⑵ 出现次数最多的数(众数)
⑶ 中心值(中位数)
①按顺序中间的值:相对于概率分布中的中位数,两侧的宽度应该相等
② 对分布变化的敏感度低于平均水平
○ 仅更改中位数右侧部分 更改不能更改中位数
○ 因此,中值不太敏感
○ 没想到很多人不知道
3。数据的定义
⑴ 数据、信息、知识
①数据:给定数据
②信息:数据名称
③知识:信息与信息之间的关系
⑵ 数据集类型
①关系
② 树
③网络
⑶ 属性类型
① 1类.连续型数据: 定量数据
○ 1-1。比率标度(比率标度): 排名第一的标度
○ 绝对零+相同区间+排名+类别
○ 可以建立尺度比的概念
○ 绝对零存在: 没有否定概念
○ 示例: 绝对温度
○ 1-2. 区间尺度(区间尺度): 二阶尺度
○ 相同区间+排名+类别
○ 尺度比例概念无法成立
○ 没有绝对零: 存在负概念
○ 示例:摄氏温度、华氏温度
② 2类.分类数据:定性数据
○ 2-1. 序数尺度
○ 等级+类别
○ 间隔不能说彼此相等: 量化和平均是不可能的
○ 示例:三年级 2 名学生和一年级 2 名学生不能算作平均 2 名二年级学生
○ 2-2. 名义量表(分类量表)
○ 类别: 与每种材料的名称相同
○ 示例: 性别、血型
⑷ 属性语义
①空间:定量
② 时间:定量
③ 顺序的:顺序的> ④发散:定量
⑤ 循环:分类、有序、定量
⑥ 分层: 分类
4。数据可视化
⑴分析分类
① 频率 分析: 识别一个分类变量的分布特征的分析
② 交叉分析: 识别两个或多个分类变量的组合分布特征的分析。它能够分析独立性和相关性
⑵ 根据数据类型的有利表达形式:数据类型越有利,则越高
①数量变量
○ 位置
○ 长度
○ 角
○ 坡度
○区
○ 卷
○ 密度
○ 色彩饱和度
○ 色调:色盲色彩设计的注意事项(ref)
○ 质感
○ 连接
○ 遏制
○ 形状
②序数变量
○ 位置
○ 密度
○ 色彩饱和度
○ 色调
○ 质感
○ 连接
○ 遏制
○ 长度
○ 角
○ 坡度
○区
○ 卷
○ 形状
③名义变量
○位置
○ 色调
○ 质感
○ 连接
○ 遏制
○ 密度
○ 色彩饱和度
○ 形状
○ 长度
○ 角
○ 坡度
○区
○ 卷
⑶ 1类. 二维信息的表示
①条形图:分类/序数(1D)+定量(1D)
○ 当分类/序数变量位于 x 轴时: 可以使用长标签
○ 当分类/序数变量位于 y 轴时: 可以增加变量数量
②折线图:序数/定量(1D)+定量(1D)
③散点图:定量(1D)+定量(1D)
④斜率图:定量(1D)+定量(1D)。散点图的替代方案
⑤直方图
⑥ 饼图
⑦箱线图
⑧ 茎叶图形
⑨ 热图
⑷ 2类. 三维信息的表示
① 矩阵: 分类/序数 (1D) + 分类/序数 (1D) + 定量(1D,颜色)(+ 定量(1D,点大小))
②扩展条形图:堆叠条形图、分组条形图等
③扩展折线图:面积图(≒堆积折线图)等
④扩展散点图:气泡图(参见点大小也可以是变量)等
⑤符号图:空间(2D)+定量(1D)
⑥ 漏斗图
⑸ 第3类. 多维信息的表示
①faceting:表达每个参数的二维或三维信息。生成多种类型的图表
② 切尔诺夫脸
③ 星图:也称为蜘蛛图、雷达图、蜘蛛网图或极坐标图
⑹ 1-1. 条形图(条形图)
①定义:标称尺度数据的图表
② 一般情况下,条与条之间有间隙
③ R编程
plot(c(1,2,3),c(4,5,<span style=“color:#0000DD; font-weight:bold”>6</span>),主要<span style=“color:#333333”>=</span> <span style=“background-color:#fff0f0”>“基本情节”</span>) </前></div>
> ④ Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 2.以Bokeh表示的条形图
来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示 输出文件("stacked_bar.html") 图表 = 图(宽度 = 400,高度 = 400,标题= “散景垂直条形图”, 工具提示=[("x", "$x"), ("y", "$y")]) x = [1, 2, 3, 4,5] 顶部 = [1, 2, 3, 4,5] 宽度 = 0.5 graph.vbar(x, 顶部 = 顶部, 宽度 = 宽度) 显示(图表) </前></div>
> ⑤ [图表替代条形图](https://towardsdatascience.com/9-visualizations-that-catch-more-attention-than-a-bar-chart-72d3aeb2e091) >> ○ 圆形条形图(= 赛道图) >> ○ 放射状条形图 >> ○ 树形图 >> ○ 华夫饼图 >> ○ 交互式条形图 >> ○ 饼图 >> ○ 雷达图 >> ○ 气泡图 >> ○ 圆形包装 ⑺ **1-2.** 折线图 > ① Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 3.以Bokeh为代表的折线图
来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示输出文件("line_chart.html") p = 图(宽度=400, height=400,标题= “折线图”, 工具提示=[("x", "$x"), ("y", "$y")]) p.line([1, 2, 3, 4,5],[6,7,2, <span style =“color:#0000DD; font-weight:bold”> 4</span>,<span style =“color:#0000DD; font-weight:bold”> 5</span>],line_width<span style =“color:#333333”> =</span><span style =“color:#0000DD; font-weight:bold”>2</span>) 显示(页) </前></div>
⑻**1-3.**散点图 > ①定义 > ② 带边缘直方图的散点图 > ③ Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 4.以Bokeh表示的散点图
来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示输出文件("scatter_plot.html") p = 图(宽度=400, height=400,标题= “散点图”, 工具提示=[("x", "$x"), ("y", "$y")]) p.circle([1, 2, 3, 4,5],[6,7,2, <span style =“color:#0000DD; font-weight:bold”> 4</span>,<span style =“color:#0000DD; font-weight:bold”> 5</span>],尺寸<span style =“color:#333333”> =</span><span style =“color:#0000DD; font-weight:bold”>20</span>,颜色<span style =“color:” #333333">=</span>"海军蓝",alpha=0.5) 显示(页) </前></div>
⑼ **1-4.** 直方图 > ① 定义**:** 比率尺度、区间尺度和图形表达的连续数据的区间确定 > ② 杆与杆之间一般无间隙 > ③ 3D直方图 > ④ R编程hist(c(1,2,2,3,3; style="color: #0000DD; font-weight: bold">3</span>), col = “浅黄色”) </前></div>
⑽ **1-5.** 圆形图(饼图) > ①定义**:**以百分比表示的比率尺度上连续/不连续数据的圆形图。 > ② R编程pie(c(1,2,2,3,3; style=“color:#0000DD; font-weight:bold”>3</span>),标签<span style=“color:#333333”>=</span> c(<span style=“background-color:#fff0f0”>“a”</span>,<span style=“background-color:#fff0f0”>“b”</span>,<span style=“background-color:” #fff0f0">"c"</span>、"d"、"e"、"f")、主要= "饼图") </前></div>
> ③ 图表替代饼图 >> ○ 哑铃图(=杠铃图) >> ○ 气泡图 >> ○ 圆形包装 >> ○ 交互式饼图 >> ○ 交互式圆环图 >> ○ 树形图 >> ○ 华夫饼图 >> ○ 条形图 >> ○ 堆积条形图 ⑾ **1-6.** 箱线图(晶须图) > ① 分位数 >> ○ **分位数函数****:**累积分布函数的反函数 >>> ○ 定义域:{x 0 ≤ x ≤ 1} >>> ○范围:感兴趣组的统计数据 >> ○ 根据节数的不同,有百分比、四分位数等。 > ② 从下面的下限开始,表示第一个四分位数、中位数、第三个四分位数和上限 >> ○ 可能会注明平均值,否则可能不会 > ③ 其他部件 >> ○ 第一个四分位数 (Q1):代表数据最低 25% 的位置。 >> ○ 第二个四分位数(Q2):代表 50% 数据的位置;也称为中位数。通常用粗线突出显示以获得更好的可见性。 >> ○ 第三四分位数 (Q3):代表最低 75% 数据的位置。 >> ○ 四分位数间距 (IQR):第一四分位数和第三四分位数 (Q3 - Q1) 之间的范围。 >> ○ Lower Fence:Q1 减去 IQR 的 1.5 倍计算得出的位置。 >> ○ 上栅栏:Q3 加上 1.5 倍 IQR 计算得出的位置。 >> ○ 最小值:下围栏内的最小观测值。 >> ○ 最大值:上栅栏内的最大观测值。 >> ○ 晶须:从 Q1 和 Q3 延伸到 IQR 1.5 倍以内的最极端数据点的线。 >> ○ 异常值:位于须线范围之外的数据点。 > ④ R编程boxplot(c(1,2,2,3,3;样式=“颜色:#0000DD;字体粗细:粗体”>3</span>)) </前></div>
> ④ 示例
<中心>中心>
图。 5.箱线图示例:答案是①
⑿ **1-7.** 茎和叶
<中心>中心>
图。 6.茎和叶
> ① 词干表示十位。叶子表示所在位置 > ②括号内的数字表示词干出现的频率 ⒀ **1-8.** [分位数-分位数图](https://nate9389.tistory.com/1742) ⒁ **2-1.** 堆积条形图 > ① Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 7.以Bokeh表示的堆叠条形图
来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示 输出文件("hbar_stack.html") p = 图(宽度=400, height=400,标题= “水平堆叠条形图”, 工具提示=[("x", "$x"), ("y", "$y")]) 源 = ColumnDataSource(data=dict( y=[1, 2, 3, 4,5], x1=[1, 2, 4, 3,4], x2=[1, 4, 2, 2,3], )) p.hbar_stack(['x1', 'x2'], y='y',高度=0.8,颜色=("灰色","浅灰色"),来源=来源) 显示(页) </前></div>
⒂ **2-2.** 面积图 > ① Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 8.以Bokeh表示的面积图
导入 <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span> <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.models</span> <span style =“color:#008800; font-weight:bold”>导入</span> ColumnDataSource <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示 输出文件("varea_stack.html") 源 = ColumnDataSource(data=dict( x=[1, 2, 3, 4,5], y1=[1, 2, 4, 3,4], y2=[1, 4, 2, 2,3], )) p = 图(宽度=400, height=400,标题= “面积图”, 工具提示=[("x", "$x"), ("y", "$y")]) p.varea_stack(['y1', 'y2'], x='x',颜色=("灰色","浅灰色"),来源=来源) 显示(页) </前></div>
⒃ **2-3.** 符号图 > ① Python编程**:** Bokeh用于网页可视化
<中心>中心>
图。 9.以Bokeh表示的符号图
导入 <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span> <span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>bokeh.io</span> <span style=“color:#008800; font-weight:bold”>导入</span>输出文件,显示 <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图 <span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>bokeh.transform</span> <span style=“color:#008800; font-weight:bold”>导入</span> Linear_cmap <span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.util.hex</span> <span style =“color:#008800; font-weight:bold”>导入</span>十六进制 输出文件("hex_tile.html") n = 50000 x = np.随机.standard_normal(n) y = np.随机.standard_normal(n) bins = hexbin(x, y, 0.1) p = 图(宽度=400, height=400,标题= “符号图”, match_aspect=True,background_fill_color='#440154', 工具提示=[("x", "$x"), ("y", "$y")]) p.网格.可见= Falsep.hex_tile(q="q", r="r",大小=0.1,line_color=无,来源=垃圾箱, fill_color=linear_cmap('计数', 'Viridis256', 0, 最大(bins.计数))) 显示(页) </前></div>
--- *输入:2019.09.11 15:15* *修改时间:2022年3月13日 18:21*