Korean, Edit

第 1 章统计基础知识

推荐帖子:【统计】【统计概述】(https://jb243.github.io/pages/1641) 


1简介

2. 基本统计术语

3. 数据定义

4. 数据可视化


a. 分位数-分位数图 



1.简介 

⑴ 概率与统计

① 概率 对可能性的数学和理论研究

② 统计 收集、分析、解释或表达数据的研究

○ 概率和统计相似但又明显不同

③描述性统计总结和描述数据的统计技术

④ 推论统计计算某个值出现在数字汇总之外的概率的统计技术

⑵ 概率的含义

① 频率论者

○ 声称概率是物体的内在属性

○ 例子 硬币是正面和背面概率各为一半的物体

② 贝叶斯主义 

○ 声称概率只不过是人类的信念

○ 例子考察一枚硬币正反面的频率并不能真正证明每个频率都是二分之一

⑶ 统计趋势

①经典统计学中的主要问题求分布,增加幂

② 现代统计学的重大问题 大数据、机器学习



2.基本统计术语 

⑴ 平均值(mean)

⑵ 出现次数最多的数(众数)

⑶ 中心值(中位数)

①按顺序中间的值相对于概率分布中的中位数,两侧的宽度应该相等

② 对分布变化的敏感度低于平均水平


<中心> 绘图
图 1. 平均值(左)和中位数(右)


○ 仅更改中位数右侧部分 更改不能更改中位数

○ 因此,中值不太敏感 

○ 没想到很多人不知道



3。数据的定义

⑴ 数据、信息、知识

①数据:给定数据

②信息:数据名称

③知识信息与信息之间的关系

⑵ 数据集类型

①关系

② 树

③网络

⑶ 属性类型

1类.连续型数据 定量数据 

1-1。比率标度(比率标度) 排名第一的标度

○ 绝对零+相同区间+排名+类别

○ 可以建立尺度比的概念

○ 绝对零存在 没有否定概念

○ 示例 绝对温度

1-2. 区间尺度(区间尺度) 二阶尺度

○ 相同区间+排名+类别

○ 尺度比例概念无法成立

○ 没有绝对零 存在负概念

○ 示例:摄氏温度、华氏温度

2类.分类数据定性数据

2-1. 序数尺度

○ 等级+类别

○ 间隔不能说彼此相等 量化和平均是不可能的

○ 示例:三年级 2 名学生和一年级 2 名学生不能算作平均 2 名二年级学生

2-2. 名义量表(分类量表)

○ 类别 与每种材料的名称相同

○ 示例 性别、血型

⑷ 属性语义

①空间:定量 

② 时间:定量

③ 顺序的:顺序的> ④发散:定量

⑤ 循环:分类、有序、定量

⑥ 分层 分类 



4。数据可视化

⑴分析分类

频率 分析 识别一个分类变量的分布特征的分析

交叉分析 识别两个或多个分类变量的组合分布特征的分析。它能够分析独立性和相关性

⑵ 根据数据类型的有利表达形式数据类型越有利,则越高

①数量变量

○ 位置

○ 长度 

○ 角

○ 坡度

○区

○ 卷

○ 密度

○ 色彩饱和度 

○ 色调:色盲色彩设计的注意事项(ref

○ 质感

○ 连接

○ 遏制

○ 形状 

②序数变量 

○ 位置 

○ 密度

○ 色彩饱和度 

○ 色调 

○ 质感 

○ 连接

○ 遏制 

○ 长度 

○ 角 

○ 坡度 

○区 

○ 卷 

○ 形状

③名义变量

○位置 

○ 色调 

○ 质感 

○ 连接 

○ 遏制 

○ 密度 

○ 色彩饱和度 

○ 形状 

○ 长度 

○ 角 

○ 坡度 

○区 

○ 卷 

1类. 二维信息的表示

①条形图分类/序数(1D)+定量(1D)

○ 当分类/序数变量位于 x 轴时 可以使用长标签

○ 当分类/序数变量位于 y 轴时 可以增加变量数量

②折线图序数/定量(1D)+定量(1D)

③散点图定量(1D)+定量(1D)

④斜率图定量(1D)+定量(1D)。散点图的替代方案

⑤直方图 

⑥ 饼图 

⑦箱线图 

⑧ 茎叶图形

⑨ 热图

2类. 三维信息的表示

① 矩阵 分类/序数 (1D) + 分类/序数 (1D) + 定量(1D,颜色)(+ 定量(1D,点大小))

②扩展条形图堆叠条形图、分组条形图等 

③扩展折线图面积图(≒堆积折线图)等

④扩展散点图气泡图(参见点大小也可以是变量)等

⑤符号图:空间(2D)+定量(1D)

⑥ 漏斗图

第3类. 多维信息的表示

①faceting表达每个参数的二维或三维信息。生成多种类型的图表

② 切尔诺夫脸 

③ 星图也称为蜘蛛图、雷达图、蜘蛛网图或极坐标图

1-1. 条形图(条形图)

①定义标称尺度数据的图表

② 一般情况下,条与条之间有间隙

③ R编程 

plot(c(123),c(45,<span style=“color:#0000DD; font-weight:bold”>6</span>),主要<span style=“color:#333333”>=</span> <span style=“background-color:#fff0f0”>“基本情节”</span>)
</前></div>


> ④ Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 2.以Bokeh表示的条形图

来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示

输出文件("stacked_bar.html")
图表 = 图(宽度 = 400,高度 = 400,标题= “散景垂直条形图”, 
               工具提示=[("x", "$x"), ("y", "$y")])
x = [1, 2, 3, 45]
顶部 = [1, 2, 3, 45]
宽度 = 0.5
graph.vbar(x, 顶部 = 顶部, 宽度 = 宽度)
显示(图表)
</前></div>


> ⑤ [图表替代条形图](https://towardsdatascience.com/9-visualizations-that-catch-more-attention-than-a-bar-chart-72d3aeb2e091) >> ○ 圆形条形图(= 赛道图) >> ○ 放射状条形图 >> ○ 树形图 >> ○ 华夫饼图 >> ○ 交互式条形图 >> ○ 饼图 >> ○ 雷达图 >> ○ 气泡图 >> ○ 圆形包装 ⑺ **1-2.** 折线图 > ① Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 3.以Bokeh为代表的折线图

来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示输出文件("line_chart.html")
p = 图(宽度=400, height=400,标题= “折线图”, 
           工具提示=[("x", "$x"), ("y", "$y")])
p.line([1, 2, 3, 45],[672, <span style =“color:#0000DD; font-weight:bold”> 4</span>,<span style =“color:#0000DD; font-weight:bold”> 5</span>],line_width<span style =“color:#333333”> =</span><span style =“color:#0000DD; font-weight:bold”>2</span>)
显示(页)
</前></div>


⑻**1-3.**散点图 > ①定义 > ② 带边缘直方图的散点图  > ③ Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 4.以Bokeh表示的散点图

来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示输出文件("scatter_plot.html")
p = 图(宽度=400, height=400,标题= “散点图”,
           工具提示=[("x", "$x"), ("y", "$y")])
p.circle([1, 2, 3, 45],[672, <span style =“color:#0000DD; font-weight:bold”> 4</span>,<span style =“color:#0000DD; font-weight:bold”> 5</span>],尺寸<span style =“color:#333333”> =</span><span style =“color:#0000DD; font-weight:bold”>20</span>,颜色<span style =“color:” #333333">=</span>"海军蓝",alpha=0.5)
显示(页)
</前></div>


⑼ **1-4.** 直方图 > ① 定义**:** 比率尺度、区间尺度和图形表达的连续数据的区间确定 > ② 杆与杆之间一般无间隙 > ③ 3D直方图 > ④ R编程
hist(c(12233; style="color: #0000DD; font-weight: bold">3</span>), col = “浅黄色”)
</前></div>


⑽ **1-5.** 圆形图(饼图) > ①定义**:**以百分比表示的比率尺度上连续/不连续数据的圆形图。 > ② R编程
pie(c(12233; style=“color:#0000DD; font-weight:bold”>3</span>),标签<span style=“color:#333333”>=</span> c(<span style=“background-color:#fff0f0”>“a”</span>,<span style=“background-color:#fff0f0”>“b”</span>,<span style=“background-color:” #fff0f0">"c"</span>、"d""e""f")、主要= "饼图")
</前></div>


> ③ 图表替代饼图 >> ○ 哑铃图(=杠铃图) >> ○ 气泡图 >> ○ 圆形包装 >> ○ 交互式饼图 >> ○ 交互式圆环图 >> ○ 树形图 >> ○ 华夫饼图 >> ○ 条形图 >> ○ 堆积条形图 ⑾ **1-6.** 箱线图(晶须图) > ① 分位数 >> ○ **分位数函数****:**累积分布函数的反函数 >>> ○ 定义域:{x 0 ≤ x ≤ 1} >>> ○范围:感兴趣组的统计数据 >> ○ 根据节数的不同,有百分比、四分位数等。 > ② 从下面的下限开始,表示第一个四分位数、中位数、第三个四分位数和上限 >> ○ 可能会注明平均值,否则可能不会 > ③ 其他部件 >> ○ 第一个四分位数 (Q1):代表数据最低 25% 的位置。 >> ○ 第二个四分位数(Q2):代表 50% 数据的位置;也称为中位数。通常用粗线突出显示以获得更好的可见性。 >> ○ 第三四分位数 (Q3):代表最低 75% 数据的位置。 >> ○ 四分位数间距 (IQR):第一四分位数和第三四分位数 (Q3 - Q1) 之间的范围。 >> ○ Lower Fence:Q1 减去 IQR 的 1.5 倍计算得出的位置。 >> ○ 上栅栏:Q3 加上 1.5 倍 IQR 计算得出的位置。 >> ○ 最小值:下围栏内的最小观测值。 >> ○ 最大值:上栅栏内的最大观测值。 >> ○ 晶须:从 Q1 和 Q3 延伸到 IQR 1.5 倍以内的最极端数据点的线。 >> ○ 异常值:位于须线范围之外的数据点。 > ④ R编程
boxplot(c(12233;样式=“颜色:#0000DD;字体粗细:粗体”>3</span>))
</前></div>


> ④ 示例
<中心> 绘图
图。 5.箱线图示例:答案是①

⑿ **1-7.** 茎和叶
<中心> 绘图
图。 6.茎和叶

> ① 词干表示十位。叶子表示所在位置 > ②括号内的数字表示词干出现的频率 ⒀ **1-8.** [分位数-分位数图](https://nate9389.tistory.com/1742)  ⒁ **2-1.** 堆积条形图 > ① Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 7.以Bokeh表示的堆叠条形图

来自 <span style =“color:#0e84b5; font-weight:bold”>散景.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图形,output_file,显示

输出文件("hbar_stack.html")
p = 图(宽度=400, height=400,标题= “水平堆叠条形图”,
           工具提示=[("x", "$x"), ("y", "$y")])
源 = ColumnDataSource(data=dict(
    y=[1, 2, 3, 45],
    x1=[1, 2, 4, 34],
    x2=[1, 4, 2, 23],
))
p.hbar_stack(['x1', 'x2'], y='y',高度=0.8,颜色=("灰色""浅灰色"),来源=来源)
显示(页)
</前></div>


⒂ **2-2.** 面积图 > ① Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 8.以Bokeh表示的面积图

导入 <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span>

<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.models</span> <span style =“color:#008800; font-weight:bold”>导入</span> ColumnDataSource
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图,output_file,显示

输出文件("varea_stack.html")

源 = ColumnDataSource(data=dict(
    x=[1, 2, 3, 45],
    y1=[1, 2, 4, 34],
    y2=[1, 4, 2, 23],
))

p = 图(宽度=400, height=400,标题= “面积图”,
           工具提示=[("x", "$x"), ("y", "$y")])
p.varea_stack(['y1', 'y2'], x='x',颜色="灰色""浅灰色"),来源=来源)
显示(页)
</前></div>


⒃ **2-3.** 符号图 > ① Python编程**:** Bokeh用于网页可视化
<中心> 绘图
图。 9.以Bokeh表示的符号图

导入 <span style=“color:#0e84b5; font-weight:bold”>numpy</span> <span style=“color:#008800; font-weight:bold”>as</span> <span style=“color:#0e84b5; font-weight:bold”>np</span>

<span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>bokeh.io</span> <span style=“color:#008800; font-weight:bold”>导入</span>输出文件,显示
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.plotting</span> <span style =“color:#008800; font-weight:bold”>导入</span>图
<span style=“color:#008800; font-weight:bold”>来自</span> <span style=“color:#0e84b5; font-weight:bold”>bokeh.transform</span> <span style=“color:#008800; font-weight:bold”>导入</span> Linear_cmap
<span style =“color:#008800; font-weight:bold”>来自</span> <span style =“color:#0e84b5; font-weight:bold”>bokeh.util.hex</span> <span style =“color:#008800; font-weight:bold”>导入</span>十六进制

输出文件("hex_tile.html")

n = 50000
x = np.随机.standard_normal(n)
y = np.随机.standard_normal(n)
bins = hexbin(x, y, 0.1)

p = 图(宽度=400, height=400,标题= “符号图”, 
           match_aspect=True,background_fill_color='#440154',
           工具提示=[("x", "$x"), ("y", "$y")])
p.网格.可见= Falsep.hex_tile(q="q", r="r",大小=0.1,line_color=,来源=垃圾箱,
           fill_color=linear_cmap('计数', 'Viridis256', 0, 最大(bins.计数)))
显示(页)
</前></div>


--- *输入:2019.09.11 15:15* *修改时间:2022年3月13日 18:21*

results matching ""

    No results matching ""