forked from bizard-lab/bizard-lab.github.io
-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathsearch.xml
More file actions
365 lines (360 loc) · 19.5 KB
/
search.xml
File metadata and controls
365 lines (360 loc) · 19.5 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
<?xml version="1.0" encoding="utf-8"?>
<search>
<entry>
<title>Chapter 04:Data Mining and Data Warehouse</title>
<url>/2022/09/30/DataMining-5/</url>
<content><![CDATA[<h1 id="数据挖掘与数据仓库-4"><a href="#数据挖掘与数据仓库-4" class="headerlink" title="数据挖掘与数据仓库_4"></a>数据挖掘与数据仓库_4</h1><h2 id="联机分析处理(OLAP)"><a href="#联机分析处理(OLAP)" class="headerlink" title="联机分析处理(OLAP)"></a>联机分析处理(OLAP)</h2><p>A、交互性:联机</p>
<p>B、维(dimension):分析数据的角度 </p>
<p>立方体(超过三维的立方体称为超立方体或多维空间)</p>
<h3 id="维的层次(hierarchy)"><a href="#维的层次(hierarchy)" class="headerlink" title="维的层次(hierarchy)"></a>维的层次(hierarchy)</h3><p>例.时间维: </p>
<p> 年-季度-月-天</p>
<p> 年-学期-周 (每一层称为 <strong>级别(level)</strong>)</p>
<h3 id="维的成员(member)"><a href="#维的成员(member)" class="headerlink" title="维的成员(member)"></a>维的成员(member)</h3><p>维的一个取值</p>
<h3 id="多维数组(多维空间)"><a href="#多维数组(多维空间)" class="headerlink" title="多维数组(多维空间)"></a>多维数组(多维空间)</h3><p>维和度量的组合</p>
<p><img src="../images/DataMining/image-20220930214656970.png" alt="image-20220930214656970"></p>
<h3 id="数据单元(单元格)"><a href="#数据单元(单元格)" class="headerlink" title="数据单元(单元格)"></a>数据单元(单元格)</h3><p>多维数组的一个取值</p>
<p>如果查询结果保存起来,则称该查询视图物化</p>
<h3 id="多维分析"><a href="#多维分析" class="headerlink" title="多维分析"></a>多维分析</h3><h4 id="切片(slice)-切块(dice)"><a href="#切片(slice)-切块(dice)" class="headerlink" title="切片(slice)/切块(dice)"></a>切片(slice)/切块(dice)</h4><p>切片:单个维度分析</p>
<p>切块:两个或以上维度分析</p>
<h4 id="钻取"><a href="#钻取" class="headerlink" title="钻取"></a>钻取</h4><p>向下钻取(Drill-down)下钻:粗粒度—–>细粒度分析</p>
<p>向上钻取(Roll-up)上卷:细粒度—–>粗粒度分析</p>
<h4 id="旋转(pivot)"><a href="#旋转(pivot)" class="headerlink" title="旋转(pivot)"></a>旋转(pivot)</h4><p>不同维度的置换</p>
<p>求不同城市的总销售量</p>
<figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(sale_unit) <span class="keyword">from</span> sale</span><br><span class="line"><span class="keyword">join</span> <span class="type">time</span> <span class="keyword">on</span> time.Q <span class="operator">=</span> sale.Q</span><br><span class="line"><span class="keyword">join</span> city <span class="keyword">on</span> city.C <span class="operator">=</span> sale.C</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> city.C;</span><br></pre></td></tr></table></figure>
<h3 id="OLAP实现架构"><a href="#OLAP实现架构" class="headerlink" title="OLAP实现架构"></a>OLAP实现架构</h3><p>ROLAP:关系表 —–>存储空间更小</p>
<p>MOLAP:多维数组—–>查询效率高</p>
<p>Eg.sale(产品)(季度)(城市)——->value</p>
<table>
<thead>
<tr>
<th align="center">产品</th>
<th align="center">季度</th>
<th align="center">城市</th>
<th align="center">value</th>
</tr>
</thead>
<tbody><tr>
<td align="center">TV</td>
<td align="center">Q1</td>
<td align="center">北京</td>
<td align="center"></td>
</tr>
<tr>
<td align="center">CD</td>
<td align="center">Q2</td>
<td align="center">上海</td>
<td align="center"></td>
</tr>
<tr>
<td align="center">PC</td>
<td align="center">Q3</td>
<td align="center">广州</td>
<td align="center"></td>
</tr>
<tr>
<td align="center">ALL</td>
<td align="center">ALL</td>
<td align="center">ALL</td>
<td align="center"></td>
</tr>
</tbody></table>
]]></content>
<categories>
<category>Big Data</category>
<category>Data Mining</category>
</categories>
<tags>
<tag>Big Data</tag>
<tag>Data Mining</tag>
</tags>
</entry>
<entry>
<title>Chapter 03:Data Mining and Data Warehouse</title>
<url>/2022/09/30/DataMining-4/</url>
<content><![CDATA[<h1 id="数据挖掘与数据仓库-3"><a href="#数据挖掘与数据仓库-3" class="headerlink" title="数据挖掘与数据仓库_3"></a>数据挖掘与数据仓库_3</h1><h2 id="例题"><a href="#例题" class="headerlink" title="例题"></a>例题</h2><p><img src="../images/DataMining/image-20220930202533332.png" alt="image-20220930202533332"></p>
<h3 id="SQL查询"><a href="#SQL查询" class="headerlink" title="SQL查询"></a>SQL查询</h3><h4 id="销售质量"><a href="#销售质量" class="headerlink" title="销售质量"></a>销售质量</h4><figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(units_sold) <span class="keyword">from</span> sales_fact;</span><br></pre></td></tr></table></figure>
<h4 id="不同年份的销售量"><a href="#不同年份的销售量" class="headerlink" title="不同年份的销售量"></a>不同年份的销售量</h4><figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(units_sold) <span class="keyword">from</span> sales_fact</span><br><span class="line"><span class="keyword">join</span> time_dim <span class="keyword">on</span> sales_fact.time_key <span class="operator">=</span> time_dim.time_key</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> time_dim.year;</span><br></pre></td></tr></table></figure>
<h4 id="不同年份不同商品项的销售额"><a href="#不同年份不同商品项的销售额" class="headerlink" title="不同年份不同商品项的销售额"></a>不同年份不同商品项的销售额</h4><figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> city <span class="keyword">as</span> 城市,item_names <span class="keyword">as</span> 商品项,<span class="built_in">sum</span>(dollars_sold) <span class="keyword">as</span> 销售额</span><br><span class="line"><span class="keyword">from</span> sales_fact a</span><br><span class="line"><span class="keyword">inner</span> <span class="keyword">join</span> geo_dim b</span><br><span class="line"><span class="keyword">on</span> a.location_key <span class="operator">=</span> b.location_key</span><br><span class="line"><span class="keyword">inner</span> <span class="keyword">join</span> item_dim c</span><br><span class="line"><span class="keyword">on</span> a.item_key <span class="operator">=</span> c.item_key</span><br><span class="line"><span class="keyword">group</span> <span class="keyword">by</span> b.city,c.item_name;</span><br></pre></td></tr></table></figure>
<h4 id="2021年1-8月份各月平均销售"><a href="#2021年1-8月份各月平均销售" class="headerlink" title="2021年1~8月份各月平均销售"></a>2021年1~8月份各月平均销售</h4><figure class="highlight sql"><table><tr><td class="code"><pre><span class="line"><span class="keyword">select</span> <span class="built_in">sum</span>(avg_sales) <span class="keyword">from</span> sales_fact a</span><br><span class="line"><span class="keyword">join</span> time_dim b <span class="keyword">on</span> a.time_key <span class="operator">=</span> b.time_key</span><br><span class="line"><span class="keyword">where</span> mouth <span class="operator">>=</span> <span class="number">1</span> <span class="keyword">and</span> mouth <span class="operator"><=</span> <span class="number">8</span>;</span><br></pre></td></tr></table></figure>
<h2 id="粒度"><a href="#粒度" class="headerlink" title="粒度"></a>粒度</h2><p>粒度:数据综合程度高低的一个度量</p>
<p>粒度越粗,综合程度越高,存储空间越小,回答的查询种类越多,查询效率越高;</p>
<p>粒度越细,综合程度越低,存储空间越大,回答的查询种类越少,查询效率越低。</p>
<p>年(粗)–>月–>日(细)</p>
<h2 id="分割(分区)(partition)"><a href="#分割(分区)(partition)" class="headerlink" title="分割(分区)(partition)"></a>分割(分区)(partition)</h2><p>划分方式:水平划分和垂直划分</p>
<p>分区类别::</p>
<p>1、范围分区:按时间分割,按单位分割。(分布式数据库)</p>
<p>2、哈希分区:(polarDB-X数据库)</p>
<p>3、列表分区:按职业、学历分区</p>
<h2 id="系统设计差异"><a href="#系统设计差异" class="headerlink" title="系统设计差异"></a>系统设计差异</h2><table>
<thead>
<tr>
<th><strong>操作型数据库</strong></th>
<th><strong>数据仓库</strong></th>
</tr>
</thead>
<tbody><tr>
<td>面向应用</td>
<td>面向分析</td>
</tr>
<tr>
<td>确定的应用需求</td>
<td>不确定的分析需求</td>
</tr>
<tr>
<td>事务处理性能</td>
<td>数据的全局一致性</td>
</tr>
<tr>
<td>数据来自组织外部</td>
<td>数据来自系统内部</td>
</tr>
</tbody></table>
<h3 id="数据仓库设计原则"><a href="#数据仓库设计原则" class="headerlink" title="数据仓库设计原则"></a>数据仓库设计原则</h3><p>面向主题原则、数据驱动原则、原型法设计原则</p>
<h3 id="数据仓库设计步骤"><a href="#数据仓库设计步骤" class="headerlink" title="数据仓库设计步骤"></a>数据仓库设计步骤</h3><p> 1、明确主题</p>
<p> 2、概念模型设计</p>
<p> 3、技术准备</p>
<p> 4、逻辑模型设计</p>
<p> 5、物理模型设计</p>
<p> 6、数据仓库生成</p>
<p> 7、数据仓库的运行与维护</p>
<h3 id="数据仓库设计方法论"><a href="#数据仓库设计方法论" class="headerlink" title="数据仓库设计方法论"></a>数据仓库设计方法论</h3><p>DM(数据集市) –> DW(数据仓库) (自底向上)(成本小,收益大)</p>
<p>DW(数据仓库) –>DM(数据集市) (自顶向下)(成本大,收益小)</p>
]]></content>
<categories>
<category>Big Data</category>
<category>Data Mining</category>
</categories>
<tags>
<tag>Big Data</tag>
<tag>Data Mining</tag>
</tags>
</entry>
<entry>
<title>Chapter 02:Data Mining and Data Warehouse</title>
<url>/2022/09/30/DataMining-3/</url>
<content><![CDATA[<h1 id="数据挖掘与数据仓库-2"><a href="#数据挖掘与数据仓库-2" class="headerlink" title="数据挖掘与数据仓库_2"></a>数据挖掘与数据仓库_2</h1><h2 id="数据库与数据仓库对比"><a href="#数据库与数据仓库对比" class="headerlink" title="数据库与数据仓库对比"></a>数据库与数据仓库对比</h2><table>
<thead>
<tr>
<th><strong>数据库</strong></th>
<th><strong>数据仓库</strong></th>
</tr>
</thead>
<tbody><tr>
<td>细节的</td>
<td>综合或提炼的</td>
</tr>
<tr>
<td>在存取时准确的</td>
<td>代表过去的数据</td>
</tr>
<tr>
<td>可更新的</td>
<td>不更新</td>
</tr>
<tr>
<td>一次操作数据量小</td>
<td>一次操作数据量大</td>
</tr>
<tr>
<td>面向应用</td>
<td>面向分析</td>
</tr>
<tr>
<td>支持管理</td>
<td>支持决策</td>
</tr>
<tr>
<td>用于事务处理</td>
<td>主要用于分析数据</td>
</tr>
</tbody></table>
<h2 id="DW、ODS、DM属性"><a href="#DW、ODS、DM属性" class="headerlink" title="DW、ODS、DM属性"></a>DW、ODS、DM属性</h2><table>
<thead>
<tr>
<th><strong>DW</strong>(数据仓库)(侧重于计算能力)</th>
<th>ODS(操作型数据存储)(能够实时报表分析)</th>
</tr>
</thead>
<tbody><tr>
<td>A、面向主题的</td>
<td>A、面向主题的</td>
</tr>
<tr>
<td>B、集成的</td>
<td>B、集成的</td>
</tr>
<tr>
<td>C、时变的</td>
<td>C、当前的</td>
</tr>
<tr>
<td>D、非易失的/稳定的</td>
<td>D、易失的</td>
</tr>
</tbody></table>
<h3 id="DM(数据集市)(Data-Mart)"><a href="#DM(数据集市)(Data-Mart)" class="headerlink" title="DM(数据集市)(Data Mart)"></a>DM(数据集市)(Data Mart)</h3><p>1、独立的数据集市 </p>
<p>2、从属的数据集市:</p>
<ul>
<li>面向部门的数据仓库 </li>
</ul>
<ul>
<li>为满足用户特定需求而创建的数据仓库</li>
</ul>
<ul>
<li>数据仓库的子集</li>
</ul>
<h3 id="Data-Lake(数据湖)"><a href="#Data-Lake(数据湖)" class="headerlink" title="Data Lake(数据湖)"></a>Data Lake(数据湖)</h3><p>(侧重于数据存储能力)</p>
<p>A、 保存原始的、细节的数据</p>
<p>B、 结构化数据、非结构化数据均存在(多模态)</p>
<h3 id="发展趋势"><a href="#发展趋势" class="headerlink" title="发展趋势"></a>发展趋势</h3><p>1、 一体化:比如湖仓一体(Lakehouse):融合了数据湖的存储能力和数据仓库的计算能力</p>
<p>2、多模态:既能处理关系表数据,也能处理时序数据、图数据</p>
<p>3、云原生:数据库迁移到云上(提升数据库存储和计算的拓展性)</p>
<h2 id="元数据"><a href="#元数据" class="headerlink" title="元数据"></a>元数据</h2><p>用来描述数据的数据,包含业务元数据和技术元数据</p>
<h2 id="数据仓库模型和数据库模型对比"><a href="#数据仓库模型和数据库模型对比" class="headerlink" title="数据仓库模型和数据库模型对比"></a>数据仓库模型和数据库模型对比</h2><table>
<thead>
<tr>
<th><strong>数据仓库模型</strong></th>
</tr>
</thead>
<tbody><tr>
<td><strong>A</strong>、概念模型:分析主题(边界、主题、维度、类别、指标、事实)</td>
</tr>
<tr>
<td><strong>B</strong>、逻辑模型:星型模型、雪花模型、星座模型</td>
</tr>
<tr>
<td><strong>C</strong>、物理模型:</td>
</tr>
</tbody></table>
<table>
<thead>
<tr>
<th><strong>数据库模型</strong></th>
</tr>
</thead>
<tbody><tr>
<td><strong>A、</strong>概念模型:ER(实体关系模型)</td>
</tr>
<tr>
<td><strong>B</strong>、逻辑模型:关系模型、网状模型、层次模型</td>
</tr>
<tr>
<td><strong>C</strong>、物理模型:</td>
</tr>
</tbody></table>
<h2 id="数据仓库模型"><a href="#数据仓库模型" class="headerlink" title="数据仓库模型"></a>数据仓库模型</h2><h3 id="销售分析的概念模型"><a href="#销售分析的概念模型" class="headerlink" title="销售分析的概念模型"></a>销售分析的概念模型</h3><p>信息包: <u>销售分析</u> </p>
<table>
<thead>
<tr>
<th>日期</th>
<th>销售地点</th>
<th>销售产品</th>
<th>年龄组别</th>
<th>性别</th>
</tr>
</thead>
<tbody><tr>
<td>年(10)</td>
<td>国家(15)</td>
<td>产品类(6)</td>
<td>年龄组(8)</td>
<td>性别组(2)</td>
</tr>
<tr>
<td>季度(40)</td>
<td>区域(45)</td>
<td>产品组(48)</td>
<td></td>
<td></td>
</tr>
<tr>
<td>月(120)</td>
<td>城市(280)</td>
<td>产品(240)</td>
<td></td>
<td></td>
</tr>
<tr>
<td></td>
<td>区(880)</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td></td>
<td>商店(2000)</td>
<td></td>
<td></td>
<td></td>
</tr>
<tr>
<td><strong>度量和事实:</strong> <strong>预测销售量、实际销售量、预测误差</strong></td>
<td></td>
<td></td>
<td></td>
<td></td>
</tr>
</tbody></table>
<h3 id="销售分析的逻辑模型(星型模型)"><a href="#销售分析的逻辑模型(星型模型)" class="headerlink" title="销售分析的逻辑模型(星型模型)"></a>销售分析的逻辑模型(星型模型)</h3><p><img src="../images/DataMining/image-20220930201611688.png" alt="image-20220930201611688"></p>
]]></content>
<categories>
<category>Big Data</category>
<category>Data Mining</category>
</categories>
<tags>
<tag>Big Data</tag>
<tag>Data Mining</tag>
</tags>
</entry>
<entry>
<title>Chapter 01:Data Mining and Data Warehouse</title>
<url>/2022/09/30/DataMining-2/</url>
<content><![CDATA[<h1 id="数据挖掘与数据仓库-1"><a href="#数据挖掘与数据仓库-1" class="headerlink" title="数据挖掘与数据仓库_1"></a>数据挖掘与数据仓库_1</h1><h2 id="数据仓库产生原因:"><a href="#数据仓库产生原因:" class="headerlink" title="数据仓库产生原因:"></a>数据仓库产生原因:</h2><p>A、 数据的大量积累</p>
<p>B、 关系数据库的局限(操作型数据库)</p>
<p>局限:TP(存取频率高、时间短)、AP(消耗资源)特性不同、数据集成度不高、质量问题、数据面向应用而非主题</p>
<p>C、 异构数据源共享问题(各类数据库产品增加导致异构环境数据增加)</p>
<h3 id="异构数据源解决方案"><a href="#异构数据源解决方案" class="headerlink" title="异构数据源解决方案"></a>异构数据源解决方案</h3><p>一、 数据仓库</p>
<p><img src="../images/DataMining/clip_image002.png" alt="clip_image002"></p>
<p>二、联邦数据库</p>
<p><img src="../images/DataMining/clip_image002-16645445572993.png" alt="clip_image002-16645445572993"></p>
<h2 id="数据仓库与联邦数据库的区别:"><a href="#数据仓库与联邦数据库的区别:" class="headerlink" title="数据仓库与联邦数据库的区别:"></a>数据仓库与联邦数据库的区别:</h2><p>数据仓库:</p>
<ul>
<li>优:查询速度快 </li>
<li>缺:空间占用大,安全性一般,实时更新一般</li>
</ul>
<p>联邦数据库:</p>
<ul>
<li>优:隐私保护性好,空间占用小,实时更新较好</li>
<li>缺:查询处理复杂,速度慢</li>
</ul>
<h2 id="数据仓库"><a href="#数据仓库" class="headerlink" title="数据仓库"></a>数据仓库</h2><p>一个面向主题的、集成的、时变的、非易失的数据集合。</p>
<p>A、面向主题的:与主题相关的数据导入数据仓库,由异构转换为同构;</p>
<p>B、集成的:集成的主要方法:</p>
<ul>
<li>统一:消除不一致的现象(数据清洗)</li>
<li>综合:对原有数据进行综合和计算</li>
</ul>
<h3 id="ETL"><a href="#ETL" class="headerlink" title="ETL"></a>ETL</h3><p>(Extraction、Transformation、Loading)</p>
<p>数据抽取、数据清洗、数据转换、数据加载、数据更新。</p>
<p>数据更新:</p>
<ul>
<li>全量更新:数据库建立时期</li>
<li>增量更新:数据库维护</li>
</ul>
<p>C、时变的:数据仓库保存长期的字段、显/隐式时间类型数据、历史数据,而操作型数据库保留当前数据。</p>
<p>D、非易失的:以读为主,数据相对稳定,一般不执行“更新”操作,主要分析数据。</p>
<h2 id="数据仓库与数据库的区别"><a href="#数据仓库与数据库的区别" class="headerlink" title="数据仓库与数据库的区别"></a>数据仓库与数据库的区别</h2><p>本质上主要为异构和同构的差别</p>
<p>事务型数据库(操作型):TP事务处理,以写为主</p>
<p>分析型数据库:AP分析处理,以读为主</p>
]]></content>
<categories>
<category>Big Data</category>
<category>Data Mining</category>
</categories>
<tags>
<tag>Big Data</tag>
<tag>Data Mining</tag>
</tags>
</entry>
</search>