Skip to content
Merged

fix #469

Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
185 changes: 46 additions & 139 deletions docs/MatrixOne-Intelligence/Data-Connect/loading.md
Original file line number Diff line number Diff line change
@@ -1,168 +1,75 @@
# 数据载入

MatrixOne Intelligence 提供强大的数据载入能力,用户可以将外部文件导入到系统中,用于数据分析、查询、AI 智能体训练等多种场景。系统支持两大类文件载入方式:
MatrixOne Intelligence 提供高性能的数据载入能力,支持从多种渠道导入结构化与非结构化数据,广泛应用于数据分析、业务查询以及 AI 智能体训练等场景。

- **非结构化数据载入**(如 PDF、TXT、图片等)
- **结构化数据载入(表数据导入)**:将 CSV / XLSX / XLS 文件导入到数据库表
## 支持的文件类型与来源

## 1. 支持的文件类型与来源
### 数据来源

MatrixOne Intelligence 支持从两种来源载入文件:
- 连接器文件:从已配置的数据连接器中选择文件,系统自动读取对应目录内容
- 本地上传:上传本地文件到系统
- 公有云环境:最大支持 200MB
- 私有化部署:最大支持 10000MB(可配置)

- 连接器文件:可从数据连接器选择文件,由系统自动读取连接器中的目录内容。
### 支持的文件格式

- 本地上传:从本地上传单个文件,大小限制如下:
- 公有云环境:≤ **200MB**
- 私有化部署:可配置至最高 **10000MB**

支持的文件类型

| 载入类型 | 支持格式 | 说明 |
|---------|----------|------|
| **非结构化数据载入** | PDF、TXT、图片、Word 等 | 用于知识库、文档分析等场景 |
| **结构化数据载入(表)** | CSV、XLSX、XLS | 用于导入表数据,支持选择已有表或新建表 |
| 载入类型 | 支持格式 | 应用场景 |
|---------|---------|---------|
| 非结构化数据 | PDF、TXT、图片、Word 等 | 知识库构建、文档处理、多文档问答 |
| 结构化数据(表导入) | CSV、XLSX、XLS | 财务、运营、销售等表格数据导入 |

!!! note
结构化数据将 excel 文件导入到表时仅导入**第一个 Sheet 的内容**,合并单元格自动拆分为独立行,图片内容跳过,作为空值处理。

## 2. 创建载入任务

访问路径:

> **工作区 → 数据连接 → 数据载入 → 载入数据**

用户需依次完成以下步骤:

1. **选择数据源**(连接器文件 / 本地上传)
2. **选择载入类型**(非结构化 / 结构化)
3. 配置载入方式:
- **一次性载入**
- **周期性载入**(仅非结构化)
4. 选择载入位置(卷 / 表)
5. 创建载入任务并查看执行结果

## 3. 非结构化数据载入

非结构化载入用于处理各种文档、文本、图片等文件。载入后系统会解析文件内容,并存储在指定的数据卷中,用于搜索、问答和 AI 分析。

用户只需:

- 选择文件
- 选择载入位置(卷)
- 创建任务

载入完成后即可在对应卷中看到解析内容。

> 适用于知识库、多文档问答等场景。

---

## 4. 结构化数据载入(表数据导入)

结构化文件载入用于将 **CSV/XLSX/XLS** 文件中的表格数据导入数据库表(MOITable)。
用户可以:

- 导入到**已有表**
- 或**通过文件新建一张表**,再导入数据
Excel 文件仅处理第一个 Sheet,合并单元格会自动拆分为独立行,Excel 中的图片内容跳过处理,作为空值导入。

适用于:
## 创建载入任务

- 财务报表导入
- 运营数据导入
- 销售明细批量导入
- SQL 查询、AI NL2SQL 模型训练
入口路径:工作区 → 数据连接 → 数据载入 → 载入数据

结构化载入包含三部分:文件解析、目标表配置、字段映射。
操作流程:

---
1. 选择数据源(连接器文件 / 本地上传)
2. 选择载入类型(非结构化 / 结构化)
3. 配置载入方式:一次性载入或周期性载入(非结构化数据)
4. 选择目标位置(数据卷或数据库表)
5. 创建任务并查看执行状态

## 4.1 文件解析配置
## 非结构化数据载入

上传文件后,系统会自动识别格式并展示文件解析预览
适用于文档、文本、图片等非结构化文件。用户只需:选择要载入的文件,指定目标数据卷既可创建载入任务

### CSV 文件可配置项
## 结构化数据载入(表数据导入)

- 分隔符:`, ; \t | 空格`
- 定界符:`" ' ~ 无`
- 支持转义符(如 `Tom\,Jerry`)
结构化载入用于将 CSV/XLSX/XLS 文件中的表格数据导入数据库表,支持将数据追加到已有表,或在创建新表后导入。

### 列名设置
对于结构化文件,可配置分隔符、定界符和转义符(仅 CSV 适用)。文件列名可选择是否启用(默认开启),并可指定列名所在行(最多 20 行);数据起始行默认为列名行的下一行。

- 是否启用列名(默认开启)
- 列名所在行(1~20)
- 从第 X 行开始导入(默认 = 列名行 + 1)
载入流程中,系统会预览从导入数据起始行开始的前 5 条数据样例,当导入的起始行超过 1000 时,则无法展示。

### 数据抽样展示
### 导入到已有表的数据处理逻辑

- 展示前 **5 行**解析结果
- 超过 1000 行提示**“Out of sample”**
主键冲突时可选择:

## 4.2 导入到已有表
- 导入失败(默认):遇到主键冲突时任务终止
- 跳过冲突行:仅导入不冲突的数据
- 替换冲突行:用新数据覆盖已有主键行

如果选择导入到系统已有的表
字段映射要求

### 主键冲突处理方式
- 系统展示目标表的字段名、类型、主键信息
- 每个目标字段可映射:文件列 / NULL / 默认值
- 所有字段完成映射后方可创建任务

- **导入失败**(默认)
- **跳过冲突行**
- **替换冲突行**
### 创建新表并导入

### 字段映射
建表时可配置:

用户需将文件列映射到表字段:

- 系统展示字段名、类型、是否主键、默认值
- 每列可映射到“文件列 / NULL / 默认值”
- 所有字段映射完成后才能创建任务

## 4.3 新建表并导入

如果用户没有表,可以直接通过文件新建表:

### 新建表信息

- 表名(必填)
- 表描述(可选)

### 字段设置

对勾选的文件列可设置:

- 字段名(合法性校验)
- 数据类型(提供分类与子类)
- 精度规则(如 decimal(M, D))
- 主键设置(支持复合主键)
- 默认值(按类型校验)
- 表名
- 表描述
- 字段名
- 数据类型
- 精度规则
- 主键设置
- 默认值
- 字段描述

建表成功后系统会开始数据导入。

---

## 5. 载入任务管理

在“数据载入列表”中可查看所有载入任务,字段包括:

- ID
- 载入类型(非结构化 / 结构化)
- 数据来源(连接器或本地)
- 载入模式(一次性 / 周期性)
- 目标位置 / 目标表
- 状态(运行中 / 暂停 / 失败 / 完成)
- 创建时间、结束时间
- 操作按钮(暂停 / 继续 / 删除)

### 暂停与继续(结构化任务)

- 暂停时,当前导入事务会被取消
→ **不会出现部分导入的数据**
- 继续运行时会**从头重新导入**

---

# 6. 特殊处理规则

- Excel 合并单元格自动拆分为行
- Excel 中的图片视为空值
- 文件中的空行自动跳过
- 暂停结构化载入任务将回滚当前操作,不会部分导入
创建表成功后系统会自动启动导入任务。
83 changes: 61 additions & 22 deletions docs/MatrixOne-Intelligence/Workspace-Mgmt/data_mgt/data_explore.md
Original file line number Diff line number Diff line change
@@ -1,36 +1,75 @@
# 数据探索

数据探索是 MOI 平台提供的跨多模态文件的智能检索与问答功能,专为多文件、多类型内容场景设计。该功能支持快速定位信息、查看原文件内容、生成答案总结,并提供多轮对话式探索体验。
数据探索是 MOI 平台提供的跨多模态文件智能检索与问答能力。该功能支持同时从多个文件(包括文档文件和表对象)中检索信息,并生成智能总结。数据探索旨在帮助用户在海量、多类型文件中高效定位信息、查阅内容、获取回答,甚至进行复杂数据分析。

## 智能检索与对话

进入工作区后,依次点击**数据管理** > **数据探索**,进入检索界面。点击右上角的**选择文件/表**来添加检索对象。一次检索可跨多个文件、多个模态,并支持多轮对话持续参考上下文。

!!! note
仅已完成嵌入的文件参与检索,禁用的分段不会进入召回范围。

![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/explore_1.jpg)

![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/data_search_1.png)

## 功能特性
若文件选择中包含表对象,输入问题会触发结构化查询(NL2SQL)。

## NL2SQL 能力增强组件(可配置)

为了让模型准确理解用户的自然语言问题,并将其转换为正确的 SQL,需要为模型补充足够的 "业务知识上下文"。以下是相关的配置功能模块。

点击数据探索页面右上角的**设置**按钮,进入配置界面。

![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/explore_2.png)

### 名词解释

用于定义业务术语及指标口径。为了帮助 MOI 更好地理解您在数据分析中的目标表达,您可以将常见表述中涉及到的专有名词、指标计算口径等信息在此录入。

**示例:**

- GMV:已支付订单 price × quantity 之和
- 有效订单:订单状态为(已支付、已发货、已完成)

### 同义词

用于绑定多个叫法到同一字段。为了帮助 MOI 更好地理解您在数据分析中的目标表达,您可以配置常见表述中涉及到的各名词及其同义词。每个标准词可绑定到具体表字段。

**示例:**

- 销售额 ≈ 营收 / 流水 / GMV
- 用户 ≈ 客户 / 会员

### 业务逻辑

用于描述复杂规则,可设置为系统智能判断和全局生效。您可以将业务口径的逻辑定义、专有名词、指标计算口径等信息在此录入,帮助 MOI 更好地理解自然语言问题中的业务知识。

**示例:**

- "近期" = 最近 7 天
- 全局排除 test_user_001、test_user_002

### 文件选择
### 优化案例管理

- 支持从数据卷中选择任意数量的文件参与检索
- 仅已完成嵌入的文件可参与检索过程
- 禁用的分段不会被纳入搜索范围
- 系统自动记录用户的历史选择,重复进入时默认保持上次的文件选择状态
优化案例管理提供通配符管理与案例库管理两项能力。通配符需与案例库配合使用,请先添加通配符,再添加案例库。

### 智能检索与对话
通配符将可变参数抽象化,提高案例复用率。

- 支持自然语言问题和关键词两种检索方式
- 基于所有已选文件内容进行跨模态检索
**示例:**

### 检索结果展示
- {城市} = 北京、上海、广州、深圳
- {产品线} = 手机、电脑、穿戴设备

检索结果包含三个核心部分:
案例库添加问法与标准 SQL 的映射,用于直接指导模型生成 SQL。

- **用户问题**
- 回显当前提问内容,确保问题清晰可见
**示例:**

- **AI 智能总结**
- 基于召回的分段内容生成语义化回答
- 提供准确、简洁的信息总结
- **问法:**查询 {城市} 的 {产品线} 销售额
- **SQL:**

- **命中分段详情**
- 文件来源信息
- 文本、图片、表格、音视频等多模态内容
- 字符数与召回次数统计
- 支持快速定位到原文件中的对应内容位置
```sql
SELECT SUM(total_amount)
FROM sales_orders
WHERE city = '${城市}' AND product_line = '${产品线}';
```
Binary file added docs/assets/images/explore_1.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file added docs/assets/images/explore_2.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.