Skip to content
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
172 changes: 160 additions & 12 deletions docs/MatrixOne-Intelligence/Data-Connect/loading.md
Original file line number Diff line number Diff line change
@@ -1,20 +1,168 @@
# 数据载入

在创建了连接器后,您可以将连接器中文件导入到 MatrixOne Intelligence 中的数据中心,也可以选择载入本地数据文件。
MatrixOne Intelligence 提供强大的数据载入能力,用户可以将外部文件导入到系统中,用于数据分析、查询、AI 智能体训练等多种场景。系统支持两大类文件载入方式:

## 如何进行数据载入
- **非结构化数据载入**(如 PDF、TXT、图片等)
- **结构化数据载入(表数据导入)**:将 CSV / XLSX / XLS 文件导入到数据库表

进入工作区后,依次点击数据连接 > 数据载入 > 载入数据,选择相应连接器或选择本地进行数据上传。系统支持上传多种格式的文件,单个文件大小限制为 200MB;在私有化部署场景下,支持通过配置将上限提升至 10000MB。
## 1. 支持的文件类型与来源

![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/loading_1.png)
MatrixOne Intelligence 支持从两种来源载入文件:

- 载入位置:您可以将文件载入到已创建好的卷,或新建一个卷。

- 载入模式:分为一次性载入和周期载入。一次性载入适合仅需导入一次的场景,周期性载入适合定期更新数据的需求,并可设置具体周期(如每小时或每日)。
- 连接器文件:可从数据连接器选择文件,由系统自动读取连接器中的目录内容。

创建完载入任务后,可以在数据载入列表中查看载入详情,对于运行中的载入任务您可以随时进行停止操作,只有任务在停止状态才能修改载入信息。当状态变成“完成”表示载入任务已成功。
- 本地上传:从本地上传单个文件,大小限制如下:
- 公有云环境:≤ **200MB**
- 私有化部署:可配置至最高 **10000MB**

<div align="center">
<img src=https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/data-connect/load-1.png
width=100% heigth=100%/>
</div>
支持的文件类型

| 载入类型 | 支持格式 | 说明 |
|---------|----------|------|
| **非结构化数据载入** | PDF、TXT、图片、Word 等 | 用于知识库、文档分析等场景 |
| **结构化数据载入(表)** | CSV、XLSX、XLS | 用于导入表数据,支持选择已有表或新建表 |

!!! note
结构化数据将 excel 文件导入到表时仅导入**第一个 Sheet 的内容**,合并单元格自动拆分为独立行,图片内容跳过,作为空值处理。

## 2. 创建载入任务

访问路径:

> **工作区 → 数据连接 → 数据载入 → 载入数据**

用户需依次完成以下步骤:

1. **选择数据源**(连接器文件 / 本地上传)
2. **选择载入类型**(非结构化 / 结构化)
3. 配置载入方式:
- **一次性载入**
- **周期性载入**(仅非结构化)
4. 选择载入位置(卷 / 表)
5. 创建载入任务并查看执行结果

## 3. 非结构化数据载入

非结构化载入用于处理各种文档、文本、图片等文件。载入后系统会解析文件内容,并存储在指定的数据卷中,用于搜索、问答和 AI 分析。

用户只需:

- 选择文件
- 选择载入位置(卷)
- 创建任务

载入完成后即可在对应卷中看到解析内容。

> 适用于知识库、多文档问答等场景。

---

## 4. 结构化数据载入(表数据导入)

结构化文件载入用于将 **CSV/XLSX/XLS** 文件中的表格数据导入数据库表(MOITable)。
用户可以:

- 导入到**已有表**
- 或**通过文件新建一张表**,再导入数据

适用于:

- 财务报表导入
- 运营数据导入
- 销售明细批量导入
- SQL 查询、AI NL2SQL 模型训练

结构化载入包含三部分:文件解析、目标表配置、字段映射。

---

## 4.1 文件解析配置

上传文件后,系统会自动识别格式并展示文件解析预览。

### CSV 文件可配置项

- 分隔符:`, ; \t | 空格`
- 定界符:`" ' ~ 无`
- 支持转义符(如 `Tom\,Jerry`)

### 列名设置

- 是否启用列名(默认开启)
- 列名所在行(1~20)
- 从第 X 行开始导入(默认 = 列名行 + 1)

### 数据抽样展示

- 展示前 **5 行**解析结果
- 超过 1000 行提示**“Out of sample”**

## 4.2 导入到已有表

如果选择导入到系统已有的表:

### 主键冲突处理方式

- **导入失败**(默认)
- **跳过冲突行**
- **替换冲突行**

### 字段映射

用户需将文件列映射到表字段:

- 系统展示字段名、类型、是否主键、默认值
- 每列可映射到“文件列 / NULL / 默认值”
- 所有字段映射完成后才能创建任务

## 4.3 新建表并导入

如果用户没有表,可以直接通过文件新建表:

### 新建表信息

- 表名(必填)
- 表描述(可选)

### 字段设置

对勾选的文件列可设置:

- 字段名(合法性校验)
- 数据类型(提供分类与子类)
- 精度规则(如 decimal(M, D))
- 主键设置(支持复合主键)
- 默认值(按类型校验)
- 字段描述

建表成功后系统会开始数据导入。

---

## 5. 载入任务管理

在“数据载入列表”中可查看所有载入任务,字段包括:

- ID
- 载入类型(非结构化 / 结构化)
- 数据来源(连接器或本地)
- 载入模式(一次性 / 周期性)
- 目标位置 / 目标表
- 状态(运行中 / 暂停 / 失败 / 完成)
- 创建时间、结束时间
- 操作按钮(暂停 / 继续 / 删除)

### 暂停与继续(结构化任务)

- 暂停时,当前导入事务会被取消
→ **不会出现部分导入的数据**
- 继续运行时会**从头重新导入**

---

# 6. 特殊处理规则

- Excel 合并单元格自动拆分为行
- Excel 中的图片视为空值
- 文件中的空行自动跳过
- 暂停结构化载入任务将回滚当前操作,不会部分导入
27 changes: 27 additions & 0 deletions docs/MatrixOne-Intelligence/Release-Notes/2025.md
Original file line number Diff line number Diff line change
@@ -1,5 +1,32 @@
# **MatrixOne Intelligence 2025 发布报告**

## 2025 年 11 月 28 日

**功能**

- 支持结构化数据载入

本次迭代新增结构化数据载入功能,支持将 CSV、XLSX、XLS 等表格文件作为表对象引入数据中心,直接参与后续的 NL2SQL 分析与查询。该能力完善了结构化数据的接入方式,使业务数据能够以标准表结构纳入系统,显著提升数据导入的效率与可用性。

- 支持 NL2SQL

MOI 即日起正式发布自然语言转 SQL(NL2SQL)能力。用户可在“数据探索”界面直接以日常语言提问,系统将自动生成并执行对应 SQL,无需手写语句。同时,界面支持同时选择数据表与多模态文件,实现结构化与非结构化数据的联合检索。
系统内置业务逻辑规则、领域同义词库、知识名词解释及优化示例,并可根据语义配置持续迭代,让 NL2SQL 在不同业务场景下保持更高的准确度与可用性。

- 新增 MOI 原子能力 API

此次更新新增了对本地文件的全面支持,API 现已能够同时处理公网可访问文件与本地上传文件,满足多样化的数据接入需求。同时,我们解耦并开放了分段、嵌入及信息提取这些核心节点的原子能力。这一改进将显著降低使用 API 编排工作流的复杂度,帮助用户更更高效、低门槛地在 MOI 上构建工作流处理数据。

- DOC 类型文档支持解析页眉页脚

系统现在可以同时识别并解析文档的页眉与页脚内容。这意味着在进行非结构化数据载入或文档知识库构建时,原先位于页眉/页脚的重要信息(如标题、页码、日期、文档编号、版权声明等)将被完整纳入解析结果中,提高内容还原度,确保文档信息不遗漏,为搜索、问答与内容理解提供更加完整的数据基础。

**错误修复**

- 修复了数据血缘旧数据不兼容的问题;
- 修复了在文档解析节点中关闭 OCR 和 Caption 配置未生效的问题;
- 修复了 PPT 和 DOC 文件解析结果详情页显示图片类型没有展示是 OCR 还是 Caption 的问题。

## 2025 年 11 月 13 日

**功能**
Expand Down