From d0c95ae8a2fe498262b597c7c2e48766689aa3f9 Mon Sep 17 00:00:00 2001 From: yangj1211 Date: Fri, 28 Nov 2025 22:18:30 +0800 Subject: [PATCH] 4.1.2 release --- .../Data-Connect/loading.md | 172 ++++++++++++++++-- .../Release-Notes/2025.md | 27 +++ 2 files changed, 187 insertions(+), 12 deletions(-) diff --git a/docs/MatrixOne-Intelligence/Data-Connect/loading.md b/docs/MatrixOne-Intelligence/Data-Connect/loading.md index 64535ae3..171d938e 100644 --- a/docs/MatrixOne-Intelligence/Data-Connect/loading.md +++ b/docs/MatrixOne-Intelligence/Data-Connect/loading.md @@ -1,20 +1,168 @@ # 数据载入 -在创建了连接器后,您可以将连接器中文件导入到 MatrixOne Intelligence 中的数据中心,也可以选择载入本地数据文件。 +MatrixOne Intelligence 提供强大的数据载入能力,用户可以将外部文件导入到系统中,用于数据分析、查询、AI 智能体训练等多种场景。系统支持两大类文件载入方式: -## 如何进行数据载入 +- **非结构化数据载入**(如 PDF、TXT、图片等) +- **结构化数据载入(表数据导入)**:将 CSV / XLSX / XLS 文件导入到数据库表 -进入工作区后,依次点击数据连接 > 数据载入 > 载入数据,选择相应连接器或选择本地进行数据上传。系统支持上传多种格式的文件,单个文件大小限制为 200MB;在私有化部署场景下,支持通过配置将上限提升至 10000MB。 +## 1. 支持的文件类型与来源 -![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/loading_1.png) +MatrixOne Intelligence 支持从两种来源载入文件: -- 载入位置:您可以将文件载入到已创建好的卷,或新建一个卷。 - -- 载入模式:分为一次性载入和周期载入。一次性载入适合仅需导入一次的场景,周期性载入适合定期更新数据的需求,并可设置具体周期(如每小时或每日)。 +- 连接器文件:可从数据连接器选择文件,由系统自动读取连接器中的目录内容。 -创建完载入任务后,可以在数据载入列表中查看载入详情,对于运行中的载入任务您可以随时进行停止操作,只有任务在停止状态才能修改载入信息。当状态变成“完成”表示载入任务已成功。 +- 本地上传:从本地上传单个文件,大小限制如下: + - 公有云环境:≤ **200MB** + - 私有化部署:可配置至最高 **10000MB** -
- -
+支持的文件类型 + +| 载入类型 | 支持格式 | 说明 | +|---------|----------|------| +| **非结构化数据载入** | PDF、TXT、图片、Word 等 | 用于知识库、文档分析等场景 | +| **结构化数据载入(表)** | CSV、XLSX、XLS | 用于导入表数据,支持选择已有表或新建表 | + +!!! note + 结构化数据将 excel 文件导入到表时仅导入**第一个 Sheet 的内容**,合并单元格自动拆分为独立行,图片内容跳过,作为空值处理。 + +## 2. 创建载入任务 + +访问路径: + +> **工作区 → 数据连接 → 数据载入 → 载入数据** + +用户需依次完成以下步骤: + +1. **选择数据源**(连接器文件 / 本地上传) +2. **选择载入类型**(非结构化 / 结构化) +3. 配置载入方式: + - **一次性载入** + - **周期性载入**(仅非结构化) +4. 选择载入位置(卷 / 表) +5. 创建载入任务并查看执行结果 + +## 3. 非结构化数据载入 + +非结构化载入用于处理各种文档、文本、图片等文件。载入后系统会解析文件内容,并存储在指定的数据卷中,用于搜索、问答和 AI 分析。 + +用户只需: + +- 选择文件 +- 选择载入位置(卷) +- 创建任务 + +载入完成后即可在对应卷中看到解析内容。 + +> 适用于知识库、多文档问答等场景。 + +--- + +## 4. 结构化数据载入(表数据导入) + +结构化文件载入用于将 **CSV/XLSX/XLS** 文件中的表格数据导入数据库表(MOITable)。 +用户可以: + +- 导入到**已有表** +- 或**通过文件新建一张表**,再导入数据 + +适用于: + +- 财务报表导入 +- 运营数据导入 +- 销售明细批量导入 +- SQL 查询、AI NL2SQL 模型训练 + +结构化载入包含三部分:文件解析、目标表配置、字段映射。 + +--- + +## 4.1 文件解析配置 + +上传文件后,系统会自动识别格式并展示文件解析预览。 + +### CSV 文件可配置项 + +- 分隔符:`, ; \t | 空格` +- 定界符:`" ' ~ 无` +- 支持转义符(如 `Tom\,Jerry`) + +### 列名设置 + +- 是否启用列名(默认开启) +- 列名所在行(1~20) +- 从第 X 行开始导入(默认 = 列名行 + 1) + +### 数据抽样展示 + +- 展示前 **5 行**解析结果 +- 超过 1000 行提示**“Out of sample”** + +## 4.2 导入到已有表 + +如果选择导入到系统已有的表: + +### 主键冲突处理方式 + +- **导入失败**(默认) +- **跳过冲突行** +- **替换冲突行** + +### 字段映射 + +用户需将文件列映射到表字段: + +- 系统展示字段名、类型、是否主键、默认值 +- 每列可映射到“文件列 / NULL / 默认值” +- 所有字段映射完成后才能创建任务 + +## 4.3 新建表并导入 + +如果用户没有表,可以直接通过文件新建表: + +### 新建表信息 + +- 表名(必填) +- 表描述(可选) + +### 字段设置 + +对勾选的文件列可设置: + +- 字段名(合法性校验) +- 数据类型(提供分类与子类) +- 精度规则(如 decimal(M, D)) +- 主键设置(支持复合主键) +- 默认值(按类型校验) +- 字段描述 + +建表成功后系统会开始数据导入。 + +--- + +## 5. 载入任务管理 + +在“数据载入列表”中可查看所有载入任务,字段包括: + +- ID +- 载入类型(非结构化 / 结构化) +- 数据来源(连接器或本地) +- 载入模式(一次性 / 周期性) +- 目标位置 / 目标表 +- 状态(运行中 / 暂停 / 失败 / 完成) +- 创建时间、结束时间 +- 操作按钮(暂停 / 继续 / 删除) + +### 暂停与继续(结构化任务) + +- 暂停时,当前导入事务会被取消 + → **不会出现部分导入的数据** +- 继续运行时会**从头重新导入** + +--- + +# 6. 特殊处理规则 + +- Excel 合并单元格自动拆分为行 +- Excel 中的图片视为空值 +- 文件中的空行自动跳过 +- 暂停结构化载入任务将回滚当前操作,不会部分导入 \ No newline at end of file diff --git a/docs/MatrixOne-Intelligence/Release-Notes/2025.md b/docs/MatrixOne-Intelligence/Release-Notes/2025.md index 06998dbd..90d3f638 100644 --- a/docs/MatrixOne-Intelligence/Release-Notes/2025.md +++ b/docs/MatrixOne-Intelligence/Release-Notes/2025.md @@ -1,5 +1,32 @@ # **MatrixOne Intelligence 2025 发布报告** +## 2025 年 11 月 28 日 + +**功能** + +- 支持结构化数据载入 + +本次迭代新增结构化数据载入功能,支持将 CSV、XLSX、XLS 等表格文件作为表对象引入数据中心,直接参与后续的 NL2SQL 分析与查询。该能力完善了结构化数据的接入方式,使业务数据能够以标准表结构纳入系统,显著提升数据导入的效率与可用性。 + +- 支持 NL2SQL + +MOI 即日起正式发布自然语言转 SQL(NL2SQL)能力。用户可在“数据探索”界面直接以日常语言提问,系统将自动生成并执行对应 SQL,无需手写语句。同时,界面支持同时选择数据表与多模态文件,实现结构化与非结构化数据的联合检索。 +系统内置业务逻辑规则、领域同义词库、知识名词解释及优化示例,并可根据语义配置持续迭代,让 NL2SQL 在不同业务场景下保持更高的准确度与可用性。 + +- 新增 MOI 原子能力 API + +此次更新新增了对本地文件的全面支持,API 现已能够同时处理公网可访问文件与本地上传文件,满足多样化的数据接入需求。同时,我们解耦并开放了分段、嵌入及信息提取这些核心节点的原子能力。这一改进将显著降低使用 API 编排工作流的复杂度,帮助用户更更高效、低门槛地在 MOI 上构建工作流处理数据。 + +- DOC 类型文档支持解析页眉页脚 + +系统现在可以同时识别并解析文档的页眉与页脚内容。这意味着在进行非结构化数据载入或文档知识库构建时,原先位于页眉/页脚的重要信息(如标题、页码、日期、文档编号、版权声明等)将被完整纳入解析结果中,提高内容还原度,确保文档信息不遗漏,为搜索、问答与内容理解提供更加完整的数据基础。 + +**错误修复** + +- 修复了数据血缘旧数据不兼容的问题; +- 修复了在文档解析节点中关闭 OCR 和 Caption 配置未生效的问题; +- 修复了 PPT 和 DOC 文件解析结果详情页显示图片类型没有展示是 OCR 还是 Caption 的问题。 + ## 2025 年 11 月 13 日 **功能**