diff --git a/docs/MatrixOne-Intelligence/Data-Connect/loading.md b/docs/MatrixOne-Intelligence/Data-Connect/loading.md index 171d938e..7505dc1c 100644 --- a/docs/MatrixOne-Intelligence/Data-Connect/loading.md +++ b/docs/MatrixOne-Intelligence/Data-Connect/loading.md @@ -1,168 +1,75 @@ # 数据载入 -MatrixOne Intelligence 提供强大的数据载入能力,用户可以将外部文件导入到系统中,用于数据分析、查询、AI 智能体训练等多种场景。系统支持两大类文件载入方式: +MatrixOne Intelligence 提供高性能的数据载入能力,支持从多种渠道导入结构化与非结构化数据,广泛应用于数据分析、业务查询以及 AI 智能体训练等场景。 -- **非结构化数据载入**(如 PDF、TXT、图片等) -- **结构化数据载入(表数据导入)**:将 CSV / XLSX / XLS 文件导入到数据库表 +## 支持的文件类型与来源 -## 1. 支持的文件类型与来源 +### 数据来源 -MatrixOne Intelligence 支持从两种来源载入文件: +- 连接器文件:从已配置的数据连接器中选择文件,系统自动读取对应目录内容 +- 本地上传:上传本地文件到系统 +- 公有云环境:最大支持 200MB +- 私有化部署:最大支持 10000MB(可配置) -- 连接器文件:可从数据连接器选择文件,由系统自动读取连接器中的目录内容。 +### 支持的文件格式 -- 本地上传:从本地上传单个文件,大小限制如下: - - 公有云环境:≤ **200MB** - - 私有化部署:可配置至最高 **10000MB** - -支持的文件类型 - -| 载入类型 | 支持格式 | 说明 | -|---------|----------|------| -| **非结构化数据载入** | PDF、TXT、图片、Word 等 | 用于知识库、文档分析等场景 | -| **结构化数据载入(表)** | CSV、XLSX、XLS | 用于导入表数据,支持选择已有表或新建表 | +| 载入类型 | 支持格式 | 应用场景 | +|---------|---------|---------| +| 非结构化数据 | PDF、TXT、图片、Word 等 | 知识库构建、文档处理、多文档问答 | +| 结构化数据(表导入) | CSV、XLSX、XLS | 财务、运营、销售等表格数据导入 | !!! note - 结构化数据将 excel 文件导入到表时仅导入**第一个 Sheet 的内容**,合并单元格自动拆分为独立行,图片内容跳过,作为空值处理。 - -## 2. 创建载入任务 - -访问路径: - -> **工作区 → 数据连接 → 数据载入 → 载入数据** - -用户需依次完成以下步骤: - -1. **选择数据源**(连接器文件 / 本地上传) -2. **选择载入类型**(非结构化 / 结构化) -3. 配置载入方式: - - **一次性载入** - - **周期性载入**(仅非结构化) -4. 选择载入位置(卷 / 表) -5. 创建载入任务并查看执行结果 - -## 3. 非结构化数据载入 - -非结构化载入用于处理各种文档、文本、图片等文件。载入后系统会解析文件内容,并存储在指定的数据卷中,用于搜索、问答和 AI 分析。 - -用户只需: - -- 选择文件 -- 选择载入位置(卷) -- 创建任务 - -载入完成后即可在对应卷中看到解析内容。 - -> 适用于知识库、多文档问答等场景。 - ---- - -## 4. 结构化数据载入(表数据导入) - -结构化文件载入用于将 **CSV/XLSX/XLS** 文件中的表格数据导入数据库表(MOITable)。 -用户可以: - -- 导入到**已有表** -- 或**通过文件新建一张表**,再导入数据 + Excel 文件仅处理第一个 Sheet,合并单元格会自动拆分为独立行,Excel 中的图片内容跳过处理,作为空值导入。 -适用于: +## 创建载入任务 -- 财务报表导入 -- 运营数据导入 -- 销售明细批量导入 -- SQL 查询、AI NL2SQL 模型训练 +入口路径:工作区 → 数据连接 → 数据载入 → 载入数据 -结构化载入包含三部分:文件解析、目标表配置、字段映射。 +操作流程: ---- +1. 选择数据源(连接器文件 / 本地上传) +2. 选择载入类型(非结构化 / 结构化) +3. 配置载入方式:一次性载入或周期性载入(非结构化数据) +4. 选择目标位置(数据卷或数据库表) +5. 创建任务并查看执行状态 -## 4.1 文件解析配置 +## 非结构化数据载入 -上传文件后,系统会自动识别格式并展示文件解析预览。 +适用于文档、文本、图片等非结构化文件。用户只需:选择要载入的文件,指定目标数据卷既可创建载入任务。 -### CSV 文件可配置项 +## 结构化数据载入(表数据导入) -- 分隔符:`, ; \t | 空格` -- 定界符:`" ' ~ 无` -- 支持转义符(如 `Tom\,Jerry`) +结构化载入用于将 CSV/XLSX/XLS 文件中的表格数据导入数据库表,支持将数据追加到已有表,或在创建新表后导入。 -### 列名设置 +对于结构化文件,可配置分隔符、定界符和转义符(仅 CSV 适用)。文件列名可选择是否启用(默认开启),并可指定列名所在行(最多 20 行);数据起始行默认为列名行的下一行。 -- 是否启用列名(默认开启) -- 列名所在行(1~20) -- 从第 X 行开始导入(默认 = 列名行 + 1) +载入流程中,系统会预览从导入数据起始行开始的前 5 条数据样例,当导入的起始行超过 1000 时,则无法展示。 -### 数据抽样展示 +### 导入到已有表的数据处理逻辑 -- 展示前 **5 行**解析结果 -- 超过 1000 行提示**“Out of sample”** +主键冲突时可选择: -## 4.2 导入到已有表 +- 导入失败(默认):遇到主键冲突时任务终止 +- 跳过冲突行:仅导入不冲突的数据 +- 替换冲突行:用新数据覆盖已有主键行 -如果选择导入到系统已有的表: +字段映射要求: -### 主键冲突处理方式 +- 系统展示目标表的字段名、类型、主键信息 +- 每个目标字段可映射:文件列 / NULL / 默认值 +- 所有字段完成映射后方可创建任务 -- **导入失败**(默认) -- **跳过冲突行** -- **替换冲突行** +### 创建新表并导入 -### 字段映射 +建表时可配置: -用户需将文件列映射到表字段: - -- 系统展示字段名、类型、是否主键、默认值 -- 每列可映射到“文件列 / NULL / 默认值” -- 所有字段映射完成后才能创建任务 - -## 4.3 新建表并导入 - -如果用户没有表,可以直接通过文件新建表: - -### 新建表信息 - -- 表名(必填) -- 表描述(可选) - -### 字段设置 - -对勾选的文件列可设置: - -- 字段名(合法性校验) -- 数据类型(提供分类与子类) -- 精度规则(如 decimal(M, D)) -- 主键设置(支持复合主键) -- 默认值(按类型校验) +- 表名 +- 表描述 +- 字段名 +- 数据类型 +- 精度规则 +- 主键设置 +- 默认值 - 字段描述 -建表成功后系统会开始数据导入。 - ---- - -## 5. 载入任务管理 - -在“数据载入列表”中可查看所有载入任务,字段包括: - -- ID -- 载入类型(非结构化 / 结构化) -- 数据来源(连接器或本地) -- 载入模式(一次性 / 周期性) -- 目标位置 / 目标表 -- 状态(运行中 / 暂停 / 失败 / 完成) -- 创建时间、结束时间 -- 操作按钮(暂停 / 继续 / 删除) - -### 暂停与继续(结构化任务) - -- 暂停时,当前导入事务会被取消 - → **不会出现部分导入的数据** -- 继续运行时会**从头重新导入** - ---- - -# 6. 特殊处理规则 - -- Excel 合并单元格自动拆分为行 -- Excel 中的图片视为空值 -- 文件中的空行自动跳过 -- 暂停结构化载入任务将回滚当前操作,不会部分导入 \ No newline at end of file +创建表成功后系统会自动启动导入任务。 diff --git a/docs/MatrixOne-Intelligence/Workspace-Mgmt/data_mgt/data_explore.md b/docs/MatrixOne-Intelligence/Workspace-Mgmt/data_mgt/data_explore.md index a24a8de1..973160dd 100644 --- a/docs/MatrixOne-Intelligence/Workspace-Mgmt/data_mgt/data_explore.md +++ b/docs/MatrixOne-Intelligence/Workspace-Mgmt/data_mgt/data_explore.md @@ -1,36 +1,75 @@ # 数据探索 -数据探索是 MOI 平台提供的跨多模态文件的智能检索与问答功能,专为多文件、多类型内容场景设计。该功能支持快速定位信息、查看原文件内容、生成答案总结,并提供多轮对话式探索体验。 +数据探索是 MOI 平台提供的跨多模态文件智能检索与问答能力。该功能支持同时从多个文件(包括文档文件和表对象)中检索信息,并生成智能总结。数据探索旨在帮助用户在海量、多类型文件中高效定位信息、查阅内容、获取回答,甚至进行复杂数据分析。 + +## 智能检索与对话 + +进入工作区后,依次点击**数据管理** > **数据探索**,进入检索界面。点击右上角的**选择文件/表**来添加检索对象。一次检索可跨多个文件、多个模态,并支持多轮对话持续参考上下文。 + +!!! note + 仅已完成嵌入的文件参与检索,禁用的分段不会进入召回范围。 + +![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/explore_1.jpg) ![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/data_search_1.png) -## 功能特性 +若文件选择中包含表对象,输入问题会触发结构化查询(NL2SQL)。 + +## NL2SQL 能力增强组件(可配置) + +为了让模型准确理解用户的自然语言问题,并将其转换为正确的 SQL,需要为模型补充足够的 "业务知识上下文"。以下是相关的配置功能模块。 + +点击数据探索页面右上角的**设置**按钮,进入配置界面。 + +![](https://community-shared-data-1308875761.cos.ap-beijing.myqcloud.com/artwork/mocdocs/images/explore_2.png) + +### 名词解释 + +用于定义业务术语及指标口径。为了帮助 MOI 更好地理解您在数据分析中的目标表达,您可以将常见表述中涉及到的专有名词、指标计算口径等信息在此录入。 + +**示例:** + +- GMV:已支付订单 price × quantity 之和 +- 有效订单:订单状态为(已支付、已发货、已完成) + +### 同义词 + +用于绑定多个叫法到同一字段。为了帮助 MOI 更好地理解您在数据分析中的目标表达,您可以配置常见表述中涉及到的各名词及其同义词。每个标准词可绑定到具体表字段。 + +**示例:** + +- 销售额 ≈ 营收 / 流水 / GMV +- 用户 ≈ 客户 / 会员 + +### 业务逻辑 + +用于描述复杂规则,可设置为系统智能判断和全局生效。您可以将业务口径的逻辑定义、专有名词、指标计算口径等信息在此录入,帮助 MOI 更好地理解自然语言问题中的业务知识。 + +**示例:** + +- "近期" = 最近 7 天 +- 全局排除 test_user_001、test_user_002 -### 文件选择 +### 优化案例管理 -- 支持从数据卷中选择任意数量的文件参与检索 -- 仅已完成嵌入的文件可参与检索过程 -- 禁用的分段不会被纳入搜索范围 -- 系统自动记录用户的历史选择,重复进入时默认保持上次的文件选择状态 +优化案例管理提供通配符管理与案例库管理两项能力。通配符需与案例库配合使用,请先添加通配符,再添加案例库。 -### 智能检索与对话 +通配符将可变参数抽象化,提高案例复用率。 -- 支持自然语言问题和关键词两种检索方式 -- 基于所有已选文件内容进行跨模态检索 +**示例:** -### 检索结果展示 +- {城市} = 北京、上海、广州、深圳 +- {产品线} = 手机、电脑、穿戴设备 -检索结果包含三个核心部分: +案例库添加问法与标准 SQL 的映射,用于直接指导模型生成 SQL。 -- **用户问题** - - 回显当前提问内容,确保问题清晰可见 +**示例:** -- **AI 智能总结** - - 基于召回的分段内容生成语义化回答 - - 提供准确、简洁的信息总结 +- **问法:**查询 {城市} 的 {产品线} 销售额 +- **SQL:** -- **命中分段详情** - - 文件来源信息 - - 文本、图片、表格、音视频等多模态内容 - - 字符数与召回次数统计 - - 支持快速定位到原文件中的对应内容位置 + ```sql + SELECT SUM(total_amount) + FROM sales_orders + WHERE city = '${城市}' AND product_line = '${产品线}'; + ``` \ No newline at end of file diff --git a/docs/assets/images/explore_1.jpg b/docs/assets/images/explore_1.jpg new file mode 100644 index 00000000..b96ffb5e Binary files /dev/null and b/docs/assets/images/explore_1.jpg differ diff --git a/docs/assets/images/explore_2.png b/docs/assets/images/explore_2.png new file mode 100644 index 00000000..685ff24d Binary files /dev/null and b/docs/assets/images/explore_2.png differ