查询文档详情
POST api.duxiele.com/v1/dataset/document/文档id
上传文档完成后,服务器会处理文档进行解析,当任务完成后,开发者可以通过GET 文档id 到 v1/dataset/document/文档id
接口上查询文档处理结果。
请求参数
请求头 | 说明 |
---|---|
authorization | 认证数据(Bearer xxxxxxxx) |
当任务处理完成后,可以通过返回结果中url
字段下载原始文件,同时该文件会可以解析成多个segments
,文件被解析后分段数据,包含分段ID、内容、类型所处于pdf文件中的位置、坐标信息等
返回结构
返回体 | 说明 |
---|---|
id | 文档ID |
name | 文档名字 |
mime_type | 文档版本/类型 |
status | 激活可检索状态用于RAG对话中 |
extension | 文档扩展 |
url | 文档的下载地址 |
word_count | 文档解析后的文字总数量 |
created_at | 创建时间 |
segment_number | 解析分段数据 |
segments | Segments结构体(清洗分段数据) |
paragraph_types | ParagraphTypes结构体(分段类型说) |
Segments清洗分段数据 | 说明 |
---|---|
id | 清洗过后分段的id |
content | 每个分段的实际内容 |
source_info | SourceInfo结构体(在原来pdf中的信息) |
position | 分段顺序号 |
word_count | 该分段内容文字长度 |
enabled | 当前分段在RAG中使用启动检索 |
SourceInfo原来pdf中的信息 | 说明 |
---|---|
number | 在pdf文件的页码数 |
rect | 在pdf中坐标位置 |
paragraph_type | 识别的类型,参考ParagraphTypes结构 |
ParagraphTypes分段类型 | 说明 |
---|---|
name | 英文说明(title/text/list/table/note等) |
desc | 中文说明(标题/段落/列表/表格/备注等) |
示例
请求体:
curl 'https://api.duxiele.com/v1/dataset/document/fd24d4dc-31a3-469b-b147-8052789c2d61' \
--header 'authorization: Bearer dT7vae8FWqIflQ4PfSXWFZwWHIbd4vDMGCLu' \
返回体:
{
"id": "fd24d4dc-31a3-469b-b147-8052789c2d61",
"name": "xxx.pdf",
"mime_type": "application/pdf",
"status": "active",
"extension": "pdf",
"url": "https://api.duxiele.com/files/download/bdca045a",
"word_count": 2018,
"created_at": 1703568951,
"segment_number": 1,
"segments": [
{
"id": "2738a0df-d683-469f-b868-fe9836ea2e4d",
"content": "2014.9-2017.6 东南大学 工学硕士 计算机科学与技术 (top15%)",
"source_info": {
"pdf": [
{
"page": {
"number": 0,
"rect": {
"width": 595,
"height": 842
}
},
"paragraph_type": "text"
}
]
},
"position": 6,
"word_count": 85,
"enabled": true
}
],
"paragraph_types": [
{
"name": "title",
"desc": "标题"
},
{
"name": "text",
"desc": "段落"
},
{
"name": "list",
"desc": "列表"
},
{
"name": "table",
"desc": "表格"
},
{
"name": "note",
"desc": "备注"
}
]
}