查询文档详情

POST api.duxiele.com/v1/dataset/document/文档id

上传文档完成后，服务器会处理文档进行解析，当任务完成后，开发者可以通过GET 文档id 到 v1/dataset/document/文档id接口上查询文档处理结果。

请求参数

请求头	说明
authorization	认证数据(Bearer xxxxxxxx)

当任务处理完成后，可以通过返回结果中url字段下载原始文件，同时该文件会可以解析成多个segments，文件被解析后分段数据，包含分段ID、内容、类型所处于pdf文件中的位置、坐标信息等

返回结构

返回体	说明
id	文档ID
name	文档名字
mime_type	文档版本/类型
status	激活可检索状态用于RAG对话中
extension	文档扩展
url	文档的下载地址
word_count	文档解析后的文字总数量
created_at	创建时间
segment_number	解析分段数据
segments	Segments结构体(清洗分段数据)
paragraph_types	ParagraphTypes结构体(分段类型说)

Segments清洗分段数据	说明
id	清洗过后分段的id
content	每个分段的实际内容
source_info	SourceInfo结构体(在原来pdf中的信息)
position	分段顺序号
word_count	该分段内容文字长度
enabled	当前分段在RAG中使用启动检索

SourceInfo原来pdf中的信息	说明
number	在pdf文件的页码数
rect	在pdf中坐标位置
paragraph_type	识别的类型，参考ParagraphTypes结构

ParagraphTypes分段类型	说明
name	英文说明(title/text/list/table/note等)
desc	中文说明(标题/段落/列表/表格/备注等)

示例

请求体：
curl 'https://api.duxiele.com/v1/dataset/document/fd24d4dc-31a3-469b-b147-8052789c2d61' \
--header 'authorization: Bearer dT7vae8FWqIflQ4PfSXWFZwWHIbd4vDMGCLu' \

返回体：
{
    "id": "fd24d4dc-31a3-469b-b147-8052789c2d61", 
    "name": "xxx.pdf", 
    "mime_type": "application/pdf",
    "status": "active",
    "extension": "pdf", 
    "url": "https://api.duxiele.com/files/download/bdca045a",  
    "word_count": 2018, 
    "created_at": 1703568951,
    "segment_number": 1, 
    "segments": [
        {
            "id": "2738a0df-d683-469f-b868-fe9836ea2e4d",
            "content": "2014.9-2017.6 东南大学 工学硕士 计算机科学与技术 （top15%)",
            "source_info": {
                "pdf": [
                    {
                        "page": {
                            "number": 0,
                            "rect": {
                                "width": 595,
                                "height": 842
                            }
                        },
                        "paragraph_type": "text"
                    }
                ]
            },
            "position": 6,  
            "word_count": 85,
            "enabled": true
        }     
    ],
    "paragraph_types": [
        {
            "name": "title",
            "desc": "标题"
        },
        {
            "name": "text",
            "desc": "段落"
        },
        {
            "name": "list",
            "desc": "列表"
        },
        {
            "name": "table",
            "desc": "表格"
        },
        {
            "name": "note",
            "desc": "备注"
        }
    ]
}

查询文档详情 ​

请求参数 ​

返回结构 ​

示例 ​

查询文档详情

请求参数

返回结构

示例