Skip to content

查询文档详情

POST api.duxiele.com/v1/dataset/document/文档id

上传文档完成后,服务器会处理文档进行解析,当任务完成后,开发者可以通过GET 文档id 到 v1/dataset/document/文档id接口上查询文档处理结果。

请求参数

请求头说明
authorization认证数据(Bearer xxxxxxxx)

当任务处理完成后,可以通过返回结果中url字段下载原始文件,同时该文件会可以解析成多个segments,文件被解析后分段数据,包含分段ID、内容、类型所处于pdf文件中的位置、坐标信息等

返回结构

返回体说明
id文档ID
name文档名字
mime_type文档版本/类型
status激活可检索状态用于RAG对话中
extension文档扩展
url文档的下载地址
word_count文档解析后的文字总数量
created_at创建时间
segment_number解析分段数据
segmentsSegments结构体(清洗分段数据)
paragraph_typesParagraphTypes结构体(分段类型说)
Segments清洗分段数据说明
id清洗过后分段的id
content每个分段的实际内容
source_infoSourceInfo结构体(在原来pdf中的信息)
position分段顺序号
word_count该分段内容文字长度
enabled当前分段在RAG中使用启动检索
SourceInfo原来pdf中的信息说明
number在pdf文件的页码数
rect在pdf中坐标位置
paragraph_type识别的类型,参考ParagraphTypes结构
ParagraphTypes分段类型说明
name英文说明(title/text/list/table/note等)
desc中文说明(标题/段落/列表/表格/备注等)

示例

请求体:
curl 'https://api.duxiele.com/v1/dataset/document/fd24d4dc-31a3-469b-b147-8052789c2d61' \
--header 'authorization: Bearer dT7vae8FWqIflQ4PfSXWFZwWHIbd4vDMGCLu' \
返回体:
{
    "id": "fd24d4dc-31a3-469b-b147-8052789c2d61", 
    "name": "xxx.pdf", 
    "mime_type": "application/pdf",
    "status": "active",
    "extension": "pdf", 
    "url": "https://api.duxiele.com/files/download/bdca045a",  
    "word_count": 2018, 
    "created_at": 1703568951,
    "segment_number": 1, 
    "segments": [
        {
            "id": "2738a0df-d683-469f-b868-fe9836ea2e4d",
            "content": "2014.9-2017.6 东南大学 工学硕士 计算机科学与技术 (top15%)",
            "source_info": {
                "pdf": [
                    {
                        "page": {
                            "number": 0,
                            "rect": {
                                "width": 595,
                                "height": 842
                            }
                        },
                        "paragraph_type": "text"
                    }
                ]
            },
            "position": 6,  
            "word_count": 85,
            "enabled": true
        }     
    ],
    "paragraph_types": [
        {
            "name": "title",
            "desc": "标题"
        },
        {
            "name": "text",
            "desc": "段落"
        },
        {
            "name": "list",
            "desc": "列表"
        },
        {
            "name": "table",
            "desc": "表格"
        },
        {
            "name": "note",
            "desc": "备注"
        }
    ]
}