Skip to content

流程步骤

API身份鉴权

首先我们有必要了解一下认证机制。鉴权(Authorization),也叫做认证,即验证用户是否拥有访问系统的权利。在访问读写乐服务的时候,用户资源是相互独立的,后端会对访问者的HTTPS请求进行认证,判断访问者是否有访问权限。开发者可以按照功能使用说明x-x获取到所有API-Key,HTTP请求都应在 Authorization HTTP Header 中包含您的 API-Key,如下所示:

请求头说明
authorization认证数据(Bearer xxxxxxxx)

使用步骤

开发者准备好要清洗的素材(如PDF等),按照如下流程即可获得清洗过后的分段数据: (域名:api.duxiele.com)

  1. 首先使用 域名/v1/file/upload 上传您的文件。此时服务器会生成任务处理您的文件,由于解析需要时间,服务器会提前返回您待处理的 文档ID相关信息(如文档ID、名字、大小、时间等等),返回如下案例:

    {
        "id": "fd34d4dc-31a3-469b-b147-7052789c2d61", //文档ID
        "name": "xxx.pdf",  //文档名字
        "size": 254886,  //文档大小
        "extension": "pdf",  //文件格式
        "mime_type": "application/pdf", 
        "created_by": "801a2b50-118f-4c0b-822d-d90c5bf222f4", //创建者的账号ID,密钥的账户用户者
        "created_at": 1703568951  //创建时间
    }
  2. 然后过1分钟后使用 域名/dataset/document/{文档ID} 通过文档ID查询数据执行结果,如果任务处理完成则返回文档清洗后的结果数据。一个文件被解析完后,可以通过返回结果中url字段下载原始文件,同时该文件会可以解析成多个segments,文件被解析后分段数据,包含分段ID、内容、类型所处于pdf文件中的位置、坐标信息等。

    {
        "id": "fd24d4dc-31a3-469b-b147-8052789c2d61", //文档ID
        "name": "xxx.pdf", //文档名字
        "mime_type": "application/pdf",
        "status": "active", //在RAG对话中处于可检索状态
        "extension": "pdf", //文件类型
        "url": "https://api.duxiele.com/files/download/bdca045a",   //文档的下载地址
        "word_count": 2018, //解析过后的文字数量
        "tokens": 0,
        "created_at": 1703568951, //创建时间
        "segment_number": 1,  //被解析后形成了多少个分段。
        "segments": [
            {
                "id": "2738a0df-d683-469f-b868-fe9836ea2e4d",  //清洗过后分段id
                "content": "2014.9-2017.6 东南大学 工学硕士 计算机科学与技术 (top15%)", //清洗过后分段内容
                "source_info": {
                    "pdf": [
                        {
                            "page": {
                                "number": 0, //pdf中的页码
                                "rect": {
                                    "width": 595,
                                    "height": 842
                                }
                            },
                            "paragraph_type": "text"
                        }
                    ]
                },
                "position": 6,  //该分段的序号
                "word_count": 85, //分段字数
                "enabled": true
            }     
        ],
        "paragraph_types": [
            {
                "name": "title",
                "desc": "标题"
            },
            {
                "name": "text",
                "desc": "段落"
            },
            {
                "name": "list",
                "desc": "列表"
            },
            {
                "name": "table",
                "desc": "表格"
            },
            {
                "name": "note",
                "desc": "备注"
            }
        ]
    }

其它能力简介

  • 文档列表查询:开发者可以使用域名/dataset/documents?page=1&limit=50对上传过的文件进行查询管理,page为查询页码数,limit为每页多少条,返回分页列表返回如下案例 (如要更新、删除可以到网页端操作),通过列表中找到相应的文档ID后,可以对文档进行进一步查询。

  • 文档状态查询:开发者可以使用域名/dataset/document/{文档ID}/status输入文档ID查询该文档的处理任务状态,如果没有完成,则无法查询文档的清洗后结果数据。