流程步骤
API身份鉴权
首先我们有必要了解一下认证机制。鉴权(Authorization),也叫做认证,即验证用户是否拥有访问系统的权利。在访问读写乐服务的时候,用户资源是相互独立的,后端会对访问者的HTTPS请求进行认证,判断访问者是否有访问权限。开发者可以按照功能使用说明x-x获取到所有API-Key
,HTTP请求都应在 Authorization
HTTP Header 中包含您的 API-Key
,如下所示:
请求头 | 说明 |
---|---|
authorization | 认证数据(Bearer xxxxxxxx) |
使用步骤
开发者准备好要清洗的素材(如PDF等),按照如下流程即可获得清洗过后的分段数据: (域名:api.duxiele.com
)
首先使用
域名/v1/file/upload
上传您的文件。此时服务器会生成任务处理您的文件,由于解析需要时间,服务器会提前返回您待处理的 文档ID相关信息(如文档ID、名字、大小、时间等等),返回如下案例:{ "id": "fd34d4dc-31a3-469b-b147-7052789c2d61", //文档ID "name": "xxx.pdf", //文档名字 "size": 254886, //文档大小 "extension": "pdf", //文件格式 "mime_type": "application/pdf", "created_by": "801a2b50-118f-4c0b-822d-d90c5bf222f4", //创建者的账号ID,密钥的账户用户者 "created_at": 1703568951 //创建时间 }
然后过1分钟后使用
域名/dataset/document/{文档ID}
通过文档ID查询数据执行结果,如果任务处理完成则返回文档清洗后的结果数据。一个文件被解析完后,可以通过返回结果中url
字段下载原始文件,同时该文件会可以解析成多个segments
,文件被解析后分段数据,包含分段ID、内容、类型所处于pdf文件中的位置、坐标信息等。{ "id": "fd24d4dc-31a3-469b-b147-8052789c2d61", //文档ID "name": "xxx.pdf", //文档名字 "mime_type": "application/pdf", "status": "active", //在RAG对话中处于可检索状态 "extension": "pdf", //文件类型 "url": "https://api.duxiele.com/files/download/bdca045a", //文档的下载地址 "word_count": 2018, //解析过后的文字数量 "tokens": 0, "created_at": 1703568951, //创建时间 "segment_number": 1, //被解析后形成了多少个分段。 "segments": [ { "id": "2738a0df-d683-469f-b868-fe9836ea2e4d", //清洗过后分段id "content": "2014.9-2017.6 东南大学 工学硕士 计算机科学与技术 (top15%)", //清洗过后分段内容 "source_info": { "pdf": [ { "page": { "number": 0, //pdf中的页码 "rect": { "width": 595, "height": 842 } }, "paragraph_type": "text" } ] }, "position": 6, //该分段的序号 "word_count": 85, //分段字数 "enabled": true } ], "paragraph_types": [ { "name": "title", "desc": "标题" }, { "name": "text", "desc": "段落" }, { "name": "list", "desc": "列表" }, { "name": "table", "desc": "表格" }, { "name": "note", "desc": "备注" } ] }
其它能力简介
文档列表查询:开发者可以使用
域名/dataset/documents?page=1&limit=50
对上传过的文件进行查询管理,page为查询页码数,limit为每页多少条,返回分页列表返回如下案例 (如要更新、删除可以到网页端操作),通过列表中找到相应的文档ID后,可以对文档进行进一步查询。文档状态查询:开发者可以使用
域名/dataset/document/{文档ID}/status
输入文档ID查询该文档的处理任务状态,如果没有完成,则无法查询文档的清洗后结果数据。