智读通

功能特性
四大特性帮助你从 PDF 中解析出高质量数据
智能分段
智能从文本中分析识别出布局并分段,跨页/跨栏自动拼接。
公式识别
精心调优的公式识别模型,可以把公式转换成 LaTeX 代码。
结构化导出
从 PDF 导出成更易于 RAG 理解的结构化文本。
影印版支持
针对影印版材料自动使用 OCR 的手段进行识别,并对 OCR 结果进行二次错字纠正,进一步提升文字准确率。
开放API
开放清洗 API,可以低成本集成到更多 AI 原生应用中。
插件生态
提供 LangChain、LlamaIndex、Dify、LangChain-chatchat 等插件,无需二次开发,即可享受高质量数据带来的问答质量提升。
常见问题
支持清洗哪些格式的文档?
目前主要支持清洗 PDF 格式的文档,包括高清电子版和影印版。
清洗的格式怎么用来二次开发 RAG 应用?
你可以利用我们的 API 或者直接使用站点里的导出功能,将清洗出来的数据以 JSON 格式或者纯文本格式导出,并导入到你的 AI 原生应用开发环境中。例如可以将这些数据存入向量数据库中,或者以清洗后的纯文本格式导入 RAG 知识库中,即可进一步开发 RAG 应用。
支持清洗哪些语言?
目前支持中文和英文两种语言的 PDF 。
支持繁体字的清洗吗?
支持。