上海人工智能实验室开源智能数据提取工具

文章正文
发布时间:2024-09-10 10:50

在2024年WAIC科学前沿主论坛上,上海人工智能实验室(上海AI实验室)大模型数据基座OpenDataLab团队发布了一款名为MinerU的全新智能数据提取工具。这款工具旨在简化AI数据处理流程,帮助AI研究者从海量文档中提取高质量数据。

MinerU是一款全能、开源的文档与网页数据提取工具,能够将包含图片、表格、公式等在内的多模态PDF文档转化为清晰、易于分析的Markdown格式。它还能从包含广告等干扰信息的网页中快速解析、抽取正式内容,并支持epub、mobi、docx等多种格式批量转化为Markdown。

微信截图_20240903140350.png

MinerU由两个主要部分组成:Magic-PDF和Magic-Doc。Magic-PDF专注于PDF文档提取,将PDF转化为Markdown格式,能够快速识别PDF版面元素,自动删除非正文内容,保留原文档的结构和格式。Magic-Doc则负责网页与电子书提取,支持常见的文章、论坛、音乐、视频等类型网页信息提取,以及电子书格式的转换。

技术层面上,MinerU的PDF文档提取过程包括PDF文档分类预处理、模型解析、管线处理和PDF提取结果质检等环节。它利用了一系列模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,来实现高质量的文档数据提取。

MinerU的发布,不仅为AI研究者提供了一个强大的数据处理工具,也进一步推动了大模型研发与应用的全链条工具体系的升级。

魔搭社区体验链接:

https://modelscope.cn/studios/OpenDataLab/MinerU

代码开源链接:

https://github.com/opendatalab/MinerU/

MinerU开源模型(PDF-Extract-Kit):

https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit

备注:资讯来源AIbase基地

AiBase副业搞钱交流群

欢迎大家加入AiBase交流群, 扫码进入,畅谈AI赚钱心得,共享最新行业动态,发现潜在合作伙伴,迎接未来的赚钱机遇!。

AiBase副业搞钱交流群