Tag: 提取

从研究论文的PDF中提取信息

我需要一种从PDF文档中提取书目元数据的机制,以保存用户手动input或剪切粘贴的机制。 至less,标题和摘要。 作者名单和他们的从属关系是好的。 提取参考将是惊人的。 理想情况下,这将是一个开源解决scheme。 问题在于并不是所有的PDF都对文本进行编码,而且许多文件不能保留文本的逻辑顺序,所以只要做pdf2text就可以得到第1列的第1行,第2列的第1行,第1列的第2行等等。 我知道有很多图书馆。 它是在我需要解决的文件上识别摘要,标题作者等等。 这是不可能的每一次,但80%将节省大量的人力。

从Zip文件中的文件读取内容

我正在尝试创build一个简单的java程序,它从zip文件内的文件中读取和提取内容。 Zip文件包含3个文件(txt,pdf,docx)。 我需要阅读所有这些文件的内容,我正在使用Apache Tika来达到这个目的。 有人可以帮助我在这里实现function。 我迄今尝试过,但没有成功 代码片段 public class SampleZipExtract { public static void main(String[] args) { List<String> tempString = new ArrayList<String>(); StringBuffer sbf = new StringBuffer(); File file = new File("C:\\Users\\xxx\\Desktop\\abc.zip"); InputStream input; try { input = new FileInputStream(file); ZipInputStream zip = new ZipInputStream(input); ZipEntry entry = zip.getNextEntry(); BodyContentHandler textHandler = new BodyContentHandler(); Metadata […]

如何从.doc&.docx文件中提取纯文本? (unix)

任何人都知道他们可以推荐的任何东西,只是从.doc或.docx中提取纯文本? 我发现这个最好的方式来从Word文档中提取文本,而不使用COM /自动化? – 想知道有没有其他build议? 速度并不重要,我们甚至可以使用一个有一些API的网站来上传和提取文件,但我一直无法find一个。 谢谢

从EXE中提取MSI

我想提取EXE安装程序的MSI以通过networking发布。 例如,使用通用提取器,但不适用于Java运行时环境。

如何从sql server 2008中只提取一年的date?

在sql server 2008中,如何从date只提取年份。 在数据库我有一个date列,从那我需要提取一年。 有没有什么function?

Python – 从文件path中提取文件夹path

我已经看到了这个解决scheme,但不是专门针对Python。 我想只得到从完整path到文件的文件夹path。 例如T:\Data\DBDesign\DBDesign_93_v141b.mdb ,我只想得到T:\Data\DBDesign (不包括\DBDesign_93_v141b.mdb )。 我曾尝试过这样的事情: existGDBPath = r'T:\Data\DBDesign\DBDesign_93_v141b.mdb' wkspFldr = str(existGDBPath.split('\\')[0:-1]) print wkspFldr 但它给了我这样的结果: ['T:', 'Data', 'DBDesign'] 这不是我所要求的结果(是T:\Data\DBDesign )。 任何想法如何我可以得到我的文件的path? 谢谢。

在Bash中访问string的最后x个字符

我发现用${string:0:3}可以访问string的前3个字符。 是否有一个相当简单的方法来访问最后三个字符?

提取并删除目录中的所有.gz – Linux

我有一个目录。 它有大约500K的.gz文件。 我怎样才能提取该目录中的所有.gz并删除.gz文件?

我如何从Python字典中提取所有的值?

我有一个字典d = {1:-0.3246, 2:-0.9185, 3:-3985, …} 。 如何将d所有值提取到列表l ?

可读性使用什么algorithm从URL中提取文本?

一段时间以来,我一直在努力寻找一种方法,通过消除与广告相关的文字以及所有其他杂乱的内容,从URL中智能地提取“相关”文本。经过几个月的研究,我放弃了作为一个问题无法准确确定。 (我尝试了不同的方式,但没有一个是可靠的) 一周前,我偶然发现了Readability–一个将任何URL转换为可读文本的插件。 这对我来说看起来相当准确。 我的猜测是,他们以某种方式有一个足够聪明的algorithm来提取相关的文本。 有谁知道他们是如何做到的? 或者我可以如何可靠地做到这一点?