Tag: 信息提取

高级PDFparsing使用Python(提取文本没有表等):什么是最好的图书馆?

我正在寻找一个PDF库,这将允许我从PDF文档中提取文本。 我已经看了PyPDF,这可以很好地从PDF文档中提取文本。 问题在于,如果文档中有表格,则表格中的文本将与文档的其余部分一起提取。 这可能是有问题的,因为它会产生无用的文本部分,看起来乱码(例如,大量的数字拼凑在一起)。 我正在寻找一些更先进的东西。 我想从PDF文档中提取文本, 不包括任何表格和特殊的格式。 有没有这样的图书馆? 还是我不得不在输出文本上做一些后处理来摆脱这些部分?

苹果如何find电子邮件中的date,时间和地址?

在iOS电子邮件客户端中,当电子邮件包含date,时间或地点时,文本将成为超链接,只需点击链接即可创build约会或查看地图。 它不仅适用于英文的电子邮件,还适用于其他语言的电子邮件。 我喜欢这个function,并想了解他们是如何做到的。 这样做的天真的方法是有许多正则expression式,并运行它们。 但是,我不能很好地扩展,只能用于特定的语言或date格式等。我认为,苹果必须使用一些机器学习的概念来提取实体(8:00 PM,8 PM,8:00, 08:00,20:00,20:00,20:00,2000等)。 任何想法如何苹果能够在其电子邮件客户端如此迅速地提取实体? 你会用什么机器学习algorithm来完成这样的任务?