任何人都知道他们可以推荐的任何东西,只是从.doc或.docx中提取纯文本? 我发现这个最好的方式来从Word文档中提取文本,而不使用COM /自动化? – 想知道有没有其他build议? 速度并不重要,我们甚至可以使用一个有一些API的网站来上传和提取文件,但我一直无法find一个。 谢谢
我已经自动构build了使用Pandoc将Markdown文件转换为DOCX文件。 我甚至使用了最终文档样式的参考文档。 我使用的命令是: pandoc -f markdown -t docx –data-dir=docs/rendering/ mydoc.md -o mydoc.docx reference.docx由Pandoc从docs/rendering拾取,而Pandoc mydoc.docx使用与参考文档相同的样式呈现mydoc.docx 。 但是, reference.docx包含的不仅仅是样式。 它包含公司徽标,序言等 如何自动将Markdown内容与reference.docx的样式和内容进行合并。 我的解决scheme需要在Linux上工作。
我想知道如何阅读文档或docx的内容。 我正在使用Linux VPS和PHP,但是如果使用其他语言的解决scheme更简单,请让我知道,只要它在Linux Web服务器下工作。
我想search一个文本string的Word 2007文件(.docx),例如,“一些特殊的短语”,可以/将在Word中searchfind。 有没有办法从Python看到文本? 我对格式没有兴趣 – 我只是想将文档分类为有或没有“某些特殊的词组”。
可能有一种情况,我们需要从Word文档中获取文本以供将来使用,以便在用户上传的文档中searchstring,例如在cv / resumes中进行search,并发生如何获取文本,打开和阅读的常见问题用户上传的Word文档,有一些有用的链接,但没有解决整个问题。我们需要在上传时获取文本和保存在数据库中的文本,我们可以轻松地在数据库中search。 提问并回答你自己的问题是可以的
我有一个新的应用程序,我将在哪里生成一个Word文档,其中包含表格,graphics,目录和文本的表格。 什么是一个很好的API使用这个? 你有多确定它支持graphics,ToC和表? 什么是使用它们的一些隐藏的陷阱? 一些澄清: 我不能输出PDF,他们想要一个Word文档。 他们使用MS Word 2003(或2007),而不是OpenOffice 应用程序正在* nix应用程序服务器上运行 如果我可以从一个模板文件开始,并用表格,图表等填充一些空格,那就太好了。 编辑:下面几个很好的答案,每个都有自己的缺点,就我目前的情况。 很难从中挑选出“最终答案”。 想想我会把它打开,并希望有更好的解决scheme来创build。 编辑:OpenOffice UNO项目似乎是最接近我所要求的。 虽然POI当然是比较主stream的,但是我想要的东西太不成熟了。