如何用JavaparsingTalend中的数据(来自以前生成的.txt文件)?

我在Talend有一个进程,它获取页面的search结果,保存html并写入文件,如下所示:

在这里输入图像说明

最初,我有两个步骤从Java中的HTML文件中parsing出date。 这里是代码:它的工作原理和写入到MySQL数据库。 这里是基本上是这样的代码。 (我是一个初学者,抱歉缺乏优雅)

package org.jsoup.examples; import java.io.*; import org.jsoup.*; import org.jsoup.nodes.*; import org.jsoup.select.Elements; import java.io.IOException; public class parse2 { static parse2 parseIt2 = new parse2(); String companyName = "Platzhalter"; String jobTitle = "Platzhalter"; String location = "Platzhalter"; String timeAdded = "Platzhalter"; public static void main(String[] args) throws IOException { parseIt2.getData(); } // public void getData() throws IOException { Document document = Jsoup.parse(new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt"), "utf-8"); Elements elements = document.select(".joblisting"); for (Element element : elements) { // Parse Data into Elements Elements jobTitleElement = element.select(".job_title span"); Elements companyNameElement = element.select(".company_name span[itemprop=name]"); Elements locationElement = element.select(".locality span[itemprop=addressLocality]"); Elements dateElement = element.select(".job_date_added [datetime]"); // Strip Data from unnecessary tags String companyName = companyNameElement.text(); String jobTitle = jobTitleElement.text(); String location = locationElement.text(); String timeAdded = dateElement.attr("datetime"); System.out.println("Firma:\t"+ companyName + "\t" + jobTitle + "\t in:\t" + location + " \t Erstellt am \t" + timeAdded ); } } } 

现在我想在Talend中进行端到端的stream程,而且我确信这个工作。 我试过这个(对我来说看起来很黑): 在这里输入图像说明

基本上我把所有import的“高级设置”和代码在“基本设置”部分。 这importLibrary被认为是加载jsoupparsing库,以及MySQL连接(我可能连接talend工具虽然)。

显然这是行不通的。 我试图从类和东西中剥离基本代码,这是更糟的。 你能帮我怎么得到用Javaparsing的生成的.txt文件吗?

编辑:这是链接到talend作业http://www.share-online.biz/dl/8M5MD99NR1

编辑2:我将代码更改为我在JavaFlex中尝试的代码。 但是它不起作用(在代码的开始部分中的导入部分,其余部分在“body / main”中而没有在“end”中。

这是一个与Talend相关的问题,在你的代码中,使用完整的方法名称,包括它们的包。 例如,对于文档parsing,您可以使用:

 Document document = org.jsoup.Jsoup.parse(new File("C:/Talend/workspace/WEBCRAWLER/output/keywords_SOA.txt"), "utf-8");