用c#.netparsingHTML
我试图parsing下面的HTML文件,我想获取键的值。 这是在Silverlight for Windows手机上完成的。
<HTML> <link ref="shortcut icon" href="favicon.ico"> <BODY> <script Language="JavaScript"> location.href="login.html?key=UEFu1EIsgGTgAV7guTRhsgrTQU28TImSZkYhPMLj7BChpBkvlCO11aJU2Alj4jc5" </script> <CENTER><a href="login.html?key=UEFu1EIsgGTgAV7guTRhsgrTQU28TImSZkYhPMLj7BChpBkvlCO11aJU2Alj4jc5">Welcome</a></CENTER></BODY></HTML>
任何想法是从哪里去的?
谢谢
给HTMLAgilityPack一看。 它是一个相当不错的HTMLparsing器
http://htmlagilitypack.codeplex.com/
======
这里有一些代码让你开始(需要错误检查)
HtmlDocument document = new HtmlDocument(); string htmlString = "<html>blabla</html>"; document.LoadHtml(htmlString); HtmlNodeCollection collection = document.DocumentNode.SelectNodes("//a"); foreach (HtmlNode link in collection) { string target = link.Attributes["href"].Value; }
你可以使用正则expression式(正则expression式类 )。 expression式可以是这样的: login.html\?key=[^"]*