|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
不过你如果学.net的话,你就不要选os了,这课比较底层的。你可以旁听数据库加上软件构件和中间件。(webservices和面向服务的课也应该听一听)页面 远程猎取网页内容.经由必定的处置和天真使用,能够开辟成成系统网站内容收罗体系.一般也叫做"旧事小偷"一样平常来讲.做内容收罗分为以下几个大抵的步骤:
1.远程猎取页面的全体Html源文本.
2.经由过程过滤处置,剖析无效内容文本.(一般用正则表达式来截取无效数据)
3.将格局无效的数据,依据本人的数据库布局分题目,内容....一些其他属性保留到本人的当地数据库.
ok全部收罗历程云云复杂.道理也不难.上面我们看看完成的详细基本代码!
起首我们来写一个猎取远程Html源的办法.
publicstringGetHttpData(stringUrl)
{
stringsException=null;
stringsRslt=null;
WebResponseoWebRps=null;
WebRequestoWebRqst=WebRequest.Create(Url);
oWebRqst.Timeout=50000;
try
{
oWebRps=oWebRqst.GetResponse();
}
catch(WebExceptione)
{
sException=e.Message.ToString();
EYResponse.Write(sException);
}
catch(Exceptione)
{
sException=e.ToString();
EYResponse.Write(sException);
}
finally
{
if(oWebRps!=null)
{
StreamReaderoStreamRd=newStreamReader(oWebRps.GetResponseStream(),Encoding.GetEncoding("GB2312"));
sRslt=oStreamRd.ReadToEnd();
oStreamRd.Close();
oWebRps.Close();
}
}
returnsRslt;
}
以上代码为猎取远程Html源的一个办法.参数仅一个.就是你要猎取的方针页面的完全Url路径.前往一个string范例的Html源数据.
上面我们再来持续第二个步骤.剖析本人必要的无效数据!这里我假定某个页面来做剖析...
publicstring[]GetData(stringHtml)
{
String[]rS=newString[2];
strings=Html;
s=Regex.Replace(s,"s{3,}","");
s=s.Replace("","");
s=s.Replace("
","");
stringPat="<tdalign="center"class="24p"><B>(.*)</B></td></tr><tr>.*(<tablewidth="95%"border="0"cellspacing="0"cellpadding="10">.*</table>)<tablewidth="98%"border="0"cellspacing="0"cellpadding="0">(.*)<tdalign=centerclass=l6h>";
RegexRe=newRegex(Pat);
MatchMa=Re.Match(s);
if(Ma.Success)
{
rS[0]=Ma.Groups[1].ToString();
rS[1]=Ma.Groups[2].ToString();
pgStr=Ma.Groups[3].ToString();
}
returnrS;
}
这个办法也很复杂.次要功效实时截取猎取过去的Html源.获得本人必要的数据...
参数是一个string范例的.将我们猎取的html源经由过程参数传送过去.
在办法类经由过程一个正则的形式婚配找到题目和内容的地位并掏出来.存进一个string的数组给办法前往...今后的事我就未几说了..你只需把你掏出来的数据存到你数据库对应的字段就ok了!
实不相瞒,Java是我见过的执行效率最低的程序设计语言,前不久在CSDN论坛上有个评测,计算9999的阶乘,同样的循环算法,Java的耗时是.NET的5倍。 |
|