ASP.NET编程:数据收罗程序(网页小偷)点滴心得
J2EE比较成熟一点,一些比较出名的企业应用软件都是基于J2EE的。以后的发展就不好说了。不过java比较烦,学.net的话,微软把很多工具都封装好了,学起来可能容易一点。收罗|程序|数据|网页|心得所谓的数据收罗程序也就是网页小偷程序(人人别骂我哦),写完了来这里发点器材,但愿人人有何卓识配合研讨.1.鄙人载数据的入手下手,有些网站是要登录了才干看到响应的数据,这个就必要我们发送登任命户名和暗码了,但我是登录了,但他服务器也不是渣滓,在他那边重定向了,共发生了2个SESSION,这第2个SESSION我就不晓得怎样捕抓.因而我就投契^-^,用软件将SESSION捕抓上去了1个叫Ethereal的软件,用以下代码到场到HTTP哀求的头部
WebClientmyWebClient=newWebClient();
stringsessionkey=textBox78.Text;
stringrefererurl=textBox77.Text;
myWebClient.Headers.Clear();
myWebClient.Headers.Add("Cookie",sessionkey);
myWebClient.Headers.Add("Referer",refererurl);
myWebClient.Headers.Add("User-agent","Mozilla/5.0(X11;U;Linuxi686;en-US;rv:1.5)Gecko/20031107Debian/1.5-3");
如许就棍骗了服务器了,哈哈
2.第二部就是代码下载
byte[]myDataBuffer=myWebClient.DownloadData(remoteUri);
download=Encoding.Default.GetString(myDataBuffer);
3.第3部就是数据的婚配了,我是将流读取到数据里,然后用IndexOf失掉2个关头字段的地位,然后用Substring掏出来的,我晓得这很笨,但用正则表达式难啊(谁会的指导我下),婚配完了失掉的字符串我就用以下的函数往失落了HTML代码:
privatestringStripHTML(stringstrHtml)
{
string[]aryReg={
@"<script[^>]*?>.*?</script>",
@"<(/s*)?!?((w+:)?w+)(w+(s*=?s*(([""])([""tbnr]|[^7])*?7|w+)|.{0})|s)*?(/s*)?>",
@"([
])+",
@"&(quot|#34);",
@"&(amp|#38);",
@"&(lt|#60);",
@"&(gt|#62);",
@"&(nbsp|#160);",
@"&(iexcl|#161);",
@"&(cent|#162);",
@"&(pound|#163);",
@"&(copy|#169);",
@"&#(d+);",
@"-->",
@"<!--.*
"
};
string[]aryRep={
"",
"",
"",
""",
"&",
"<",
">",
"",
"xa1",//chr(161),
"xa2",//chr(162),
"xa3",//chr(163),
"xa9",//chr(169),
"",
"
",
""
};
stringnewReg=aryReg;
stringstrOutput=strHtml;
for(inti=0;i<aryReg.Length;i++)
{
Regexregex=newRegex(aryReg,RegexOptions.IgnoreCase);
strOutput=regex.Replace(strOutput,aryRep);
}
strOutput.Replace("<","");
strOutput.Replace(">","");
strOutput.Replace("
","");
returnstrOutput;
}
4.到了前面就是进库了,这个人人都懂了吧.可是我另有点成绩就是,在我写数据的时分,出了EXCEPTION,说我的字段太长了,不克不及写进到数据库,我用的是ACCESS,我实验下用SQL吧.
5.人人有甚么好的倡议给我留个言赛.配合前进嘛.
学习asp.net两个月有余了,除了对html、web控件比较熟悉(应该是说都能理解和接受)之外,竟不知道自己还会什么。看了两本书:《精通asp.net网络编程》(人民邮电出版社)、《asp.net实用案例教程》(清华大学出版社)。 ASP.Net和ASP的最大区别在于编程思维的转换,而不仅仅在于功能的增强。ASP使用VBS/JS这样的脚本语言混合html来编程,而那些脚本语言属于弱类型、面向结构的编程语言,而非面向对象。 主流网站开发语言之PHP:PHP的全名非常有趣,它是一个巢状的缩写名称——“PHP:HypertextPreprocessor”,打开缩写还是缩写。PHP是一种HTML内嵌式的语言(就像上面讲的ASP那样)。而PHP独特的语法混合了C,Java,Perl以及PHP式的新语法。它可以比CGI或者Perl更快速地执行动态网页。 弱类型造成潜在的出错可能:尽管弱数据类型的编程语言使用起来回方便一些,但相对于它所造成的出错几率是远远得不偿失的。 比如封装性、继承性、多态性等等,这就解决了刚才谈到的ASP的那些弱点。封装性使得代码逻辑清晰,易于管理,并且应用到ASP.Net上就可以使业务逻辑和Html页面分离,这样无论页面原型如何改变。 ASP.Net和ASP的最大区别在于编程思维的转换,而不仅仅在于功能的增强。ASP使用VBS/JS这样的脚本语言混合html来编程,而那些脚本语言属于弱类型、面向结构的编程语言,而非面向对象。 它可通过内置的组件实现更强大的功能,如使用A-DO可以轻松地访问数据库。 弱类型造成潜在的出错可能:尽管弱数据类型的编程语言使用起来回方便一些,但相对于它所造成的出错几率是远远得不偿失的。 通过这次激烈的讨论,我从大家身上学到了太多,开阔了眼界,不管是支持我的还是骂我的,都感谢你们。
页:
[1]