如何高效利用长尾词进行网页数据抓取?
- 内容介绍
- 文章标签
- 相关推荐
本文共计202个文字,预计阅读时间需要1分钟。
首先了解对方网页的运行机制,可以使用httpwatch或httplook查看HTTP发送和接收的数据。这两个工具简单易懂。主要关注的内容是header和post的内容。
首先要了解对方网页的运行机制,这可以用www.test_by_jinjazz.com.cn/bbs/login.php " );
wb.Headers.Add(header);
System.Collections.Specialized.NameValueCollection data = new System.Collections.Specialized.NameValueCollection();
data.Add( " formhash " , " ebd2faac " );
data.Add( " referer " , " www.test_by_jinjazz.com.cn/bbs/search.php " );
data.Add( " loginfield " , " username " );
data.Add( " username " , " jinjazz " );
data.Add( " password " , " 999 " );
data.Add( " questionid " , " 0 " );
data.Add( " answer " , "" );
data.Add( " cookietime " , " 2592000 " );
data.Add( " loginmode " , "" );
data.Add( " styleid " , "" );
data.Add( " loginsubmit " , " 提交 " );
byte [] b = wb.UploadValues( " www.test_by_jinjazz.com.cn/bbs/login.php " , " Post ", data);
string strData = System.Text.Encoding.Default.GetString(b);
Console.WriteLine(strData);
}
以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。
本文共计202个文字,预计阅读时间需要1分钟。
首先了解对方网页的运行机制,可以使用httpwatch或httplook查看HTTP发送和接收的数据。这两个工具简单易懂。主要关注的内容是header和post的内容。
首先要了解对方网页的运行机制,这可以用www.test_by_jinjazz.com.cn/bbs/login.php " );
wb.Headers.Add(header);
System.Collections.Specialized.NameValueCollection data = new System.Collections.Specialized.NameValueCollection();
data.Add( " formhash " , " ebd2faac " );
data.Add( " referer " , " www.test_by_jinjazz.com.cn/bbs/search.php " );
data.Add( " loginfield " , " username " );
data.Add( " username " , " jinjazz " );
data.Add( " password " , " 999 " );
data.Add( " questionid " , " 0 " );
data.Add( " answer " , "" );
data.Add( " cookietime " , " 2592000 " );
data.Add( " loginmode " , "" );
data.Add( " styleid " , "" );
data.Add( " loginsubmit " , " 提交 " );
byte [] b = wb.UploadValues( " www.test_by_jinjazz.com.cn/bbs/login.php " , " Post ", data);
string strData = System.Text.Encoding.Default.GetString(b);
Console.WriteLine(strData);
}
以上代码除了三个url之外其他数据都是真实的,其中header和data中的参数和值都是用httpwatch来监测后得到。

