如何用.NET Core编写定时抓取网站文章并发送至邮箱的自动化脚本？

2026-04-01 11:061阅读0评论SEO资源

内容介绍
文章标签
相关推荐

本文共计912个文字，预计阅读时间需要4分钟。

前言：大家好，我是晓晨。许久没有更新博客了，今天给大家带来一篇干货型文章。只需每个5分钟，抽取博客园首页文章信息，并在第二天上午9点发送到您的邮箱的小工具。

比如我在201...

前言

大家好，我是晓晨。许久没有更新博客了，今天给大家带来一篇干货型文章，一个每隔5分钟抓取博客园首页文章信息并在第二天的上午9点发送到你的邮箱的小工具。比如我在2018年2月14日，9点来到公司我就会收到一封邮件，是2018年2月13日的博客园首页的文章信息。写这个小工具的初衷是，一直有看博客的习惯，但是最近由于各种原因吧，可能几天都不会看一下博客，要是中途错过了什么好文可是十分心疼的哈哈。所以做了个工具，每天归档发到邮箱，妈妈再也不会担心我错过好的文章了。为什么只抓取首页？因为博客园首页文章的质量相对来说高一些。

准备

作为一个持续运行的工具，没有日志记录怎么行，我准备使用的是NLog来记录日志，它有个日志归档功能非常不错。在github.com/NLog/NLog Polly 当github.com/App-vNext/Polly HtmlAgilityPack 网页解析 github.com/zzzprojects/html-agility-pack MailKit 发送邮件 github.com/jstedfast/MailKit

有不了解的组件，可以通过访问github获取资料。

参考文章

www.jb51.net/article/112595.htm

获取&解析博客园首页数据

我是用的是HttpWebRequest来进行www.cnblogs.com);

解析数据

我们成功获取到了html，但是怎么提取我们需要的信息（文章标题、地址、摘要、作者、发布时间）呢。这里就亮出了我们的利剑HtmlAgilityPack，他是一个可以根据xpath来解析网页的组件。

载入我们前面获取的html：

HtmlDocument doc = new HtmlDocument(); doc.LoadHtml(html);

从上图中，我们可以看出，每条文章所有信息都在一个class为post_item的div里，我们先获取所有的class=post_item的div

//获取所有文章数据项 var itemBodys = doc.DocumentNode.SelectNodes("//div[@class='post_item_body']");

我们继续分析，可以看出文章的标题在class=post_item_body的div下面的h3标签下的a标签，摘要信息在class=post_item_summary的p标签里面，发布时间和作者在class=post_item_foot的div里，分析完毕，我们可以取出我们想要的数据了：

foreach (var itemBody in itemBodys) { //标题元素 var titleElem = itemBody.SelectSingleNode("h3/a"); //获取标题 var title = titleElem?.InnerText; //获取url var url = titleElem?.Attributes["href"]?.Value; //摘要元素 var summaryElem = itemBody.SelectSingleNode("p[@class='post_item_summary']"); //获取摘要 var summary = summaryElem?.InnerText.Replace("\r\n", "").Trim(); //数据项底部元素 var footElem = itemBody.SelectSingleNode("div[@class='post_item_foot']"); //获取作者 var author = footElem?.SelectSingleNode("a")?.InnerText; //获取文章发布时间 var publishTime = Regex.Match(footElem?.InnerText, "\\d+-\\d+-\\d+ \\d+:\\d+").Value; Console.WriteLine($"标题：{title}"); Console.WriteLine($"网址：{url}"); Console.WriteLine($"摘要：{summary}"); Console.WriteLine($"作者：{author}"); Console.WriteLine($"发布时间：{publishTime}"); Console.WriteLine("--------------华丽的分割线---------------"); }

运行一下：

我们成功的获取了我们想要的信息。现在我们定义一个Blog对象将它们装起来。

public class Blog { /// <summary> /// 标题 /// </summary> public string Title { get; set; } /// <summary> /// 博文url /// </summary> public string Url { get; set; } /// <summary> /// 摘要 /// </summary> public string Summary { get; set; } /// <summary> /// 作者 /// </summary> public string Author { get; set; } /// <summary> /// 发布时间 /// </summary> public DateTime PublishTime { get; set; } }

github.com/stulzq/CnBlogSubscribeTool

标签：NET Core 实现定时抓取