如何利用Nokogiri在HTML中高效提取所有电子邮件地址?
- 内容介绍
- 文章标签
- 相关推荐
本文共计463个文字,预计阅读时间需要2分钟。
在Nokogiri的HTML代码中找到电子邮件地址,可以使用正则表达式。以下是一个示例代码:
rubyrequire 'nokogiri'require 'open-uri'
_content=open('http://example.com').readdoc=Nokogiri::HTML(_content)
email_regex=/[\w\.-]+@[\w\.-]+/emails=doc.xpath(//text()).map { |node| node.text.match(email_regex) }.flatten.compact
puts emails
这段代码首先获取网页内容,然后使用Nokogiri解析HTML。接着,定义一个正则表达式来匹配电子邮件地址,然后使用`xpath`查找所有文本节点,并应用正则表达式来提取电子邮件地址。最后,输出提取到的电子邮件地址。
本文共计463个文字,预计阅读时间需要2分钟。
在Nokogiri的HTML代码中找到电子邮件地址,可以使用正则表达式。以下是一个示例代码:
rubyrequire 'nokogiri'require 'open-uri'
_content=open('http://example.com').readdoc=Nokogiri::HTML(_content)
email_regex=/[\w\.-]+@[\w\.-]+/emails=doc.xpath(//text()).map { |node| node.text.match(email_regex) }.flatten.compact
puts emails
这段代码首先获取网页内容,然后使用Nokogiri解析HTML。接着,定义一个正则表达式来匹配电子邮件地址,然后使用`xpath`查找所有文本节点,并应用正则表达式来提取电子邮件地址。最后,输出提取到的电子邮件地址。

