如何利用ASP.NET正则表达式高效处理长尾关键词匹配?

2026-03-30 08:261阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计495个文字,预计阅读时间需要2分钟。

如何利用ASP.NET正则表达式高效处理长尾关键词匹配?

1. 平衡组/递归匹配 (`(?\'group\')`) 将名为group的内容,压栈计数;(`(?-group\)`) 将名为group的内容,出栈计数,出栈计数+(`(?!\`) 零宽度负向前瞻断言,指向先行的括号,实现先序断言。由于没有后缀表达式,试图匹配总是失败,正则表达式总失匹配。正则样例:`1.+(?\'group\')`,失败。

如何利用ASP.NET正则表达式高效处理长尾关键词匹配?

1. 平衡组/递归匹配
(?'group') 将名为group对应的内容,压栈计数;
(?'-group') 将名为group的对应的内容, 出栈计数
(?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败
正则样例:
,{0,1}"5":\[[^\[\]]*(((?'Open'\[)[^\[\]]*)+((?'-Open'\])[^\[\]]*)+)*(?(Open)(?!))\],{0,1}
测试数据:
{"0":["0","0-1","0-2"],"1":["1","1-1","1-2"],"2":["2","2-1","2-2"],"3":["3","3-1","3-2"],"4":["4","4-1","4-2"],"5":["5","5-1","5-2"]}
比对结果:,"1":["1","1-1","1-2"],

评语:这个写的很不错。可以达到取出最近的一个]的效果

2. 零宽断言
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
正则样例:
(?<=<(\w+)>).*(?=<\/\1>)

测试数据:
<li><a href="#updatelog">更新纪录</a></li>

比对结果:<a href="#updatelog">更新纪录</a>

评语:这个写的很不错。可以取开始取结束,不过不能在<a>....</a>中再出现<a>...</a>的情况,还好HMTL里不让<a>中再出现<a>。如果像DIV这样的,就得用下面的样子写了。

<[^<>]*(((?'Open'<)[^<>]*)+((?'-Open'>)[^<>]*)+)*(?(Open)(?!))>

<div class="note">aaa<div>其它可用的测试工具:</div>bbbb</div><div><a href="www.*****.com">gogogo</a></div>

本文共计495个文字,预计阅读时间需要2分钟。

如何利用ASP.NET正则表达式高效处理长尾关键词匹配?

1. 平衡组/递归匹配 (`(?\'group\')`) 将名为group的内容,压栈计数;(`(?-group\)`) 将名为group的内容,出栈计数,出栈计数+(`(?!\`) 零宽度负向前瞻断言,指向先行的括号,实现先序断言。由于没有后缀表达式,试图匹配总是失败,正则表达式总失匹配。正则样例:`1.+(?\'group\')`,失败。

如何利用ASP.NET正则表达式高效处理长尾关键词匹配?

1. 平衡组/递归匹配
(?'group') 将名为group对应的内容,压栈计数;
(?'-group') 将名为group的对应的内容, 出栈计数
(?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败
正则样例:
,{0,1}"5":\[[^\[\]]*(((?'Open'\[)[^\[\]]*)+((?'-Open'\])[^\[\]]*)+)*(?(Open)(?!))\],{0,1}
测试数据:
{"0":["0","0-1","0-2"],"1":["1","1-1","1-2"],"2":["2","2-1","2-2"],"3":["3","3-1","3-2"],"4":["4","4-1","4-2"],"5":["5","5-1","5-2"]}
比对结果:,"1":["1","1-1","1-2"],

评语:这个写的很不错。可以达到取出最近的一个]的效果

2. 零宽断言
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
正则样例:
(?<=<(\w+)>).*(?=<\/\1>)

测试数据:
<li><a href="#updatelog">更新纪录</a></li>

比对结果:<a href="#updatelog">更新纪录</a>

评语:这个写的很不错。可以取开始取结束,不过不能在<a>....</a>中再出现<a>...</a>的情况,还好HMTL里不让<a>中再出现<a>。如果像DIV这样的,就得用下面的样子写了。

<[^<>]*(((?'Open'<)[^<>]*)+((?'-Open'>)[^<>]*)+)*(?(Open)(?!))>

<div class="note">aaa<div>其它可用的测试工具:</div>bbbb</div><div><a href="www.*****.com">gogogo</a></div>