Editplus正则表达式的两个实用例子

Written by EEQ on 一月 29th, 2009

网站采集平时用软件做得太多了, 所以一撞上某些需要手工采集的内容时, 自然就会想起各种采集器的过滤规则~

现在, 来说一下怎么用EDITPLUS替换功能里面的正则静态式来实现内容过滤~

以下放出两个我常用的正则表达式~

1. ([^!|#|@]*) 万能匹配

对的, 就像某些采集程序里面的(*)类似的代码, 可以用来代替任何字符~
虽然说是万能, 不过不是真的万能, 详细解释一下,
这句表达式的意思是->内容不等于!和@和#
当然,这里的!@#我只是顺手SHIFT123这样打出来的, 你可以替换为自己的符号,不替换直接拿去用, 一般情况都可以满足到, 除非你要替换的语句里面同时拥有!@#这三个符号~

实例:

  1. <a href="http://iteeq.com">EEQ的博客</a>
  2. <a href="http://google.com">Googlebai</a>
  3. <a href="http://baidu.com">百度</a>

要求只要去掉连接,只留下文字
查找:

  1. <a href="([^!|#|@]*) ">

替换为:(空白,不用写任何东西)
结果:

  1. EEQ的博客</a>
  2. Googlebai</a>
  3. 百度</a>

OK,所有连接头都清除了~ 再直接把后面那个/a替换为空就完事~


2. \1 的用法

\1的作用是用于保留有用的语句, 把其他的内容换掉~ 下面直接看实例吧~

清除完链接, 有时还会出现下面这样的内容

  1. 我是低俗的人
  2. 我是很黄很暴力的人
  3. 我是打酱油的人

恩,这样的语句太自私了….换掉~
查找:

  1. 我是([^!|#|@]*)的人

替换为:

  1. 我们是\1的

结果:

  1. 我们是低俗的
  2. 我们是很黄很暴力的
  3. 我们是打酱油的

没错的, 好的行为应该大家一起干~
哼哼~ 好了, 大概意思大家明白就行, 替换的内容要理也不用理哈~

好, 今天就这样~ 睡觉去~

本文永久链接:http://www.iteeq.com/archives/338


评论 »

还没有任何评论。

名称 (必需)
电子邮件 (required - never shown publicly)
URI
您的评论 (smaller size | larger size)
You may use <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> in your comment.