Editplus正则表达式的两个实用例子
网站采集平时用软件做得太多了, 所以一撞上某些需要手工采集的内容时, 自然就会想起各种采集器的过滤规则~
现在, 来说一下怎么用EDITPLUS替换功能里面的正则静态式来实现内容过滤~
以下放出两个我常用的正则表达式~
1. ([^!|#|@]*) 万能匹配
对的, 就像某些采集程序里面的(*)类似的代码, 可以用来代替任何字符~
虽然说是万能, 不过不是真的万能, 详细解释一下,
这句表达式的意思是->内容不等于!和@和#
当然,这里的!@#我只是顺手SHIFT123这样打出来的, 你可以替换为自己的符号,不替换直接拿去用, 一般情况都可以满足到, 除非你要替换的语句里面同时拥有!@#这三个符号~
实例:
- <a href="http://iteeq.com">EEQ的博客</a>
- <a href="http://google.com">Googlebai</a>
- <a href="http://baidu.com">百度</a>
要求只要去掉连接,只留下文字
查找:
- <a href="([^!|#|@]*) ">
替换为:(空白,不用写任何东西)
结果:
- EEQ的博客</a>
- Googlebai</a>
- 百度</a>
OK,所有连接头都清除了~ 再直接把后面那个/a替换为空就完事~
2. \1 的用法
\1的作用是用于保留有用的语句, 把其他的内容换掉~ 下面直接看实例吧~
清除完链接, 有时还会出现下面这样的内容
- 我是低俗的人
- 我是很黄很暴力的人
- 我是打酱油的人
恩,这样的语句太自私了….换掉~
查找:
- 我是([^!|#|@]*)的人
替换为:
- 我们是\1的
结果:
- 我们是低俗的
- 我们是很黄很暴力的
- 我们是打酱油的
没错的, 好的行为应该大家一起干~
哼哼~ 好了, 大概意思大家明白就行, 替换的内容要理也不用理哈~
好, 今天就这样~ 睡觉去~
还没有任何评论。