javascript - 请教一个火车头采集器可用的纯正规则!
高洛峰
高洛峰 2017-04-11 11:52:59
[JavaScript讨论组]

情况是这样的最近在用火车头采集的目标源网站发觉对方的网站有些文章的标题前面有一些特殊符号!
这些特殊符号在标题中有的显示例如:❤♨等等等~~

有的不会显示如图1 图2!

那些标题上能显示的还没事儿~~如图1图2上不显示的会出现问题就是免登陆发布文章以后没有标题了!!!

那个符号还不是一个两个!使用替换功能替换只能替换掉当前标题的符号,换个标题就替换不掉了,前后也没有任何参照也不能用截取的方法~

这个事儿很困扰我!总不能采集文章每个都看看吧!挺烦人的这个事儿!!所以来求助来了!

我试了很多方法都不行!前天意外接触到纯正则,发觉这个可以去掉!
但是刚接触这个东西还不会写啊!所以来求助来了!

我的思路是用纯正则替换掉第一个双节字符~~或者替换掉第一个汉字前面的双节字符!!

因为不知道火车头支持什么样的纯正则!目标我知道的只有这类[u4e00-u9fa5a-zA-Z]

请会的大神不吝赐教!感激不尽!

高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

全部回复(0)
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号