doriexcel 两种思路.
一种是依赖自动化测试模块selenium做.
selemium又分两种,一个是带浏览器界面,一个是PhantomJs
老实说,论坛用这个有点杀鸡牛刀的感觉,因为论坛有wap模式啊.
2 requests库
.论坛wap面页处理会比较简单,get方法可以干完你想做的事情
1 登陆
post_url = https://wap.tgfcer.com/index.php?action=login&sid=&vt=1&tp=100&pp=100&sc=0&vf=0&sm=0&iam=&css=&verify=
data = {
"login": "登录",
"password": "密码",
"username": "账号",
vt": "1"}
wap好像并没有验证码机制,post传表单就能登陆,账号密码vt=1
登陆以后,获得cookie保存cookies,以后靠这个登陆论坛,当然你每一次都登陆也没啥问题.
2 访问 短消息列表 网址, 内容都遍历一次,你消息多可能会有几页,都遍历完就完事了
消息网址(未读消息,全部消息),就多说了,反正get就完事了
分析html
soup:
css选择器或者正则提节点内容,遍历,过滤,把想要删除的内容获得网址.
加到一个List中
譬如节点这样:
<a href="index.php?action=pm&do=view&pmid=3404852&vt=1&tp=100&pp=100&sc=0&vf=0&sm=0&iam=&css=&fontsize=0">#1 您发表的帖子被引用</a>
你就获得href然后加wap域名就能够获得点进去里面的网址,最后再从这里获得删除消息的网址
最后用get方法就能够把消息删除掉了.
当然你细心点就能够发现,删除消息请求的组成,修改pmid就能够直接删除短消息.
delete&pmid=2991830
至于获取pmid在最开始的遍历消息中就能够获取,直接用正则提就完事了.
于是乎,最后流程是这样
post登陆,保存cookies
访问短消息面板,遍历,过滤,获得需要删除短消息的pmid
字符串构成get网址,
最后get删除短消息.
完事,wap静态面页就是辣么的简单