爬取的链接中有“./”，请问该如何去掉？

2019-07-30 08:48

ipzh2019-07-30 08:53
正则，
andlase2019-07-30 08:54
不要用字符串拼接，直接用url_join就没了
小尾巴~
yxmr2019-07-30 08:56
re.sub
fengjianzhi2019-07-30 08:58
谢谢大家。真不好意思。刚开始学，有些问题不知道该怎么搜索。
xain2019-07-30 09:08
最后一句换成
print(each.string, server +each.get('href')[2:])
HiPDA·NG
kkzxak472019-07-30 09:49
好问题。
下面函数应该够用了，没考虑更多特例。
#!/usr/bin/env python3
from urllib.parse import urljoin

def parse_url(s):
r = urljoin(s + '/', '.')
if not s.endswith('/'):
r = r[:-1]
return r
复制代码
>>> parse_url("http://www.yqbb.gov.cn/gzdt/./201907/t203948392_9234.html")
'http://www.yqbb.gov.cn/gzdt/201907/t203948392_9234.html'
复制代码
另外学编程多Google，类似问题已经被解决了一遍又一遍：https://stackoverflow.com/questi ... ing-superflous-dots。能用看英文就尽量看英文资料，质量高。
hjie2019-07-30 10:03
相对地址转绝对地址，上面有兄弟说了用urljoin()

https://www.jianshu.com/p/20065f9b39bb