爬取的链接中有“./”,请问该如何去掉?
- ipzh正则,
- andlase不要用字符串拼接,直接用url_join就没了
小尾巴~ - yxmrre.sub
- fengjianzhi谢谢大家。真不好意思。刚开始学,有些问题不知道该怎么搜索。
- xain
- kkzxak47好问题。
下面函数应该够用了,没考虑更多特例。复制代码- #!/usr/bin/env python3
- from urllib.parse import urljoin
- def parse_url(s):
- r = urljoin(s + '/', '.')
- if not s.endswith('/'):
- r = r[:-1]
- return r
复制代码- >>> parse_url("http://www.yqbb.gov.cn/gzdt/./201907/t203948392_9234.html")
- 'http://www.yqbb.gov.cn/gzdt/201907/t203948392_9234.html'
另外学编程多Google,类似问题已经被解决了一遍又一遍:https://stackoverflow.com/questi ... ing-superflous-dots。能用看英文就尽量看英文资料,质量高。 - #!/usr/bin/env python3
- hjie