初学python,问个文件名的问题

  • m
    magicsword
    背景:有个网站能提供pdf电子书预览(电子书内容是扫描的图片)

    目的:我想用爬虫把图片爬下来,原理上说能预览全部,只要找到源文件入口就能下载了。

    然后:python纯小白,光会看不会写,研究爬虫却怎么也研究不出个鸟来。泪奔。
    曲线:我先预览了,然后从缓存里把预览的高清图片导出来就完了嘛,哼哼。

    然后:如图。
    我:。。。。。。


    请问论坛大神,这种文件名怎么转换成正常的1234?另外爬虫中咋能确定pdf电子书里的图片的页码?

    学艺不精,贻笑大方了。
  • m
    magicsword
    图片在这里,网页上传不上去
  • r
    rihkddd
    这个图片页面信息已经丢了,图片提取页码只能OCR了。其实你仔细找找网站上肯定能找到图片名字跟页码对应关系。
  • q
    qwjhb
    不用那么麻烦······
    你如果是预览缓存的话 下拉的不快的话 文件生成时间是按顺序的