[附件已上传]我来问个对码农来说很简单的问题。关于python抓简单网页上的信息

  • f
    fallor
    网上找了个别人写的文件,但是好像有点问题。只能识别邮箱。不过暂时能凑合用。
    其实我只要固定识别email":"iwaxxxuw@gmail.com"
    "firstName":"Iwan","lastName":"Rxxxuw",这样的信息就可以了。好像都不用正则表达式。
    1. # coding:utf-8

    2. """
    3. Name : email.py

    4. Author : GS

    5. Contect : 2903344135@qq.com

    6. Time : 2019/7/8 20:23

    7. Desc:

    8. """

    9. import re

    10. f = open('test.txt', 'r',encoding='utf-8')#读取文件

    11. strings=f.read()#获取文件内容,到内存

    12. f.close()#读关闭

    13. matches = []

    14. emailRegex = re.compile(r'''(

    15. [a-zA-Z0-9._%+-]+ # username

    16. @ # @ symbol

    17. [a-zA-Z0-9.-]+ # domain name

    18. (\.[a-zA-Z]{2,4}){1,2} # dot-something

    19. )''', re.VERBOSE)

    20. for groups in emailRegex.findall(strings):

    21. matches.append(groups[0])

    22. f1 = open('test1.txt','a',encoding='utf-8')#打开新的文件

    23. list2 = list(set(matches))#去重

    24. # print(list2)

    25. list_nums = len(list2)#列表的数量,长度

    26. #循环写入文件,并换行

    27. for line in range(list_nums):

    28. f1.writelines(list2[line]+"\n")

    29. #关闭流

    30. f1.close()
    复制代码

    =============================================
    附件已经上传,我可以把网页复制下来,然后从固定文件里面把这两个信息分离出来,最好存成个Excel文件就可以了。感谢
    =================================================================
    诚恳的咨询大家,0基础多久能做到这样?
    有一个网站,上面有不定期更新的信息。假设是名字和邮箱吧。或者我希望把固定某一部分的内容抓取下来,然后存成Excel。这样一个python小程序需要学多久才能学会啊?O基础其实是跟日常工作有点关系,其实更新频率很低。大约就是一周更新十几二十条数据吧,但是自己复制感觉好原始,能不能通过学习python来做这样一个小程序呢?
    我百度了下,还有伪装什么请求主体之类的,完全看不懂。我不用抓很多数据,就是显示的那几条就行。
    或者我自己Ctrl+A Ctrl+C全复制下来,用python把固定部分的信息摘出来也行。
    PS:我的编程水平,全0。scratch我把低龄段做完了;python水平请看截图。有可能短期内做到这样么?

    1595840945(1).png提取firstname和邮箱.txt(14.44 KB)
  • y
    yangkghjh
    十分钟的事吧,不算学编程的时间
  • c
    chim
    你不如学去学正则表达式然后复制过来提取出来得了
    因为一周更新一次 你还得手动打开你的小程序
  • f
    fallor
    回复2#yangkghjh


    求教,没有找到合适的例子啊。能不能给我发个例子,我对着改。是不是我自己右键源码,然后都复制下来再用程序筛选就很简单了
  • z
    zengfu
    这需求非要用python吗,八爪鱼或是火车头采集器几分钟搞定的事情。
  • 又是一个不归路
    火车头即可。其它都是假简单
  • x
    xvzan
    算上学编程的时间大概一晚上吧
  • 花菊
    mark iOS fly ~
  • f
    fallor
    回复6#又是一个不归路


    火车头是个啥,免费么?我先去百度下
  • 4
    4color
    火车头吧。学什么python
  • f
    fallor
    回复10#4color


    是我百度的那个火车头么?要钱的啊 。有没有免费版之类的我就需要很少的信息
  • 猫了个咪的
    腾讯云函数,然后用方糖推送给自己
  • m
    manhere
    有免费的啊
  • f
    fqxufo
    得看内容是html里本来就有的还是js请求后渲染的,后面一种情况复杂些
  • f
    fallor
    回复14#fqxufo


    右键源代码里面就有,我自己复制个txt然后程序只从里面找信息也行。好像正则表达式是容易点,但是我不知道怎么放到程序里面去。。。
  • f
    fqxufo
    回复15#fallor

    把具体的网页地址和需求发出来,D版大佬分分钟写好
  • o
    opensesame
    放在任务里定时执行啊HiPDA·NG
  • j
    jckimi
    的确,好像就只需要个十几分钟
  • w
    wmbstx
    如果非要python的话,你需要学习selenium和openpyxl两个模块的用法,后一个几分钟,前一个至少几个小时

    感觉没啥必要,就他们推荐的火车头就挺好
  • 屋大维
    数据到文件是最简单的部分了。

    你这个需求难不难其实在于请求这个页面的过程。里面设了反爬虫的机制,估计得研究一晚上;如果是很简单的网页,一套写完10分钟吧…… iOS fly ~
  • t
    tsql
    感觉直接用excel就可以吧。
  • f
    fallor
    回复16#fqxufo

    我明天上班开电脑整理下。手机写不清楚。其实就是里面有九个还是十个邮箱和名字
  • H
    Hisoka-J
    很难的老哥,我学了2年多了还没学会,一堆奇奇怪怪的问题
  • f
    fallor
    回复13#manhere

    就叫火车头么?为啥百度里全是要钱的啊
  • f
    fallor
    回复20#屋大维

    我可以直接复制数据到txt里,然后再筛选也行。因为里面有些奇奇怪怪的格式符号之类的,我复制的时候要看半天。其实手动也就几分钟,不过总觉得自己这么手动复制有点傻,要是以后数据多了还不得手抽筋啊。
  • b
    billbuff
    也可以学下vba来抓数据,我觉得还简单些。小尾巴~
  • f
    fallor
    回复23#Hisoka-J

    你这个有点吓人了吧,两年。论坛里不是都是号称分分钟转行,培训班几个月就大厂上班了吗
  • w
    wsyx87930
    直接抓源码然后正则提取,学习成本最低
  • z
    z16166
    从头撸肯定够呛。

    比较好的办法是弄个现成的能跑的抓网页的代码,在那个基础上改就行
  • s
    shiyiii
    回复26#billbuff

    有靠谱教程吗
  • H
    Hisoka-J
    回复27#fallor
    吓你干啥,有些人就不适合写代码,例如我 从不稀释德味~
  • b
    billbuff
    回复30#shiyiii
    你的需求不就是抓取网页数据然后保存嘛。类似的例子有用vba抓取网页里的股票数据然后再处理的,网上搜一下应该有不少,看懂后再改一下就行了。小尾巴~
  • l
    linlance2000
    小白放弃吧,并不好搞,哪怕是火车头。。。
    各种坑。。。
  • s
    shiyiii
    回复32#billbuff

    谢谢了
  • 屋大维
    你倒是上个链接啊,不然大家也不知道怎么帮你 iOS fly ~
  • f
    fallor
    回复35#屋大维

    网站在收藏夹里。我明天发个给大家看看
  • f
    fallor
    回复28#wsyx87930


    我上传了个文件,能帮忙看看么。正则表达式应该能匹配,但是我没看明白怎么让它读文件
  • z
    zhenyue
    bash 脚本几行的事儿

    当然我现在是写不出来了
  • f
    fallor
    多谢高手。我明天试试。我现在用的那个网上那个好像有点复杂,还会选出来很短的错误邮箱需要筛选。这个看起来更有可更改性,可以改关键字之类的。
  • w
    wsyx87930
    我就是个业余二把刀,不怕献丑了
    代码能用就行,不讲究美观
  • b
    by曲终人散
    你给的文档只截取的部分,正常,js几分钟就搞定了
  • f
    fallor
    回复42#by曲终人散

    js是啥?我就装了个python。看别人代码虽然很少,但是老是用个什么库什么的就好难。
  • k
    kongbalala
    觉得后羿采集器更容易上手。