一种EXCEL(结构化数据)导入SQLite统计方法的实践分享

  • k
    kzhiquan
    约莫有一两载,在琢磨这个问题,但总是没有找到合乎心意的方法,直到这次,才稍有眉目,并认为是一种适合自己的路径。平常工作中,常遇XLS表、CSV文件、TXT文件等结构化数据,有从信息系统中导出的,有从同事整理传递过来的,往往需要进行二次的整理统计。简单的逻辑,EXCEL或者WPS的导入、排序、筛选、公式计算下拉自动填充、导出能够解决,但对于稍微复杂些的问题,还仅仅基于这些,就会耗费比较长的时间。详情查看:一种基于EXCEL结构化数据+Python+SQL数据统计路径的探求和实践
  • x
    xinzhu0372
    谢谢😜
  • p
    ptcptr
    链接404,能修正一下吗?

    用ie打开正常,谷歌打开404
  • k
    kzhiquan
    谢谢,链接已修复。
  • l
    linxlintt
    mark一记
  • q
    quantek
    pandas + jupyter 可以试一试
  • x
    xhsec
    谢谢分享
  • k
    kzhiquan
    回复6#quantek
    嗯,合适自己的,有需求的才好。
  • C
    CNV
    我的工作流基本上是转成csv或者tsv,然后导入到R里面用tidyverse包处理了。
  • k
    kenchn
    马克 iOS fly ~
  • k
    kzhiquan
    回复9#CNV
    tidyverse包,楼主能介绍下,相比于sql语句有什么优势么? iOS fly ~
  • k
    kzhiquan
    回复6#quantek
    这个是不是要写python脚本的,定时批量任务比较合适吧。 iOS fly ~
  • b
    bartonexdu
    Excel里power query也可以选择从文件夹导入文件
  • k
    kzhiquan
    回复13#bartonexdu
    是的,但这种方法有时操作还是很繁琐,尤其在大数据量时,就用不了。 iOS fly ~
  • 无码
    都用Python 转格式了,不考虑Python里面直接处理数据?
  • N
    NCE_Fans
    人不靠谱靠软件不行啊,很多乱七八糟的格式都是人为产生的。有的人天生excel破坏王,再好的Excel表格给他,出来都是乱七八糟的。不用excel给他固定框架才能治好
  • 斗牛士
    问题1: 分组归类统计
    excel的subtotal分类汇总就可以
  • C
    CNV
    如果没学过python或者lisp之类的带函数式编程方式的语言恐怕就不太方便了。如果对linux shell的管道、函数式编程比较熟悉则比较适应。
    可以类似于 input_table %>% group_by(user_name) %>% average(cost) 这样实现功能。%>%则类似于linux shell里的“|” 管道符。
  • k
    kzhiquan
    回复18#斗牛士
    记下了,下次我实践下。 iOS fly ~
  • k
    kzhiquan
    回复19#CNV
    :+1: iOS fly ~
  • e
    everchens
    巧了,我这两天正在想这事,而且思路和楼主一模一样。
  • k
    kzhiquan
    回复24#everchens
    我也想了好久,最近才找到这条比较适合自己的。 iOS fly ~
  • b
    bartonexdu
    数据的ETL部分会耗费不少资源。有了规范的结构化数据,后面的事情就顺利不少。
  • p
    pukka
    马克,以后会用到
  • 有教无类
    TablePlus居然是收费的...

    Windows上免费的PowerBI(或Excel+PowerQuery, PowerPivot),MacOS下的Tableau (Public免费),难道不更香么
  • k
    kzhiquan
    回复28#有教无类
    客户端都大同小异,都可以的,下次我试试楼主推荐的,MacOS下的Tableau。 iOS fly ~
  • 有教无类
    除非购买或破解Tableau Desktop (有钱的企业可上Tableau Server),不然MacOS下免费的Tableau Public只适合个人使用或初步的brainstorming,因为它只能把项目文件存在云端,对企业来说有信息泄露风险。通过拖拽快速生成图表,然后截截图分享是没问题的,我就基本就这么用。
    主要是Mac下Excel性能太差,几万行就容易跑死,又没有PowerBI或PowerQuery/Pivot插件。所以在我看来,Excel重度用户必须用Windows。我是按照研发岗配的设备,没办法...
  • k
    kzhiquan
    回复30#有教无类
    看来还是用不了,数据还是比较敏感的。 iOS fly ~
  • m
    myfaint007
    mk哈哈哈
  • x
    xiaomao88
    收藏了,谢谢HiPDA·NG
  • c
    cangyue0608
    excel转数据库解决思路mark
  • q
    quantek
    pandas可以很方便的做 数据倒入、处理、分类汇总、筛选、排序、合并、画图 等操作,在Jupyter上画图也非常直观,而且可以自动化。

    我公众号上的数据图表都是python一键完成的。
  • t
    tigerhit
    请教楼主:我就是一个百万行的excel数据。只做筛选。。。非常慢。。要等很久 还有可能程序死掉。。能有啥好办法么
  • k
    kzhiquan
    就用我文中介绍的方法,可行,亲自试过一张表400万行数据没有问题。
  • k
    kzhiquan
    回复35#quantek

    赞。
  • t
    tiens
    步骤太多。
    建议考虑简化:
    要么用微软全家桶,直接excel->access,SQL查询,然后很方便把query输出成excel
    要么用python的xlrd, xlwt库直接读写excel,省去csv这一步。
  • t
    tigerhit
    求助: 只会用excel筛选。 就是个百万行excel 筛选一步就行。。现在就是慢。。。卡住。。楼主推荐那些不太会使用..别的软件我也不会用啊。。有没有啥简单易操作的途径
  • k
    kzhiquan
    回复40#tigerhit
    其他的也没iOS fly ~
  • t
    tigerhit
    那就只能搞个高端电脑....z这样不会被卡死。。。。
  • c
    cd2050
    马克试试
  • 有教无类
    PowerBI,或Excel+PoweQuery/Pivot插件,免费的。熟悉Excel的人应该很快能上手
  • x
    xuyn2003
    这个...楼主不用数据透视表吗?
  • k
    kzhiquan
    回复45#xuyn2003
    没用过,改天试试看,提高工作效率。 iOS fly ~
  • z
    zengdragon
    先收藏。
    处理乱七八糟的文档一直是头疼的问题。 iOS fly ~
  • 有教无类
    楼主说了啊,1. 性能;2. 行数限制(xlsx是1,048,576行)
  • b
    bartonexdu
    pbi里M和dax,和Excel函数只是看起来非常像
  • 有教无类
    回复49#bartonexdu


    嗯,是的,不过总比上手Python快...