一种EXCEL(结构化数据)导入SQLite统计方法的实践分享
- kzhiquan约莫有一两载,在琢磨这个问题,但总是没有找到合乎心意的方法,直到这次,才稍有眉目,并认为是一种适合自己的路径。平常工作中,常遇XLS表、CSV文件、TXT文件等结构化数据,有从信息系统中导出的,有从同事整理传递过来的,往往需要进行二次的整理统计。简单的逻辑,EXCEL或者WPS的导入、排序、筛选、公式计算下拉自动填充、导出能够解决,但对于稍微复杂些的问题,还仅仅基于这些,就会耗费比较长的时间。详情查看:一种基于EXCEL结构化数据+Python+SQL数据统计路径的探求和实践
- xinzhu0372谢谢😜
- ptcptr链接404,能修正一下吗?
用ie打开正常,谷歌打开404 - kzhiquan谢谢,链接已修复。
- linxlinttmark一记
- quantekpandas + jupyter 可以试一试
- xhsec谢谢分享
- kzhiquan回复6#quantek
嗯,合适自己的,有需求的才好。 - CNV我的工作流基本上是转成csv或者tsv,然后导入到R里面用tidyverse包处理了。
- kenchn马克 iOS fly ~
- kzhiquan回复9#CNV
tidyverse包,楼主能介绍下,相比于sql语句有什么优势么? iOS fly ~ - kzhiquan回复6#quantek
这个是不是要写python脚本的,定时批量任务比较合适吧。 iOS fly ~ - bartonexduExcel里power query也可以选择从文件夹导入文件
- kzhiquan回复13#bartonexdu
是的,但这种方法有时操作还是很繁琐,尤其在大数据量时,就用不了。 iOS fly ~ - 无码都用Python 转格式了,不考虑Python里面直接处理数据?
- NCE_Fans人不靠谱靠软件不行啊
,很多乱七八糟的格式都是人为产生的。有的人天生excel破坏王,再好的Excel表格给他,出来都是乱七八糟的。不用excel给他固定框架才能治好
- 斗牛士问题1: 分组归类统计
excel的subtotal分类汇总就可以 - CNV如果没学过python或者lisp之类的带函数式编程方式的语言恐怕就不太方便了。如果对linux shell的管道、函数式编程比较熟悉则比较适应。
可以类似于 input_table %>% group_by(user_name) %>% average(cost) 这样实现功能。%>%则类似于linux shell里的“|” 管道符。 - kzhiquan回复18#斗牛士
记下了,下次我实践下。 iOS fly ~ - kzhiquan回复19#CNV
:+1: iOS fly ~ - everchens巧了,我这两天正在想这事,而且思路和楼主一模一样。
- kzhiquan回复24#everchens
我也想了好久,最近才找到这条比较适合自己的。 iOS fly ~ - bartonexdu数据的ETL部分会耗费不少资源。有了规范的结构化数据,后面的事情就顺利不少。
- pukka马克,以后会用到
- 有教无类TablePlus居然是收费的...
Windows上免费的PowerBI(或Excel+PowerQuery, PowerPivot),MacOS下的Tableau (Public免费),难道不更香么 - kzhiquan回复28#有教无类
客户端都大同小异,都可以的,下次我试试楼主推荐的,MacOS下的Tableau。 iOS fly ~ - 有教无类除非购买或破解Tableau Desktop (有钱的企业可上Tableau Server),不然MacOS下免费的Tableau Public只适合个人使用或初步的brainstorming,因为它只能把项目文件存在云端,对企业来说有信息泄露风险。通过拖拽快速生成图表,然后截截图分享是没问题的,我就基本就这么用。
主要是Mac下Excel性能太差,几万行就容易跑死,又没有PowerBI或PowerQuery/Pivot插件。所以在我看来,Excel重度用户必须用Windows。我是按照研发岗配的设备,没办法... - kzhiquan回复30#有教无类
看来还是用不了,数据还是比较敏感的。 iOS fly ~ - myfaint007mk哈哈哈
- xiaomao88收藏了,谢谢HiPDA·NG
- cangyue0608excel转数据库解决思路mark
- quantekpandas可以很方便的做 数据倒入、处理、分类汇总、筛选、排序、合并、画图 等操作,在Jupyter上画图也非常直观,而且可以自动化。
我公众号上的数据图表都是python一键完成的。 - tigerhit请教楼主:我就是一个百万行的excel数据。只做筛选。。。非常慢。。要等很久 还有可能程序死掉。。能有啥好办法么
- kzhiquan就用我文中介绍的方法,可行,亲自试过一张表400万行数据没有问题。
- kzhiquan
- tiens步骤太多。
建议考虑简化:
要么用微软全家桶,直接excel->access,SQL查询,然后很方便把query输出成excel
要么用python的xlrd, xlwt库直接读写excel,省去csv这一步。 - tigerhit求助: 只会用excel筛选。 就是个百万行excel 筛选一步就行。。现在就是慢。。。卡住。。楼主推荐那些不太会使用..别的软件我也不会用啊。。有没有啥简单易操作的途径
- kzhiquan
- tigerhit那就只能搞个高端电脑....z这样不会被卡死。。。。
- cd2050马克试试
- 有教无类PowerBI,或Excel+PoweQuery/Pivot插件,免费的。熟悉Excel的人应该很快能上手
- xuyn2003这个...楼主不用数据透视表吗?
- kzhiquan回复45#xuyn2003
没用过,改天试试看,提高工作效率。 iOS fly ~ - zengdragon先收藏。
处理乱七八糟的文档一直是头疼的问题。 iOS fly ~ - 有教无类楼主说了啊,1. 性能;2. 行数限制(xlsx是1,048,576行)
- bartonexdupbi里M和dax,和Excel函数只是看起来非常像
- 有教无类