请教个python mysql问题
- andriod我想把公司服务器上的各种文档,比如doc ppt 等文件,都爬到一个MySQL数据库里面。然后用python做一个全文搜索。但是具体采集到MySQL后,不知道用什么思路比较好,毕竟一个mysql数据库的单元格有字符数限制,如果一篇文章几千个字,不可能都弄到一个单元格内吧。请问还有什么更好的思路吗。
- IAmThrilling数据库不是存文件的,也不支持文件内容搜索 iOS fly ~
- andriod我是想把文件的内容,都爬到一个mysql数据库里面,这样文件即便是有人删除了,文字内容我都保留下来了。
- 莲尖思路搞错了
上 apache lucene iOS fly ~ - 莲尖如果只是存档 可以 作为 blob类型存 iOS fly ~
- andriod这个不需要数据库吗,假如原始文件被人删除了呢
- 李大饼做个http服务,文件只能下载不能删除
- 莲尖回复6#andriod
需要数据库,会创建索引,源文件被转换了,删了没事儿 iOS fly ~ - IAmThrilling你那相当于文件备份到数据库,随便备份到其他存储也可以吧 iOS fly ~
- xx6412223你需要的是solr (基于lucene ,lucene 是框架,不是软件要自己开发)。
可以把mysql存到数据库里,但是有啥意义呢,只是存储,用起来还麻烦,mysql也可能被删除。怕丢应该是上云,你几个的机器也搞不了hadoop - andriod也是想实现全文检索
- xx6412223
- lishuanzhuelasticsearch他不香嘛,干嘛用solr, lucene
- taihang全文搜索用es
- andriod只会点python
- luolitao文本等非结构数据可以用mongodb数据库
- gdw1986哈哈我觉得楼主想写个百度
- andriod见笑。。我是想把所有信息集成化,就算是开会时候也能手机快速检索也能装逼用
- 猫了个咪的我能想到的是mongodb而不是和你一起慢慢变老
- kingdehu文件存档,数据库记录文档目录 iOS fly ~
- timrabin上wiki系统吧
- Ichde用那个鸿雁系统edms啊,所有的都全文ocr 掉可搜索 ,或者收费的有confuence jira 应该也可以
- roadlala我几年前也干过这事,自己凑合用用,当时是用结巴分析了每篇文章前20个关键词存到mysql,再加上每个文章的原文地址 huawei fly ~
- andriod哈哈,
是这个意思,现在还有效率更好的方案吗 - roadlala没有,后来采集了业内大部分网站,文章迅速积累到18万+篇,一是没法自己做文章rank,二是大部分文章相似度十分高,积累越多反而越没有实用价值了 huawei fly ~
- manhere
- andriod看起来收费的吧
- jaring回复13#lishuanzhu
+10010 - 小河直直这个是两件事,分开考虑比较好
1 备份,这个随便啥方案都行
2. 检索,这非结构化数据,用elasticsearch - manhere
- 活泼金属elasticsearch iOS fly ~