请教个python mysql问题

  • a
    andriod
    我想把公司服务器上的各种文档,比如doc ppt 等文件,都爬到一个MySQL数据库里面。然后用python做一个全文搜索。但是具体采集到MySQL后,不知道用什么思路比较好,毕竟一个mysql数据库的单元格有字符数限制,如果一篇文章几千个字,不可能都弄到一个单元格内吧。请问还有什么更好的思路吗。
  • I
    IAmThrilling
    数据库不是存文件的,也不支持文件内容搜索 iOS fly ~
  • a
    andriod
    我是想把文件的内容,都爬到一个mysql数据库里面,这样文件即便是有人删除了,文字内容我都保留下来了。
  • 莲尖
    思路搞错了

    上 apache lucene iOS fly ~
  • 莲尖
    如果只是存档 可以 作为 blob类型存 iOS fly ~
  • a
    andriod
    这个不需要数据库吗,假如原始文件被人删除了呢
  • 李大饼
    做个http服务,文件只能下载不能删除
  • 莲尖
    回复6#andriod
    需要数据库,会创建索引,源文件被转换了,删了没事儿 iOS fly ~
  • I
    IAmThrilling
    你那相当于文件备份到数据库,随便备份到其他存储也可以吧 iOS fly ~
  • x
    xx6412223
    你需要的是solr (基于lucene ,lucene 是框架,不是软件要自己开发)。
    可以把mysql存到数据库里,但是有啥意义呢,只是存储,用起来还麻烦,mysql也可能被删除。怕丢应该是上云,你几个的机器也搞不了hadoop
  • a
    andriod
    也是想实现全文检索
  • x
    xx6412223
    回复11#andriod

    那就solr ,索引本地文件很简单。
  • l
    lishuanzhu
    elasticsearch他不香嘛,干嘛用solr, lucene
  • t
    taihang
    全文搜索用es
  • a
    andriod
    只会点python
  • l
    luolitao
    文本等非结构数据可以用mongodb数据库
  • g
    gdw1986
    哈哈我觉得楼主想写个百度
  • a
    andriod
    见笑。。我是想把所有信息集成化,就算是开会时候也能手机快速检索也能装逼用
  • 猫了个咪的
    我能想到的是mongodb而不是和你一起慢慢变老
  • k
    kingdehu
    文件存档,数据库记录文档目录 iOS fly ~
  • t
    timrabin
    上wiki系统吧
  • I
    Ichde
    用那个鸿雁系统edms啊,所有的都全文ocr 掉可搜索 ,或者收费的有confuence jira 应该也可以
  • r
    roadlala
    我几年前也干过这事,自己凑合用用,当时是用结巴分析了每篇文章前20个关键词存到mysql,再加上每个文章的原文地址 huawei fly ~
  • a
    andriod
    哈哈,
    是这个意思,现在还有效率更好的方案吗
  • r
    roadlala
    没有,后来采集了业内大部分网站,文章迅速积累到18万+篇,一是没法自己做文章rank,二是大部分文章相似度十分高,积累越多反而越没有实用价值了 huawei fly ~
  • m
    manhere
    回复1#andriod

    你可能需要这个
    http://seadesktopsearch.com/
  • a
    andriod
    看起来收费的吧
  • j
    jaring
    回复13#lishuanzhu
    +10010
  • 小河直直
    这个是两件事,分开考虑比较好
    1 备份,这个随便啥方案都行
    2. 检索,这非结构化数据,用elasticsearch
  • m
    manhere
    回复28#andriod

    免费的呀
  • 活泼金属
    elasticsearch iOS fly ~