请教一个中文文本处理方面的问题

  • e
    euzen
    类似下面的一段文字:
    1. 一、重点宣传内容
    2. 一是落实阶段性延期还本付息政策的要
    3. 点。包括市场主体申请延期还本付息的
    4. 条件、需要向金融机构提交的资料。
    复制代码
    上述文字包括小标题和内容,其中内容被换行成多段,现在要将它们整理成标准格式的两段文字(标题一段,内容一段)。
    如果没有标题,可以用比较简单粗暴的方法的处理,所有结尾不是标点的换行,全部连接一起即可。
    但有标题这样结尾没标点的干扰项在,就比较麻烦了。
    内容第2行“要”和第3行“点”,这个我知道有“中文分词”的处理,“要点”是一个词。
    第3行“的”和第4行“条件”,明显是一句话没完结,这个知识点叫什么?以为是“语义”,但搜索似乎并不对。求指点方向。
  • b
    bill30000
    句子成分,最大搜索,最小公共子串
  • w
    wsyx87930
    做不到。
    除非你的标题和正文有严格的符号区分,比如只在标题里使用“、”
  • l
    luolitao
    回复1#euzen

    识别出标题,非标题均为内容,按以标点分段处理。
  • e
    euzen
    搜索了一下,并没有什么收获。要求只有理论,现在形成算法,要不只针对 英文处理。
  • e
    euzen
    也算一个不错的方法,但标题要满足二楼所说的条件。
    另外 ,还是比较想知道所提出问题的答案。连是什么方向都不清楚。。
  • a
    am99
    应该可以,想好标题的特征就可以了
    中文数字开始
    后接顿号
    文本长度不超过固定值

    用正则实现比较快
    记得做完以后把所有标题打出来看一下,排查一下有没有其他特例 iOS fly ~
  • s
    songco
    标题没规律的话, 是没办法的.
  • s
    shadowmage
    楼主要求的知识点是不是“语素”?更大的知识点是自然语言处理
  • b
    bill30000
    句子成分检查出是否缺少[条件],另外可以用生成模型检测是否完结