请教一个中文文本处理方面的问题
- euzen类似下面的一段文字:上述文字包括小标题和内容,其中内容被换行成多段,现在要将它们整理成标准格式的两段文字(标题一段,内容一段)。复制代码
- 一、重点宣传内容
- 一是落实阶段性延期还本付息政策的要
- 点。包括市场主体申请延期还本付息的
- 条件、需要向金融机构提交的资料。
如果没有标题,可以用比较简单粗暴的方法的处理,所有结尾不是标点的换行,全部连接一起即可。
但有标题这样结尾没标点的干扰项在,就比较麻烦了。
内容第2行“要”和第3行“点”,这个我知道有“中文分词”的处理,“要点”是一个词。
第3行“的”和第4行“条件”,明显是一句话没完结,这个知识点叫什么?以为是“语义”,但搜索似乎并不对。求指点方向。 - 一、重点宣传内容
- bill30000句子成分,最大搜索,最小公共子串
- wsyx87930做不到。
除非你的标题和正文有严格的符号区分,比如只在标题里使用“、” - luolitao
- euzen搜索了一下,并没有什么收获。要求只有理论,现在形成算法,要不只针对 英文处理。
- euzen也算一个不错的方法,但标题要满足二楼所说的条件。
另外 ,还是比较想知道所提出问题的答案。连是什么方向都不清楚。。 - am99应该可以,想好标题的特征就可以了
中文数字开始
后接顿号
文本长度不超过固定值
用正则实现比较快
记得做完以后把所有标题打出来看一下,排查一下有没有其他特例 iOS fly ~ - songco标题没规律的话, 是没办法的.
- shadowmage楼主要求的知识点是不是“语素”?更大的知识点是自然语言处理
- bill30000句子成分检查出是否缺少[条件],另外可以用生成模型检测是否完结