分享到           

首先,辛苦了,不难想象要静下心来码出这么长的文字,还得调整版式,需要花费多少心血。
其次,这个教程实际上有一半的篇幅是介绍一门编程语言,有点像是,“你有一只兔子我有一只兔子我们把兔子放在一起就是两只兔子也就是1+1=2你已经学会基本的运算法则啦快来试一试吧(微积分)”,这种感觉。其实不用说没学过编程的人看不懂,我本身只是没接触过Python也很难看得懂(C#是最好的语言.png)。
然后,我大概看过来,好像实现的方式是类似于词频统计,扫描整个文本内容,统计各个关键词出现的次数,按照自定义的规则合并同义词的频数。我粗略想了一下如果是这样的话,正则表达式会不会更好用一些,你知道的它就是为了模式匹配而生的。我可能会用C#尝试一下。
最后,冒昧提一点建议,实际上程序员各有各的编码风格,非程序员根本没有兴趣看代码。可以考虑侧重去讲算法,因为算法和语言无关。这个东西是怎么实现的、检测到这个词后哪个数值+1、什么情况算有关系什么情况算没关系……诸如此类。而具体应用则可以考虑自己编写一个完整的应用程序直接放上去给大家下载使用。(然后现在这个功能它真的上线了)
愿飞龙常入你的梦乡。

TOP


常用的情景下(自己写文),十几个KB或者十几个MB的文本对于CPU来说都没差。切分词组是个挺有趣的想法,但其实筛选关键词的时候还是要一个个词组看过去,本质上也没有什么区别。如果用正则表达式的话,核心就成了如何用一大堆候选词生成一个合适的表达式,然后只要拿表达式去匹配全文就可以了。
换个实际的例子,无论是word、edge、vscode或者什么别的阅读器/编辑器,查找这个功能几乎都是实时完成的,无论它出现了多少次,在什么位置。
当然这些只是说正则也可以做到一样的事情。既然现在它已经实现了,就没必要再折腾它了(


【发帖际遇】天意618A03 在龙峰山脉遇上了谜样的大姊,被请了一杯酒,喝下感到神清气爽,获得&sid=mkonn3 48探险经验 !

际遇事件仅作娱乐,正式设定请见【DL故事集】
愿飞龙常入你的梦乡。

TOP

分享到