分享到        

本帖最后由 大熊星座 于 2016-8-17 22:15 编辑
本新闻来自于豹子君 @雪麒 微博转载,原链接:http://weibo.com/5937873544/E3Nm ... t#_rnd1471431953156

该学术论文表示,对来自于Project Gutenberg's  collection网站的1700多本小说:
http://www.gutenberg.org/ebooks/search/?query=fiction&go=Go
将其中的感情走向,进行了赋值并尝试做出拟合曲线~ 发现几乎所有的小说,其感情走向曲线都可以拟合为6个大类型

QQ图片20160817192237.png
2016-8-17 19:23 ↑


当时看了这个评论就觉得......嗯......似乎有点不大对头,有不好的预感..........
毕竟,你这个研究,如果是很高精度的拟合,比如精确到情感走向上升和下降的频率、幅度还有顺序这个级别,那么,哪怕研究舍弃了一部分不理想的结果,对于反映小说的内在创作规律和人类的情感规律,都还蛮有意义的.....
但是,你就是那么粗糙的拟合,要么是升要么是降,要么是平,要么是波动,呐......我简直有种,能说的话都让你说了的感觉WWWWWWWWWW
情感走向,不就只有这么几种可能性么?你都说了,然后说,所以小说都是这样的套路,这有什么意义?WWWWWWWWWW

果然,经毛毛 @羽·凌风 翻译本文献~
内容果然很炸裂~WWWWWWWWWWWWWWWW
先是拟合好牵强啊,有些明明离散程度很大置信度蛮低的,照样强行拟合去贴近曲线~
后是很多不理想结果,因为或这或那的理jie由kou,直接忽略,约125%的样本最后不符合六种模式的作者不在探讨~
而那1700本书,我严重怀疑,经典严肃著作,或许也就占25%左右,其余很可能本身就是套路写作的网文和畅销文WWWWW
最后,其中一项,关于对典型的贴近程度与受欢迎程度一项,作者过分强调单本下载量,而不是考虑平均下载率,并强行说出对套路拟合程度越高,就越受欢迎的结论,以及开始探讨那种模式最后欢迎,这在统计上也很不周密啊!

这是毛毛翻译的摘要部分
QQ图片20160817195648.png
2016-8-17 19:57 ↑


我想说的一点是,其实作者的这个思路还是不错的,用技术手段去尝试解构看上去比较繁杂、纷乱、神秘的艺术创作~
但是,所谓,有几分数据说几分话,因为对结果部分的严谨程度不够,以及太轻易得出结论,最后导致了文章变得很像是故意耸人听闻、想搞个大新闻的样子~
不知道作者这样写是真傻还是装傻,但感觉就是因为这类事,文科童鞋们才会看不起学理的人,觉得后者只懂数据,不懂艺术啦~
其实我以为,文理之分只是知识面侧重不同而已,但理性与思维却是文理共通的,只能向下兼容,不能向上兼容WWWWWWWW
毛毛翻译辛苦了,摸摸~ (?

 

穿过县界长长的隧道便是雪国。

本帖最后由 羽·凌风 于 2016-8-18 10:00 编辑
来放上翻译,中间有几段英文,因为……实在是翻不动了WWWWWWW
比分子和生态统计还要难懂啊我是认真的!作者的思路清奇!(炸)
原文链接可以在公网下载,内附非常多非常多的图表,想看的可以下来看看,我这里就省略了




The emotional arcs of stories are dominated by six basic shapes
小说情感轨迹的六种基本模式


Andrew J. Reagan,1 Lewis Mitchell,2 Dilan Kiley,1 Christopher M. Danforth,1 and Peter Sheridan Dodds1
1 Department of Mathematics & Statistics, Vermont Complex Systems Center,
Computational Story Lab, & the Vermont Advanced Computing Core, The University of Vermont, Burlington, VT 05401
2 School of Mathematical Sciences, The University of Adelaide, SA 5005 Australia

原文:http://arxiv.org/abs/1606.07772

随着计算机技术的发展,我们已经可以利用计算机来把自然语言、文本数字化用以分析文化的发展。由于人类的感情是共通的,所以我们的故事也往往会形成一些各有特色的情感模式。本研究搜集了1737本小说(来自Project Gutenberg's fiction collection),并用这些复杂的文章归类出了六种情感轨迹的核心模式。我们对样本分别进行优化、线性分解、有监督学习和无监督学习,得到了这些结果。对每一种核心模式,我们还分别找出了最符合的一套小说,并且分析了它们的下载量,看看哪一种模式是最成功的。









哦不但是我还是想要放一张图表!
这是图5君

再让我们看一下图5君的文字
图5所示的每种情感轨迹模式和最符合该模式的小说的下载数量(更多信息请见附录F的图S19)。我们发现前四种模式虽然符合的小说总数很多,但并不是下载量最多的。模式3和模式4的下载量明显较高,虽然不同小说的下载量离散度也很大。这些数据表明,成功的小说确实有能引读者共鸣的感情脉络为支撑。我们发现,灰姑娘类(SV 3)、俄狄浦斯类(-SV 3)、洞中人类(SV 4)和最后再加上一个悲惨结局的灰姑娘类(-SV 4)小说是比较成功的。
喂喂喂,模式1和模式2看起来明明水平更平均一些啊!研究者你都不考虑一下模型3和模型4那几本下载量高的是因为作者写得好而不是因为套路吗!!!
还有说好的模型4下载量高、总数也可观呢,怎么最后结论直接就把它去掉了!模型4要哭了哦!
最后采纳的基础模式只有前六种(模型1、模型2和模型3),加起来……1306本……
也就是说……这个研究……为了证明套路文果然是套路(?),扔掉了25%不符合六大套路的样本!

是说,虽然正文有一种满满的“不符合的我们就不管它了”的感觉,但是至少……
附录还是把被去掉的一些情况以及看起来很扯的拟合曲线也放出来了WWWWWWWW
不然我们还不知道他的拟合有多夸张啊,正文里的图可是很好看的呢!WWWWWWW

其实这篇文献,才是一个套路文吧!那么深的套路!WWWWWWWWWWW


【发帖际遇】:羽·凌风 走在大街上摔了一跤,不但没有幸运地捡到钱,反而不小心丢失了 9F卡币 。

际遇事件仅作娱乐,正式设定请见【DL故事集】
欢迎来到Dragicland,【总版规】请记得要看哦,还有这个也是好东西→如何回复?

TOP


馮內果表示:我的故事類型戲言居然被認真看待了(在天堂笑出淚來
這篇論文是怎麼通過認證的?教授喝了多少杯奶茶(咦?

他引用馮內果從未完成的人類學論文想使用而一直在某些散文中畫圖敘述的故事情節模型很是迷人,可是其中的腦洞連我們普通人都看得到不對勁啊!


【发帖际遇】 狼狗傑 正在悠閒浏览龙洋城的夜间风光,忽然青光一闪,被割破的口袋成为龙洋第一杀手留下的独一无二纪念礼物。哦不!那好像用是 155F卡币 换来的。

际遇事件仅作娱乐,正式设定请见【DL故事集】
「你到底是誰?」巨狼芬利斯咆哮著問道。
「你知道我是約書亞,」一直以來化身為小孩的救主逐漸消失在光中,他的聲音仍在空氣中迴盪,「不管我是誰,我是你和伊利諾的朋友,這點永不改變。」
——賓根的約翰,耶穌與伊利諾人之祖芬利斯的對話,《伊利諾村的起源故事》,主後十二世紀。

TOP


回复 3# 狼狗傑

咦,不知道具体的文献情况,那个黑色幽默作家提出的理论其实脑洞向居多吗?WWWWWWWWW

至于说到这篇论文是怎么过审的……
感谢熊搜了一下这个期刊 arVix,发现——

http://zhidao.baidu.com/link?url ... g4xpMQ9EuBRTbvbYBFa
大概它根本就没有被审核过!WWWWWWWWW
这样居然也可以被报出来,果然是想要搞个大新闻WWWWWWWW(哎)
欢迎来到Dragicland,【总版规】请记得要看哦,还有这个也是好东西→如何回复?

TOP


回复 4# 羽·凌风

這不是腦洞的問題,而是馮內果提出六大套路並沒有那麼嚴謹,都是在散文中寫出來,馮內果可沒寫過論文。

要拿這六大套路研究沒什麼問題,可是如果想只透過一個小說下載網站的一千多筆樣本,用六大套路概括化約,然後透過這網站被武斷圈進某套路的不同樣本總下載量來判定哪種套路最受歡迎……

我……我……小心,馮內果。腦洞開大滾過來了(?
「你到底是誰?」巨狼芬利斯咆哮著問道。
「你知道我是約書亞,」一直以來化身為小孩的救主逐漸消失在光中,他的聲音仍在空氣中迴盪,「不管我是誰,我是你和伊利諾的朋友,這點永不改變。」
——賓根的約翰,耶穌與伊利諾人之祖芬利斯的對話,《伊利諾村的起源故事》,主後十二世紀。

TOP


本帖最后由 大熊星座 于 2016-8-22 23:30 编辑
回复 5# 狼狗傑

也不算完全戏言啦WWWWWWWWWWWWW
不过也要看语境,冯内古特在区分这个的时候,明明是个脑洞向~
然后作者因此搞了个一本正经的炸裂研究也是醉WWWWWWWWWW

而且更扯的是!数据的拟合超级牵强和粗糙!WWWWWWWWWWWWW
至于分类的话......老实说除了作者所列这几种走向外还有其他可能性吗?他都穷举了然后说,嗯,就这六种,他以为小说是什么?WWWWWWWWWWWWW

大熊星座 于 2016-8-22 23:15 补充以下内容

回复 4# 羽·凌风

呐~ 那不是论文,只是随口说的脑洞WWWWWWWWWWWWW
或者说也不是纯脑洞,但是就像上次讨论的,划分种类只是一种方便法门,才不是一种从本体论出发的论述啦WWWWWWWWWWWWW
穿过县界长长的隧道便是雪国。

TOP


这个研究有新进展了!团队不仅拟合了小说,还去拟合电影了!
并且和电影的销量、评价、成本和题材这些做了比较,得到了一些相关性

https://zhuanlan.zhihu.com/p/41540961

虽然用套路来做分类工具,大致判断哪类作品最受欢迎是不错的方法
但是毕竟他们这帮人在分析小说的时候就做过在只把套路作为唯一变量,不管作品自身水平、导演倾向、强行拟合曲线、并直接扔掉不符合期望的样本的事……
进步一点的大概是电影他们计算了平均数(X)
鬼知道他们对电影数据的处理方式是不是也和对待小说一样

羽·凌风 于 2018-8-17 10:21 补充以下内容

原文找到了:https://arxiv.org/abs/1807.02221

发表的期刊是arXiv,和之前一样
但作者不是同一帮人耶,真的不是学生毕不了业了于是套了一下师兄的模板吗?(??)
欢迎来到Dragicland,【总版规】请记得要看哦,还有这个也是好东西→如何回复?

TOP

分享到