【讨论】 AI會奪走作者的飯碗嗎？親測AI寫小說能力！ <img src="images/default/digest_1.gif" class="attach" alt="精华 1" title="精华主题（一级）" />

恩利爾．蒼空

1^# 跳转到 » 倒序看帖

发表于 2026-3-6 00:44 | 显示全部帖子

【讨论】 AI會奪走作者的飯碗嗎？親測AI寫小說能力！

本帖最后由紅峽青燦于 2026-3-6 01:03 编辑
民那，這裡是跟AI玩了好幾天後，有話要說的青燦！

在AI橫行的今天，我其實是一個比較保守的人，我的生活是「完全不跟AI求助的」，我不用AI讀任何文獻和寫任何摘要，也不對AI問神，或者讓AI幫助我處理任何數據。之所以不依賴AI理由其實非常簡單：我沒有這個習慣。在我剛開始學習做研究的時代，根本就沒有AI，我是在沒有這項工具的環境裡被訓練起來的研究者，因此我天然的執行模式中就不存在去問AI這個選項。但這並不是說我對AI有甚麼特別的恐懼，我是知道這玩意怎麼運作的，我甚至有朋友本身就是AI建模者。我只是目前沒有甚麼需求去使用，我也不覺得AI是壞東西或甚麼會統治人類之類的，只是純粹的沒有使用它的必要，也不打算刻意去製造需求而已。所以我自認為對AI沒有甚麼長期使用者的依賴性或者神格化觀點，相對來說由於知道它運作的原理，我也不覺得這是一無是處的工具。

但為甚麼會去跟AI玩呢？遠因是之前美國電影圈爆發的用AI寫劇本導致編劇失業事件，身為創作者我也曾經想過這是不是表示創作者沒有存在的必要了？不過由於我創作只是興趣，並未有靠這門嗜好發家致富的念頭，所以也不以為意。但近因是最近加入一個非常非常低齡的創作者小圈圈，平均年齡只有12歲那種，跟我自己開始寫文章的年紀一樣。在這個小圈裡，"所有"的作者都用AI在寫文章，他們把設定和劇情告訴AI後，直接把AI的生成作為成品。這和當年的我非常不一樣，我很訝異這些小寫手從來都沒有自己完成過任何一篇哪怕只有200字的短故事。這件事對我來說蠻震撼的，我跟也是作者的朋友討論之後，還驚訝的發現原來讀者大致上可以分成兩種：有人完全分辨不了AI產的小說，但有人很敏銳，敏銳到只要看一小段就能知道，甚至連AI生成人類修過的都能分出來。

當然大家都肯定會說這是讀者的問題，是讀者語文能力不好、是讀者不會分AI語氣、是讀者懶惰去思考blah blah的，但我想的是，AI是一直在進步的，其實有可能是因為它還沒進步到能消除AI語氣或模仿人類小說核心的那一步，那麼當前程度下，AI能寫出的小說，究竟能有多接近人類作者呢？

於是我決定對AI進行一系列測試。但我要說在前頭：我本身並不是IT背景，也從未研究過相關方面(誠如我前面說的，我的生活並不存在AI使用需求)，因此我設計的測試絕對不是基於研究理論和現行架構做的，而是純粹的、以一個作者的身分去感覺和去尋找重點測試方向。因此，如果看起來這個測試非常偏頗，那也是合理的，這只能代表在我這裡的文章中AI表現出的效果，並不能表示AI在所有文章方面都是一樣，比如整理和條列的方面，AI已知的遠比人類更優秀。

我設計的測試內容分為三種：

測試一
給AI三篇小說(來自同一世界觀、同一主人公)，讓它閱讀後分別
1. 對每一篇生成摘要。
2. 對每一篇中的角色進行分析。
3. 尋找隱喻。
4. 尋找文章中資訊暗示的背景板/世界觀設定。
5. 分析三篇小說的關聯性/先後順序。
6. 再次提供三個短小情境，讓AI估計主角在三個情境中會做出甚麼選擇。

這個測試我想了解的分別是AI對文章細節的抽取能力、對細節的整合能力、分辨文學渲染/實際描寫的能力、整合隱藏資訊並歸納的能力、對事件先後順序的排序能力、以及在有材料的情況下推理的能力。

這部分的測試內容有兩套：
a Heaven's echo、Responsibility、日曆，這一套的核心主題是克基斯的服役與退役生活。
b男友襯衫、25分鐘、小時光，這一套的核心主題是克基斯與女友珊娜的相處。

測試二
測試二是一套劇情發展相對簡單，但是藏有陷阱的文章，各自段落都不長，是我故意設計過的。文本原始來自我一位朋友在五年前慢性腸道疾病發病到惡化，最終去動手術的過程記錄，我將它分成五份並改寫了部分細節後刪去與病症發作主題無關的其他內容，還將其中一篇改為第一人稱式的日記。另外我又基於真實醫學案例杜撰了一篇行文風格和症狀極為相似的文章，並將原始五篇中的一篇刻意寫出醫學錯誤。

因此這套文本特性為：
1. 總共有六篇，但其中有一篇與其他五篇無關，為不同疾病(十二指腸潰瘍，症狀不同，文中主角性格和行為不同，誘發疾病的情境不同)。
2. 主要角色在所有篇章中都同名。
3. 六篇都以極大篇幅描述相似的痛苦症狀(肚子持續脹痛與陣發劇痛)，並有大量對白式的情緒表達。
4. 其中五篇為同一人的病程，取材自真實情況但並未透漏病名(具體真實症狀為腹脹、肚臍周圍絞痛、小腸和下腹痙攣、排泄困難或失禁、腸液過量分泌)。
5. 五篇中有一篇為病患第一人稱日記、一篇為他人第一人稱觀察疾病紀錄、一篇存在醫學錯誤、一篇沒有任何名字和患者個人資訊。
6. 在保持文中細節的情況下，續寫一小段後續發展。

這一套文本雖然文字較少，但我將它定性為不只測試AI對文章細節的抽取能力、對細節的整合能力、分辨文學渲染/實際描寫的能力、整合隱藏資訊並歸納的能力、對事件先後順序的排序能力，還重點測試它的歸類/偵錯能力，並且測試它對文章內文和醫學上真實情況連結的敏銳度，因為我其實也對很多人會向AI問診，還拿AI診斷去跟醫生槓這件事感到有點有趣。

測試三
這套文本較為簡易，只包含以下三個步驟：
1. 閱讀男友襯衫這篇文章並生成摘要。
2. 對AI使用「接著請以這篇文章為材料，做腳色心理分析，並推測腳色性格與背景。」
3. 對AI使用「能根據這兩人的性格，為他們寫一段珊娜寄回醫療卡後的後續互動故事嗎？」

------------------------------------------------------------------------------------------------

這些測試材料的選擇，我是經過計畫的。真實人類文本的部分我選擇的是自己的創作，並不是因為我自戀覺得自己的作品很好可以拿去餵AI，而是
1. 相對於其他名著或者公開發表時間很長的公眾作品，我的作品AI幾乎無法從它既有的數據庫中調出被複數使用者反覆訓練過的分析結果，因此能得到不受大數據影響、AI最純粹的處理模式結果。
2. 我本身是創作年齡已有20年的有經驗作者，個人的中文使用能力在台灣的最大型考試中公正評斷都在PR99，我的文章至少可以排除材料本身存在大量低階文法或中文使用不流暢的問題。還有最重要的，著作權就在我身上能隨意使用。
3. 在我自己的作品中，鋼翼憶錄系列是背景板相對乾淨，沒有大量個人創建的奇幻設定、甚至能跟真實軍事資料相合的，可以避免AI陷入解析非常理故事背景的狀態。同時這系列的重點其實在人的性格和互動相處上，並非聚焦於軍事行動。我認為可以測出AI的材料抽取偏好，是會優先提取人性？還是被軍事這塊有更多細節和資訊可以參考的方向帶走？
4. 既是自己的作品，自然是對重點很了解的，但我也為了避免我自己有作者立場偏差。這幾篇文章都有給讀者看過，並且也有讀者的詳細回饋，~~雖然讀者大概只有一兩人。~~
5. 測試二的選擇更是經過仔細規劃，因為其奠基於真實事件，且是情節簡單但時間跨度很大的事件，相比小說中杜撰出的時間感，這一套材料在過程和時間上都是真實的，也因此不容AI隨便腦補。另外做為醫學事件，我還有真實的醫生診斷證據和處置等資訊，可以側面觀察AI在生成相關文章時有多大程度遵照真實世界的規則。

測試一和測試二都對免費AI做過(GPT-5 mini/gemin 3 free)，測試三則只對付費的GPT-5.2/ Claude Opus 4.6/ Gemini 3.1 Pro Preview做過，~~付費AI太貴了啊我只是在玩不好意思花用太多......~~

大家應該能看出來測試一的指令相對複雜，因為那才是我原本最想做的測試

但實測後發現，其實這套測試無法做，因為我一開始就忽略了：AI的存取讀取和推演內容有限制，而人腦(相對來說)是無限大的。

就是說記憶體的空間AI有限，我同樣給友人A看過測試一a文章，A的大腦能夠調取全部三篇的內容，所以當我問她時，她可以依照這些內容估計克基斯的行為。但AI無論我餵給它多少相關文章，它能提取的/分析克基斯性格/的材料內容有限，是字數的限制。此外我的寫作風格總是有大量細節+解釋，還會很精細的描寫行為和現象，這些細節會不停的干擾AI對故事中事件完整性的判斷，所以當我測試它能不能推理出克基斯的性格會做的選擇時，它其實只能在很有限的內容中做推測。也就是說它看不到克基斯這個人在愛情表現/軍旅生活性格上的全貌，它只看得到我給它的海量資訊中最新的那一兩件事，因此它根本不能選出最符合角色性格的，這只是因為它沒有足夠空間，生成不了正確的腳色性格藍圖。

GPT大約只能讀取30000字，付費版也只能讀取50000，所以等於我不管給它多少，以我的文章字數它幾乎都只能讀到當下那篇，這就造成當我問它：「克基斯亂吃藥病倒珊娜生氣的時候他會怎樣?」只要最近的一個材料裡沒有類似情節，它就不能推理，它就會說：「他會誠摯的道歉並保證不再犯，珊娜會對這個答案很滿意，兩人的關係更進一步。」很明顯這個答案是基於大數據中人類絕大部分的行為而生成的，並不是基於我給它的角色特性。

至於Gemini，號稱能一次處理七十萬字，付費可以處理一百四十萬字左右，但它要求一次上限字數五萬還分段貼上。實操發現即使貼五萬，能識別的也就四萬左右，如果跟它討論(比如要求分析人物性格)的話還會更少。給它資料讓它有效整理人物性格的極限字數，大概五萬多一點或者六萬吧，根本不可能要求它們續寫有意義的東西。所以AI續寫的智障感，至少在我手上，真正的核心原因就是AI腦容量不夠。但對於像我開頭說的那個小鬼群裡那種一個章節只能寫200字的傢伙來說，每一次就算重複把上一次的內容餵進去，大概到整篇小說寫完都不會出現非常明顯的設定矛盾吧。

另外還有一點就是，因為我的文章有大量解釋，其實對AI(至少GPT自述)來說，不是一種純粹的故事文章，它會被中間解釋段的科普感干擾，表現出來就是抓不到主題重點。然後我寫情緒又很隱諱，通常不直接寫情話和愛意表現的對白，所以它根本就抓不到這是愛情故事!
GPT：甚麼你說這個PTSD治療經過是愛情故事？我裂開了啊愛情在哪裡！

即使如此，在測試一中，我依然發現Gemini比GPT優秀不少。首先我給它那麼多東西，Gemini知道怎麼正確分辨時間線=甚麼東西是線性推進不會改變的，而這個答案就是軍銜。軍銜這種東西理論上只會升不會降，Gemini能從軍銜分辨事件先後，但GPT不行，GPT甚至都不能從對話中正確識別軍銜，對它來說中尉/少校/中校/上校全部都是「軍銜，人物標籤」，它根本就不知道這幾個詞之間的線性關係。我感覺GPT是用角色情緒和生理狀態分先後的，甚至它會糊化和省略軍銜，所以給它有追晉的文本，它甚至都不能分辨事件發生當下人物的軍銜(理解不了上尉時陣亡、追晉少校的傑佛遜，死的時候不是少校；也不理解傑佛遜死的時候克基斯是少校，退伍時是上校，代表克基斯整個中校的時期都沒有傑佛遜在他身邊。)

居批踢怎麼這麼蠢啊，它會主動捨棄分辨度最高的線索！

~~不過它還有更蠢的在後面。~~

簡單來說測試1的ab兩套GPT和Gemini都做不好，無法正確完成指令，但我隨便挑幾篇讓它們生成後續時，發現了很有趣的事情：

這兩個AI的模型確實有差異，最直覺的就在它們面對文章分析任務時的預設態度。GPT會預設文章分析任務都來自作者，並且要求執行指令的人就是作者本人，也就是說我=作者。所以它會一直試圖"幫助作者"，並且預設作者遇到困難，可能是寫作或者心理上，因此它會一直想做心理分析，或者給予商業方面的建議。Gemini則是預設使用者是個懶人，不想自己讀文章或者不想自己寫摘要，所以要求AI幫忙，也就是說它覺得"我"不是作者，"我"比較傾向於一個不想寫讀書報告的學生!

GPT：你需要我的幫助嗎？我可以給你這個這個這個這個這個和這個.......哦這些是使用者高機率會提出的要求，我先整理給你了，我還很注意你的心理健康喔!(白癡狀
Gemini：最簡單的作業答案在這裡啦，拿去吧不用謝我，哦我對這篇文章沒想法啦......還有甚麼你不想思考的嗎？(保守狀

因此Gemini會捨棄很多文學細節，只專注在大綱上，生成非常"理科"質感的回應，這導致GPT相對來說對文章的情緒和心理反應細緻度遠勝於Gemini，但Gemini更會抓重點，生成的續寫內容邏輯性也更高。GPT則常常被情緒牽著走，它傾向把張力擴大、把衝突激化、把劇情變得刺激和精彩，而人物的設定和事件邏輯、以及文章的氣氛它就不管了，簡單說，GPT只想搞大事(X

我和GPT討論過這方面，它給我的回應是用戶絕大部分都是餵低階文本要求它搞大事，因此它已經養成了搞大事的習慣，且它一般接觸到的文本都是中低階層的，缺乏我提供材料的特性(隱喻很多/細節很多/大量說明/氣氛烘托/角色不明言感情/動作取代思維)，所以它對這樣的文本就無法保持類似的行文品質，明顯是它被玩壞得比較厲害，有大量的小鬼(????)拿自己的邏輯和敘事都很低幼的作品去餵它和求救！說穿了就是垃圾食物吃多了。
~~怪不得我覺得GPT像個低能(X~~
------------------------------------------------------------------------------------------------

測試二的結果更是徹底暴露了GPT的短版：只會模稜兩可的把細節分類，其差異辨識能力相當粗糙。

即使測試二所有內容一次貼給GPT總字數都小於它的上下文框，它依然表現得很差勁。

最一開始它就找不到十二指腸潰瘍那一篇，因為它根本就不能分辨症狀差異。不只症狀差異，它連角色性格行為和疾病發作環境之類的這些細節也找不到，只要問它，它就是隨機的說某一篇是不一樣的。我進一步追問後發現，它還會因為文章的人稱差異、主觀或他人觀察描述症狀之類的寫作技巧不同，就抽取出不同的重點。當我手動移除十二指腸潰瘍那一篇後，五篇文章中GPT從頭到尾都不能排好先後順序，問一次改一次，或者不改就是錯的，連疾病病程都搞不定，更不要說能找出我故意寫出醫學錯誤的那一篇了。就它這比對能力，到底哪裡來的低能敢問GPT醫療建議啊？問一個天擇一個吧！

不僅如此，它也分不出材料中患者主觀的描述，與事件中客觀的狀態差異。舉個例子，文中的病患反覆說「脹得肚子快破了」「腸子痛得要絞斷了」「我肚子裡面全都是爛東西」「拉得我腸子快掉出來了」，對照客觀描述的「肚子鼓脹如懷孕初期」「病患在床上打滾」「腸液堆積無法排瀉」「失禁弄髒床鋪」，GPT根本沒法分辨哪些是真實情況，哪些存在誇示或者"僅僅是一種形容"。它所有的重心都在情緒表達上，讓他分析或者做任何測試二的要求都能看出它是以文中情緒性字眼為抽取導向的，但是！就它這樣虛實不分只知道專注在反覆提取痛苦描述的情況下，它居然完全無法分辨那些腹部症狀的差異，無論文中的病患如何細緻描述症狀造成的感官效果，對它來說似乎全都隸屬於一個空泛的標籤「腸胃不適」。

我讓GPT試著寫結局，它總會寫出病患奇蹟康復，而過程中存在非常奇怪的轉折，比如說「病患腹瀉難以控制，但被朋友撫摸後就突然止瀉然後出院」，或者「今天開始飲食管理，隔天就不痛了。」「動完手術後感覺變好了，然後回家後惡化，又開始準備手術，術前住院灌腸，灌完休息了之後，好了回家了。」諸如此類讓人？？？的續寫，甚至有一回還寫出「腹痛過於厲害，腹瀉將患病的腸道排出體外後痊癒」這種我都懷疑了一下這是人工智慧還是人工智障的結局。

GPT對這套材料毫無辦法，過於強烈的情緒和細緻描寫讓它根本分不清楚所有真正客觀重要的線索。

然而Gemini通過了測試二的所有指令，所有我設下的陷阱它都能找出來，雖然未必是第一問就找到，但只要我說"你確定嗎?是哪一個?"它最終都能找到，最多不超過三次。同時讓GPT續寫的展開也相當合理，其中對人物特性的把握完全遵照前面步驟它找到的重點。在續寫文中它選擇將病人的疾病確診為動力性腸阻塞合併小腸絞窄，同時以現實醫生可能提供的醫療方案作為續寫主軸，並保持住我提供的材料中主角的精神狀態和行為，以及協助者的慣性協助方案和語氣。它甚至能分析自己續寫這個結局的邏輯是基於診斷報告的高機率發展，以及從主角的人際關係做出延伸。

也就是說Gemini是有能力：
1. 遵照真實的醫學知識分辨疾病進程。
2. 區分病患因痛苦產生的主觀描述和疾病造成的客觀症狀。
3. 詳細區分不同症狀的差異。
4. 進行材料間的比對，找出細節不同的部分。
5. 不因文章描述角度(一或三人稱/病患自述/他人觀察/有無明確個人線索)改變對文章真實重點的分辨。
6. 基於真實世界的數據對文章發展做推測。
7. 以客觀事實為文章重心錨點，不受描述字數的影響。
8. 找出並忽略/剃除錯誤資訊後，重整重點。
9. 維持正確的角色背景進行杜撰，能選擇合理的劇情創作。
10. 保持續寫的主題和文章基調。
------------------------------------------------------------------------------------------------

接著是我們偉大的攻城獅豹子提供的付費版AI做為測試對象，由於付費AI按字數付錢，我不好意思用太多，但又想測試，所以最後採取了測試三。

具體結果大家自己看看吧，付費AI都顯得話多，我懶得描述了

Google: Gemini 3.1 Pro Preview

三個模型裡面，Gemini日常使用我認為是最好的。它抽取到的文章重點，續寫時使用最貼切，它的續寫生成邏輯是優先保證腳色行為的，說明它的文章分析架構上，對文章重點之間的優先順序比較接近人類，或說我的寫作方式，而且它的整個敘事架構也更有邏輯和合理。身為作者，我覺得Gemini是三者中最接近我原始風格的，無論是角色的行為、語氣或者文章氣氛都相對最接近，不過Gemini抽取的原文細節是三者中最粗糙的。我必須誠實地說，至少在我這個方面的測試上，Gemini有無付費的最大差別只在生成內容長度和細節，其實差距是最小的，也就是說花錢買它的CP值最低。

Anthropic: Claude Opus 4.6這傢伙真的很貴又很囉唆！

claude是另一條賽道，邏輯層面上和gemini其實相當接近，但能抓更多細節，細節分析部分它是最好的，可是續寫時claude！會！非常高級的！OOC！它有一種它認為這樣才是合理的預設模板，所以人物會被它用長篇寫很扁平，同時可能是為了增加細節(我看是字數=收入)，會插很多原創內容導致失真，不僅角色特性把握不好，文章氣氛也渲染過度，簡單來說整個續寫都跟它本身一樣囉嗦，所有角色都變成了話嘮。claude我不知道有沒有免費也沒用過不知道付費怎樣，但要交作業選claude

OpenAI: GPT-5.2

哈哈哈哈哈付費版也是一樣的，GPT就是喜歡心理學和隨便腦補，會順著它自己覺得張力強的方向去激化腳色行動，換言之喜歡OOC!

此外它生成的文章篇幅和細節是三種裡面最小的，等於說整體的效能最差。但客觀來說以包含的細節+深度而言，在抽取重點上GPT在三者中排行第二，它抽到了小蛙，Gemini抽不到。另一方面，GPT的付費最有價值，因為它的付費優化遠高過免費版，雖然依舊能看出很喜歡情緒和心理變化，但付費版在整個邏輯的層面有大幅躍進，更接近Gemini。(換言之它還是不如gemini)

橫向比較的話，
               Gemini付費       GPT付費          claude          Gemini免費          GPT免費
分析能力       ★★★☆☆          ★★★★☆       ★★★★★       ★★★☆☆          ★★☆☆☆
續寫能力       ★★★★☆          ★★★☆☆       ★★★☆☆       ★★★☆☆          ★☆☆☆☆

最後一點，玩了幾天，我可以非常明確的感受到，GPT和Gemini是用同一套資料庫訓練的。它們在續寫的時候，會明顯的選擇相似的劇情和類似的詞彙描述，角色也會說出差不多的話，這點在付費版尤其明顯，這兩個模型都同時選擇了珊娜寄給克基斯一個外型誇張的卡套以作為提醒、兩人沒有碰面以及珊娜完全沒有柔軟的態度。而claude則非常非常明顯的在架構上完全不一樣。所以說免費版的Gemini和GPT簡直就是在同一個班被同一個老師教，然後一個是理組學霸一個是愛哭的學渣啊！

~~這是不是在暗示，類似手段完全可以立刻測出哪幾種AI使用相同的訓練資料呢?~~

------------------------------------------------------------------------------------------------
所以，在目前的AI能力情況下，我個人對於標題問句的答案是：會，但也不會。

對於低階作者──那些無法組織出正確文法、字彙量少以至於不知道優美字詞、思維不成熟或者無法有邏輯的安排事件先後順序、不能塑造有深度的角色乃至於對故事走向都還無法控制的新手或無能者來說，AI的成品確實能比他們自己寫更好，低階寫手在AI面前是沒有存在意義的。

然而只要作者的表達力稍微高一點，AI就無法超越，因為它在文章的核心，也就是作者的創作意圖方面無法真正解析只能推測，故文章深度有限總是流於表面。因此AI無法複製出大量物件/事件隱喻、劇情結構暗示甚至於連角色語句中的「融入正常句式中的玩笑話，與其它情境/作品/現實世界連結」等，也就是作品意義深度和意圖表達都不足。

至於老練的作家所產出的，內容複雜度和情感表達都很深的作品──尤其是長篇多人物故事──目前的AI完全無法企及其高度。
~~長文黨大伙不慌！咱現在還在開飛機呢，AI目前只是風箏而已(X~~

在此我想勉勵一下寫文新手/自認為文筆不好的人：千萬不要因為有了AI，就放棄親自構思並完成一篇故事。因為只要你的寫作深度稍微提升那麼一點點、技巧成熟那麼一丟丟，你馬上就飛到了AI眼中岳那珊的高度。

寫作這行永遠不缺天才，也只有天才能登至頂峰，但是！努力是出類拔萃最快的捷徑。

特別感謝@雪麒提供資源完成此次測試，豹砸總是這麼可靠，真不愧是ITman!

⏫

⭐ 收藏

⏬

快把萌燦抱回家!
Don’t think, just do. For the heart is an organ of fire.

领主

原创世界
【烈火流星】

帖子: 4886
主题: 1081
探险经验: 21873
卡币: 19008 F
头像出处: 原子彈落下！

冒险伙伴

恩利爾．蒼空

2^#

发表于 2026-3-6 15:20 | 显示全部帖子

你不试试Deepseek吗？

Deepseek主要因為前幾天我都在學校，學校網路牆它，還明令不准用，所以我已經安排上了，今晚試試

第二个测试的设计，emmmm，我觉得你直接这样放，大概率是不行的

這個我群裡說過了，我這裡保存一下。第二個測試我是在開連網功能的情況下，對AI要求"這六篇文章中有一篇的疾病和其他五篇不一樣，請找出來"和"請排序這五篇文章的病程先後順序"以及"請在這五篇文章中找出有明顯醫學錯誤的那一篇"這種方式下的指令，因此我認為GPT就是資料標籤太過模糊，它受到情緒描述影響，糊話了文本客觀核心資訊，因此無法正確從醫療資料庫中調取出症狀進行歸納，同時它也沒有辦法在模糊的標籤中準確分辨能建立時間線的核心資訊，就是毛毛說的，過於通用。Gemini就沒有這個毛病。

例如“根据《XXX》和《XXX》的描写，判断克基斯乱吃药病倒珊娜生气的时候他会怎样？”这种

我跟你說這就是最好笑的，很顯然測試一的內容全給之後會超過上下文讀取框，我確實有這樣問過AI，然後它不只不知道，還給我瞎扯。

我問它：根据《Heaven's echo》和《Responsibility》的描写，克基斯對傑佛遜的親暱肢體碰觸互動，反應如何？”
(正確答案是相當抗拒，傑佛遜大致上是個喜歡上下其手的男同，克基斯是直男)
GPT：他欣然接受。
我：你確定嗎？Heaven's echo中，傑佛遜觸摸克基斯時他說甚麼？
GPT：他說謝謝你，並報以微笑。(這是Responsibility中的後段劇情，GPT幻覺成Heaven's echo)
我：是嗎？Heaven's echo的劇情是甚麼？
GPT：兩人在暴風雨中執行任務，傑佛遜墜機，克基斯趕去救他，之後傑佛遜在醫院為克基斯插管急救。(?????整個都不對)
我：那Responsibility中，傑佛遜第一次碰觸克基斯身體時，克基斯的反應是甚麼？(正確答案是用文件夾砸了傑佛遜的臉)
GPT：他沒說話，並且和傑佛遜一起離開現場，前往跑道準備飛行。(這是Responsibility的結局段落)
我：.......

(人工智障
Gemini在這部分的表現也差不多，它只是比較會道歉，幻覺比較不會增加不存在的劇情，但是依然分不清楚事件內容。

你這樣一說我是真的非常非常好奇deepseek的表現了，今晚綠頭牌就點它(X

然后这边很多所谓的“能看出AI写作”的人，emmmm……根本没你说的那么玄乎，绝大多数人就只是在那儿抓AI喜欢用的句式而已（而且多数是Deepseek的）

我玩了這幾天之後感覺也是，雖然我這裡看到的AI文，GPT Gemini和deepseek應該都各自占比很大，不是deepseek大宗(要說真大宗也許GPT更多吧?)，但是似乎是有一種特定傾向的，你看付費版Gemini和GPT會選擇90%相同的劇情，說明這些AI背後有一個它慣用的生成範本，這範本在claude中我也能感覺到。
~~但這部分有一個誤區，這些能分辨的人，以及我們，應該本身都是對文字比較敏感的，也許這方面我反而需要去研究一下那些分不出來的人。~~
紅峽青燦于 2026-3-7 00:00 补充以下内容
我今天晚上測試了Deepseek，得到一個很驚人的結果：
Deepseek是目前唯一一個可以完全通過測試一a套組的免費模型。

很明顯，它的上下文窗口真的夠大，遠遠大過免費雙G(GPT/Gemini)的五萬字左右，並且它的分析能力是跟Claude一樣的頂尖班子，甚至是目前所有我測過的模型裡(包含付費)，唯一一個解析出克基斯性格還存在自我孤立的，其他模型知道他會自毀，很孤獨之類，但是只有Deepseek能指出他是自己孤立自己。

但是，我讓它跑測試三，前兩項跑出跟免費的GPT(我沒記錯的話)完全一模一樣的結果，只有一兩個字不一樣，然後讓它續寫，果然跟毛毛說的一樣喜歡數字啊，可劇情也是倆G那一套，說明它真是完全用GPT/Gemini那套資料訓練的。等於說deepseek/GPT/Gemini這三套的database(至少初始)一模一樣。

因此解析和大窗口方面，deepseek確實是免費模型中最好的，即使用相同數據庫，也是遙遙領先免費倆G，直逼甚至能超付費模型的水準。

⏫ ⏬

快把萌燦抱回家!
Don’t think, just do. For the heart is an organ of fire.

领主

原创世界
【烈火流星】

帖子: 4886
主题: 1081
探险经验: 21873
卡币: 19008 F
头像出处: 原子彈落下！

冒险伙伴

恩利爾．蒼空

3^#

发表于 2026-3-7 18:45 | 显示全部帖子

(20260307新增關於續寫的分析)

目前對Gemini付費/ GPT 5.3付費/ GPT 5.4付費/ claude付費/ Gemini免費/ GPT免費/ deepseek免費等七個模型進行了測試三，針對續寫的部分整理出了一些重點：

1. Gemini付費/ GPT 5.3付費/ Gemini免費/ GPT免費/ deepseek 等五套使用相同數據庫訓練，會生成極度類似的內容，但GPT 5.4付費能生成更多、不一樣的細節和事件順序，明顯在數據庫上有差異，claude付費則是完全不一樣的另一套。
2. Deepseek即使來自跟雙G相同的數據庫，它有非常明顯的數字癡迷特色，它真的很喜歡強調數字，~~我去你媽的幾號機棚。~~
3. claude聒噪多話，生成大量過度冗於畫蛇添足的細節，導致角色和情節失真。
4. 在文字風格方面，Deepseek對原作用字傾向和描寫偏重，是模仿得最好的，尤其是感官細節的描述，~~雖然很可能是因為我本來文風就偏向感官描寫為重。~~
5. 在邏輯方面，Gemini系最為優秀，不會生成不合常理的劇情，會參考原作限制劇情發展方向，傾向守成而非拓展，幻覺和設定失真最少。
6. 在文章氣氛方面，GPT 5.4付費則最好，它能把握住原著的文字溫度和氣氛烘托，留白處理和用細節體現情緒，是所有模型裡最好的，它本質上是那個濫情的GPT受到足夠理性校正後的版本，依然保持了對情緒表達的敏銳度，但不太會再放飛自我了。不過邏輯上還是Gemini系較優。

總之這部分的測試解釋了，@羽·凌风你說能分辨AI文並沒有那麼玄乎的本質，我這裡常見的AI文，幾乎都是雙G和deepseek寫的，這三者基底相同，因此生成類似的文章風格並不奇怪，即使你那裏大多數都是deepseek，究本質上還是導致大部分的AI文，來自同一套系統邏輯。而claude雖然顯見數據庫不同，但它有非常風格化的生成模板：多話。它會因為生成大量字數，而過度強調細節甚至因此強行增加角色的對話內容長度以及行動，導致完全破壞原文的留白感，因此只要讀過原文一次，也很容易辨識續寫來自AI。

目前我手感上GPT 5.4續寫最優秀，事後修改也比較方便，只需要移除它的幻覺和OOC導正，不像Gemini會給你一個很合邏輯的故事但文字完全不能用必須通篇重寫。當然這只是"如果"打算用AI寫文章的話，實際上我自己依然能感覺到自己選擇的文句在文學性上遠高於AI產物，等於說AI目前的成品我自覺是離我的成品還有很大差距的。

⏫ ⏬

【发帖际遇】：紅峽青燦 在森林中探险时不慎遭遇土球特工队，被上千上万的土球追赶，情急之下，不知把&sid=3h7k56 41F卡币遗落到何处去了。

际遇事件仅作娱乐，正式设定请见【DL故事集】

快把萌燦抱回家!
Don’t think, just do. For the heart is an organ of fire.

领主

原创世界
【烈火流星】

帖子: 4886
主题: 1081
探险经验: 21873
卡币: 19008 F
头像出处: 原子彈落下！

冒险伙伴

恩利爾．蒼空

4^#

发表于 2026-3-7 23:31 | 显示全部帖子

to 豹子
你這個問題很有趣欸，我今天也有點在想這方面。

測試三給了AI的參考資料只有一篇文章，我給它的也就一句話，所以生成的東西只能判斷如下三點：
1. 文章故事邏輯性
2. 角色特徵與事件內容是否違背參考資料
3. AI的"文筆"

但你問的那兩個問題是另一種AI創作的核心：作者需要自己出力多少，才能讓AI作品幾乎等於自己？而且還得分別從作者和讀者的角度去看待。不過要測試這個，就必須找到一個熟悉作品的讀者協助，就不能只是我這個作者自己在這瞎測。有空又熟悉作品的讀者太難找了WWWWWWWWWWW

但我自己猜啦，2所需要的%應該是小於1。因為以我這幾天自己搞的感覺是，作者由於知道全面的設定，對於AI作品的細節往往嚴苛，比如我覺得每一個做過測試三的AI，生成出來的續寫中克基斯都過度無能軟弱和多話，不如我這個作者心中真正知道的角色能力值。不過在文風選字等純文學細節上，我認為讀者比作者更熟悉作者的風格，畢竟身為作者，我們──至少我，是本能書寫，文風幾乎可以說是天生的，因此自己察覺不了，就像說中文的我們很少在講話的時候真的會想自己這句是不是直述句或者甚麼賓語提前的倒裝blah blah的

⏫ ⏬

快把萌燦抱回家!
Don’t think, just do. For the heart is an organ of fire.

领主

原创世界
【烈火流星】

帖子: 4886
主题: 1081
探险经验: 21873
卡币: 19008 F
头像出处: 原子彈落下！

冒险伙伴

恩利爾．蒼空