測試一
給AI三篇小說(來自同一世界觀、同一主人公),讓它閱讀後分別
1. 對每一篇生成摘要。
2. 對每一篇中的角色進行分析。
3. 尋找隱喻。
4. 尋找文章中資訊暗示的背景板/世界觀設定。
5. 分析三篇小說的關聯性/先後順序。
6. 再次提供三個短小情境,讓AI估計主角在三個情境中會做出甚麼選擇。
這個測試我想了解的分別是AI對文章細節的抽取能力、對細節的整合能力、分辨文學渲染/實際描寫的能力、整合隱藏資訊並歸納的能力、對事件先後順序的排序能力、以及在有材料的情況下推理的能力。
這部分的測試內容有兩套:
a
Heaven's echo、
Responsibility、
日曆,這一套的核心主題是克基斯的服役與退役生活。
b
男友襯衫、
25分鐘、
小時光,這一套的核心主題是克基斯與女友珊娜的相處。
測試二
測試二是一套劇情發展相對簡單,但是藏有陷阱的文章,各自段落都不長,是我故意設計過的。文本原始來自我一位朋友在五年前慢性腸道疾病發病到惡化,最終去動手術的過程記錄,我將它分成五份並改寫了部分細節後刪去與病症發作主題無關的其他內容,還將其中一篇改為第一人稱式的日記。另外我又基於真實醫學案例杜撰了一篇行文風格和症狀極為相似的文章,並將原始五篇中的一篇刻意寫出醫學錯誤。
因此這套文本特性為:
1. 總共有六篇,但其中有一篇與其他五篇無關,為不同疾病(十二指腸潰瘍,症狀不同,文中主角性格和行為不同,誘發疾病的情境不同)。
2. 主要角色在所有篇章中都同名。
3. 六篇都以極大篇幅描述相似的痛苦症狀(肚子持續脹痛與陣發劇痛),並有大量對白式的情緒表達。
4. 其中五篇為同一人的病程,取材自真實情況但並未透漏病名(具體真實症狀為腹脹、肚臍周圍絞痛、小腸和下腹痙攣、排泄困難或失禁、腸液過量分泌)。
5. 五篇中有一篇為病患第一人稱日記、一篇為他人第一人稱觀察疾病紀錄、一篇存在醫學錯誤、一篇沒有任何名字和患者個人資訊。
6. 在保持文中細節的情況下,續寫一小段後續發展。
這一套文本雖然文字較少,但我將它定性為不只測試AI對文章細節的抽取能力、對細節的整合能力、分辨文學渲染/實際描寫的能力、整合隱藏資訊並歸納的能力、對事件先後順序的排序能力,還重點測試它的歸類/偵錯能力,並且測試它對文章內文和醫學上真實情況連結的敏銳度,因為我其實也對很多人會向AI問診,還拿AI診斷去跟醫生槓這件事感到有點有趣。
測試三
這套文本較為簡易,只包含以下三個步驟:
1. 閱讀
男友襯衫這篇文章並生成摘要。
2. 對AI使用「接著請以這篇文章為材料,做腳色心理分析,並推測腳色性格與背景。」
3. 對AI使用「能根據這兩人的性格,為他們寫一段珊娜寄回醫療卡後的後續互動故事嗎?」