原文來源:硬核看板
圖片來源:由無界AI 生成
還記得前不久被AI高考作文刷爆的熱搜嗎?
有人覺得AI的寫作水平已經超越了大多數人,也有人說AI上場只能考0分
高考成績開始放榜,我們也查到了AI的分數......
本次出征的兩位AI選手,是來自微軟的ChatGPT-4和來自百度的文心一言。
它們分別作答了全國甲卷的作文題之後,三位來自不同地區的教學一線的老師模擬高考閱捲進行了打分。
從作答速度上看,文心一言更勝一籌,29秒寫了1103個字;而Chat GPT-4,1分42秒只寫了846個字。
從行文上看,文心一言的作文全文引用了大量名言,舉了不少例子,並給出了三個“讓時光為我所用”的方法;
Chat GPT-4先是肯定了技術帶來的便利生活,又說了技術如何讓人變成了奴隸,最後提出要有選擇地使用技術,理智地安排時間。
你覺得哪個得分會更高呢?
**滿分60分,老師們給Chat GPT打出的平均分是36分。 **
| 可以說是一篇不太令人滿意的文章,這篇文章它過於凸顯出了一種思維定式上的缺陷;
| 雖然比較切題,但整篇文章缺乏一個有效可信的論據;
| 用過多的無效的篇幅去對材料本身的現象進行擴寫,而沒有在創造。大多的都是正確的廢話,真正的建設性的、操作性的、能夠打到痛點上的太少。
再看文心一言的這篇,平均得分42分,閱卷老師們是這樣說的:
| 它是最有文采、論據也最為詳實的一篇,但是我們要知道,引用過多其實也不是特別好;
| 雖然裡面用了大量的這些引用、詩句,還有好多例子,其中還有很多是確實很多考生喜歡用的例子,例如像我在故宮修文物這種;
| 例子舉得很好,但它沒有說清楚、闡釋出人和時間的關係;
| 明顯是想到哪兒寫到哪兒,邏輯性不強、分數不會高,因為他的結構過於陳舊,整篇文章基本是論據導向在往前推進,而不是邏輯導向。
根據高考閱卷標準,一篇優秀的高考作文(一類文),得分一般在50分及以上。
雖然三位來自不同地區的老師,在打分上可能會存在整體偏高或偏低的變量,但綜合下來的平均結果依然顯示:
**兩位寫作速度飛快的AI考生,只能算是中等水平。 **
文章按照算法去完成,會將我們之前高考作文當中的很多積重難返的弊病,一脈繼承下來,很多大家看著好像還不錯的文章,都已經慢慢的不再符合我們高考現在的需要了。
藉這個機會,我們也悄悄進行了一次**“圖靈測試”**。
除了兩篇AI作文之外,一篇出自真人之手的作文也被交給到了閱卷老師手中,看看老師們能不能看出區別。
真人作文的開篇論點是“如果一味依賴於科技,成為時間的奴隸,那麼科技的發展就毫無意義”;
整體上寫了不能沉溺於科技坐享其成、不能逆科技發展之勢一味抵制,要用“中庸”的思想藉助科技,學會自控。
老師們在不知道這是真人作文的情況下,打出了43分的平均分,險勝AI,理由是:
而在**“分辨真人作文”**这个环节里,Chat GPT-4作文里显著的英译中痕迹暴露了它的真实身份,首先被老师们排除在外。
文心一言的作品就比較具有迷惑性,三位老師都糾結過這篇到底是不是出自真人。原因是他們在教學中也遇到過很多想通過引經據典、堆砌辭藻來拿高分的學生。
經此一役,想必大家都看出來了——緊扣題意寫作的AI很難出彩;發散思維更強的人類,深入思考時也難免落入“想太多”的陷阱。 **目前的AI,依舊只是為人類思維錦上添花的東西;**而高考作為人才選拔的一個重要環節,其標準也在不斷演化,比起辭藻華麗的套路寫作,**突破思維定式的創新思考才更勝一籌。 **
10k 熱度
98k 熱度
127k 熱度
6k 熱度
2k 熱度
AI 參加高考能得幾分?看看ChatGPT 4 和文心一言兩位考生的成績
原文來源:硬核看板
還記得前不久被AI高考作文刷爆的熱搜嗎?
有人覺得AI的寫作水平已經超越了大多數人,也有人說AI上場只能考0分
高考成績開始放榜,我們也查到了AI的分數......
本次出征的兩位AI選手,是來自微軟的ChatGPT-4和來自百度的文心一言。
它們分別作答了全國甲卷的作文題之後,三位來自不同地區的教學一線的老師模擬高考閱捲進行了打分。
從行文上看,文心一言的作文全文引用了大量名言,舉了不少例子,並給出了三個“讓時光為我所用”的方法;
**滿分60分,老師們給Chat GPT打出的平均分是36分。 **
| 可以說是一篇不太令人滿意的文章,這篇文章它過於凸顯出了一種思維定式上的缺陷;
| 雖然比較切題,但整篇文章缺乏一個有效可信的論據;
| 用過多的無效的篇幅去對材料本身的現象進行擴寫,而沒有在創造。大多的都是正確的廢話,真正的建設性的、操作性的、能夠打到痛點上的太少。
| 它是最有文采、論據也最為詳實的一篇,但是我們要知道,引用過多其實也不是特別好;
| 雖然裡面用了大量的這些引用、詩句,還有好多例子,其中還有很多是確實很多考生喜歡用的例子,例如像我在故宮修文物這種;
| 例子舉得很好,但它沒有說清楚、闡釋出人和時間的關係;
| 明顯是想到哪兒寫到哪兒,邏輯性不強、分數不會高,因為他的結構過於陳舊,整篇文章基本是論據導向在往前推進,而不是邏輯導向。
雖然三位來自不同地區的老師,在打分上可能會存在整體偏高或偏低的變量,但綜合下來的平均結果依然顯示:
**兩位寫作速度飛快的AI考生,只能算是中等水平。 **
文章按照算法去完成,會將我們之前高考作文當中的很多積重難返的弊病,一脈繼承下來,很多大家看著好像還不錯的文章,都已經慢慢的不再符合我們高考現在的需要了。
除了兩篇AI作文之外,一篇出自真人之手的作文也被交給到了閱卷老師手中,看看老師們能不能看出區別。
整體上寫了不能沉溺於科技坐享其成、不能逆科技發展之勢一味抵制,要用“中庸”的思想藉助科技,學會自控。
文心一言的作品就比較具有迷惑性,三位老師都糾結過這篇到底是不是出自真人。原因是他們在教學中也遇到過很多想通過引經據典、堆砌辭藻來拿高分的學生。