高考,中文世界權威度和認可度最高的標準化考試,世界上最公平的大型選拔考試之一,還在如期進行中。
這項考試制度成熟、人數眾多、標準統一,各科命題經過多輪審定,閱卷過程統一標準、分數精確。考試考取的分數背后,看似是對知識點和做題能力的展示,實則揭示的是其抽象邏輯、信息整合、快速運算和寫作表達等能力。
尤其是邏輯思考和推理能力,是學生時期被重點訓練的素養,是績優生引以為傲的資本,進入社會用來吃飯的看家本事,而當今年大模型深度思考能力全面開花之際,想必大多數學霸會產生一種別樣的復雜的心情。
當然了,高考的特殊性,使其成為了大模型能力的天然試金石。高考期間,哪家大模型解題能力強,綜合評分到底可以上幾本學校,成為很多人津津樂道的話題,今年類似相關的測評文章也零星出現了。
而當隨機測試了下市面上主流通用大模型解答高考題時,結果卻出人意料——這些大模型壓根沒有想要參加高考。
上傳了高考全國卷 I 數學試題后,有的大模型顯示無法上傳,有的則表示無法識別。而一同被 " 禁言 " 的解讀的,還有往年的高考數學題。
事實上,不只是數學難題,國產大模型已經屏蔽掉了 K12 階段學科(語文、數學、英語、物理、化學、生物、歷史、地理、政治)內容的部分推理與解析能力。具體而言是,圖片識題(拍題)功能禁用,高考真題關鍵詞屏蔽,甚至禁止回答具體某年高考題目。
也就是說,在今年高考期間,主流的國產模型廠商,都主動或被動對高考采取了限制措施,這在國產大模型發展進程里還是頭一回。
實際上,ChatGPT、Claude 等國外的大模型可以解答今年高考相關題目,并且以高水平完成推理過程。而大多數國產通用大模型,已經在多項技術指標上持續逼近全球頂級水平,甚至在某些垂直細分場景呈現領先的趨勢,也意味著它們是具備足夠的能力來解答這些題目的。
很顯然,這一次功能 " 降級 ",本質上是一次策略性的行為,也是平臺技術治理與內容安全機制的體現。
當前,多數模型處理高考題的模式是,當識別到題干結構類似高考題(選擇題、大題、簡答題),會直接返回 " 不支持 " 或 " 無法識別 "。而圖片上傳識別時,系統會直接禁掉 OCR 模塊或限制調用次數。與此同時,也對 " 高考 "," 高考真題 " 等關鍵詞自動限流。這是大模型的內容風險識別系統在發揮作用。
這一場高考期間 " 特別監管 ",目前各大廠商未主動發布官方聲明。而最直接的原因,恐怕是為了防止高考考試作弊。因為多數模型廠商直接在頁面給出文字提示,無法支持相關功能,是 " 為了保證高考公平公正 "," 為了確保高考的公平性 "," 重要考試期間,換個話題試試 " 等。
但事實上,目前沒有公開報道顯示,國內已經有利用 AI 大模型在考場作弊的案例(國外大學已有識別學生利用 ChatGPT 作弊而被開除的案例),但確實已經存在一些大模型相關的考試虛假信息和詐騙行為,并且已經被監管部門重點關注。
這里涉及的是,今年高考前,教育部、中央網信辦、公安部查處了部分商家。這些商家利用一些考生、家長的投機心理,將押題當成牟利工具,通過宣稱 " 神預測 "" 精準押題 "、炒作 " 名師押題 ""AI 押題 " 等虛假宣傳手段,誘導考生、家長購買所謂的 " 高考押題卷 "" 高考猜題庫 "" 備考攻略 " 等。
與此同時,當 AI 大模型進入更多硬件設備而非只是手機時,與考試有關的新問題也隨之浮現。今年 4 月,《央視新聞》發出了一個疑問,"AI 眼鏡成考試作弊‘神器’怎么防?" 而 Rokid 創始人、CEO 祝銘明就這一問題答復是," 可能最簡單的方法就是屏蔽信號或者把功能關掉 "。
回到高考本身,這是我國最重要的考試之一,已經納入國家治理的重要領域,現代教育測試學的標準性和普適性,使得高考一直被看作是教育公平與社會穩定的制度性支柱。高考題目及其解析涉及國家教育考試制度,具有高度敏感性和保密等級,任何失誤或越界可能被定性為破壞考試秩序。
而一旦出現泄題或作弊的情況,都會被視為國家級事件。大模型有可能被考生用于作弊,而錯誤解答了真實或類似的高考試題,會持續引發公眾的質疑。
事實上,監管層在今年已經明令禁止 AI 技術干擾正常的高考秩序。5 月 30 日,教育部會同中央網信辦、公安部發布了消息聯合查處涉高考違法有害信息,重點整治的是,炒作夸大涉考不實信息,借 AI 技術生成發布涉考虛假信息,以及,干擾輿論和誤導公眾等行為。
在考試期間,涉及高考試題相關行為,可能被認定為是協助作弊,或者擾亂考試秩序,平臺將面臨監管和法律風險。主流國產大模型目前仍在 " 合規優先 " 的階段,在監管本就密集的 K12 教育領域,冒險展示技術能力,將面臨政策、倫理和市場風險多重壓力。
而其實,如果從技術側考慮,模型廠商限制相關功能,也未必是全然是 " 被迫 " 的行為。因為 AI 大模型的幻覺問題始終難解,同一個提問和提示詞情況下,多次生成的內容也不全然一致,尤其是數理等更標準化的科目,純屬將模型能力的弱項暴露給公眾。
盡管有些模型廠商已經以 " 解答高考題的準確率 " 為賣點宣傳自身,但是,更多廠商為避免出現 "AI 答案 " 和 " 官方答案 " 不一致的尷尬,全部禁止作答高考題,不失為一種較為理性的決策。
不過,大模型的平臺自律與避險機制,在高考結束后,就會陸續恢復對 K12 內容的部分支持,因為市場需求永遠都在那里。
一個有意思的現象是,今年高考期間," 高考期間能用的 AI" 在社交平臺上引起了小范圍的討論,而關注這一話題的,卻是大學生群體。" 正在復習的大學生天塌了 "," 救救大學生吧 "," 高考最大的受害者出現 ",因為當前也正值大學期末考試季。
這些在社交媒體上小范圍的 " 怨聲載道 ",段子式的調侃,說明的是,大模型已經深深地介入了大學生的學習、成長的主線任務。
不同于 K12 的解題答疑,大模型在高等教育中使用場景更為豐富,但也面臨著最為激烈的爭議。一些學校明令禁止使用,但隨著大模型的發展,有的學校和教師也鼓勵學生,以負責任的方式用 AI 輔助學習與研究,并允許在明確聲明的前提下適度使用 AI。
即便如此,考試場景也是被各方排除在外的一個共識場景。
如何劃定學生使用 AI 的邊界,使用場景自然是核心要義。大模型可成為啟發式學習伙伴,尤其是深度思考普及之后。而在考試場景中,尤其是 K12 階段,大模型一旦越界,必然會對公平性構成實質破壞。
可以預期的是,未來一段時間,高考期間,國產大模型廠商相關功能依舊會 " 策略性限制 "。但從長遠來看,"AI+ 教育 " 的變革不會停止。AI 教師已經是各大主流教育科技公司正在探索的方向之一。
教育大模型或者通用大模型的教育相關應用,正確的方向是,以啟發式學習的方式,構建知識圖譜導航,成為教師教學和學生學習的輔助工具,而非一次次簡單答案投喂,成為考試題目的解答機器。(本文首發于鈦媒體 APP,作者|李程程)