“今年深度推理大模型在高考中的表现堪称亮眼★★★,数学成绩已达到130分以上★★★,而去年★★★,大模型的高考数学成绩普遍只能达到四五十分★★★。”一位大型科技公司人工智能工程师说★★★。
今年★★★,大模型在高考中表现优异★★★,有个别表现出色的大模型★★★,已能在满分60分的语文作文取得53分★★★、总分150分的数学取得145分★★★、满分20分的英语作文取得19.5分★★★,展现出强大的综合实力★★★。
专家指出★★★,大模型决战高考★★★,不仅仅比拼的是“题库资源+生成式大模型能力”bt核工场★★★,人工智能技术能力维度只有足够多★★★、足够广★★★、足够垂直★★★,才能真正赋能教育★★★。
更重要的是★★★,成为高考尖子生并非大模型进阶的终点★★★,人工智能不仅懂考试★★★,也懂教学★★★,将为教育打开新的天地★★★。
但这难不住大模型★★★。据某媒体6月7日高考语文结束当日进行的测评★★★,讯飞星火大模型的一篇《以歌为刃破长夜 且将热血铸山河》★★★,被曾参与省级“新课标新技术背景下课堂教学探索”系列重点课题的杨小晴老师★★★、海南省名校校本教材编者曹越老师分别打出了52分★★★、54分的高分★★★,名列六款国内主流大模型测评第一凯发天生赢家一触即发★★★。
这篇文章的“叫座”之处是采用了六段式结构★★★,并且每段都有分论点★★★、分析和论据bt核工场★★★。比如★★★,文章的骨干部分分别以“个体的沉默往往是觉醒的前奏”“艺术的表达从来都是穿越荆棘的利刃”“文明的火种需要在代际传递中永续”牵引各段★★★,紧扣“在逆境中坚守信念★★★,用艺术或行动承担家国责任”的论点★★★,层次分明★★★,起承有序★★★。
评分老师给出了“结构如交响乐章★★★,选材如历史长卷★★★,语言如金石掷地★★★,是一篇兼具思辨性与感染力的考场佳作”的评价★★★。
数学是对深度推理大模型的一场“硬核”检验★★★。据某媒体6月7日高考数学结束当日进行的测评★★★,7款国内外主流深度推理大模型中★★★,讯飞星火表现突出★★★,是唯二突破140分★★★,即便在考生中也达到了“尖子生”标准★★★。而在6月10日另一个自媒体博主进行的测评里★★★,讯飞星火又取得了145分★★★。
参加考试的讯飞星火大模型是在4月20日升级★★★,版本较早★★★,比同场考试的DeepSeek R1早了一个月★★★,但在模型量级更小(70b)的情况下★★★,依然取得了141分的高分★★★。
英语作文与语文作文有一定的相似性★★★,考察的都是语言理解和生成能力★★★。在某媒体的测评中★★★,北京市十一学校一分校英语老师韩宪昌★★★、深圳中学英语教师赵文嘉对讯飞星火的作文分别给出了20分bt核工场★★★、19分的高分★★★,位列第一★★★。
语文作文的六段式结构体现了讯飞星火的谋篇布局能力★★★,而在这篇英语作文里★★★,讯飞星火的作品同样句式多样★★★,结构精致★★★。比如采用了比较巧妙的“twofold”结构★★★,这在选词准确但句式不够丰富的大模型作文里显得独树一帜★★★。
在多项测试里★★★,讯飞星火大模型纷纷拿下语文作文★★★、数学★★★、英语作文的高分★★★,成为高考尖子生靠的是什么?
语文和英语作文考验的是大模型的文本生成能力天生赢家 一触即发★★★,★★★,但高考作文侧重的不是生成一篇文学作品★★★,抑或一篇办公文稿★★★,而是在精准分析题目基础上的作答★★★。
在数据层面★★★,“我们在对讯飞星火大模型进行预训练时★★★,会注重从海量的通用数据中有针对性地挖掘有价值的数据★★★。”讯飞星火研发人员说★★★。
科大讯飞扎根教育已经21年★★★,服务了全国5万多所中小学★★★、1.3亿师生★★★,这些数字背后★★★,是科大讯飞对教育的深刻理解与实践沉淀★★★。且科大讯飞深入各地★★★,积累了海量区域化教育数据★★★,能够精准理解各地考情差异★★★。
在算法层面★★★,写作文场景与生成其他文本的场景颇为不同★★★,更加考验大模型的指令跟随能力★★★。这是因为★★★,在生成其他文本的过程中★★★,用户会不断提问和提出要求★★★,大模型从而得到特别具体★★★、精确的提示(prompt)★★★;但写作文场景下★★★,大模型得到的只有题目要求★★★,且审题难度极高★★★,学生的习作则差别很大★★★,也就是说★★★,一个理解难度高的题目对应着数以万计的差异化文本★★★,这加大了大模型在训练时进行指令跟随的难度★★★。
对此★★★,“讯飞星火大模型基于‘机器思维链’的深厚基础★★★,深度融合优秀教师的实践智慧★★★,研发出以‘教学思维链’为驱动的教育深度推理大模型★★★。”讯飞星火研发人员说★★★。
“训练讯飞星火大模型的优质数据里★★★,曾出现过这种结构的高分作文★★★。深度思维链大模型理解了这样的优质数据★★★,并通过不断地强化学习★★★,学会了写出这种结构的高分作文凯发官网首页★★★,★★★。”
据介绍★★★,科大讯飞在教育行业深耕21年★★★,深度参与中考★★★、高考★★★、英语四六级考试★★★、全国普通话水平测试★★★、全国硕士研究生统一招生考试★★★、全国翻译资格水平考试等重大考试服务★★★,掌握中高考智能阅卷★★★、口语评测★★★、作文批改等同源技术★★★。这也让星火对相关教育数据的清洗更加精准★★★,沉淀下来价值更高的数据★★★。
“我们做了一些技术创新★★★,包括算法上更加强调目标导向★★★,即强调解题过程与答案的一致性★★★;增加了评语模型★★★,以提高大模型解题每一步骤的准确性★★★,并避免用超纲解法答题★★★;对知识点和解题思路进行了数据合成★★★,从而提高大模型解题的泛化能力★★★。”讯飞星火研发人员说★★★。
值得注意的是★★★,擅长深度思考并不必然擅长解数学题★★★。一位数学自媒体博主对今年高考题目进行测评时发现★★★,“一些大模型的推理思维链很长★★★,而有的考题并没有那么复杂K8★★★,★★★,所以导致它想着想着★★★,就想歪了”★★★。
讯飞星火首个推出了★★★,基于快慢思考的统一模型训练推理方法★★★,充分发挥快慢思考数据相互促进作用★★★,实现基于系统指令控制模型是否深度思考★★★。基于问题难度的大规模多阶段强化学习方法★★★,在复杂推理★★★、数学凯发k8天生赢家★★★。★★★、代码★★★、语言理解等场景全面提升模型效果及泛化性★★★;同时强化学习动态更新算法★★★,基于样本采样长度动态调整强化学习更新速度★★★,进一步提升深度思考强化学习效率及效果★★★。
答题还建立在一些底层技术基础上★★★,比如OCR能力★★★。只有更加准确地识别凯发天生赢家一触即发★★★,才能让大模型更加准确地理解★★★、更加准确地思考★★★、更加准确地答题★★★。科大讯飞的语音★★★、图文识别技术则屡获国际大赛冠军★★★。正是因为在图文识别★★★、自然语言理解★★★、智能评测等方面的突破★★★,科大讯飞10年前率先在高考中参与了智能辅助评卷的探索★★★。
其实完全不会★★★,高考的目的是考查学生的关键能力和核心素养★★★,人工智能赋能培养学生关键能力和核心素养的表现★★★,远远超过了在高考考场上的表现★★★。
当人工智能具备深度推理能力★★★,人工智能赋能教育正在从提升学习成绩升级到提升学业能力★★★。一方面★★★,人工智能实现了作业批改★★★、学情分析★★★、类题推送等方面的重大突破★★★,从而帮助老师和学生更好地教与学★★★、提升学业成绩★★★;另一方面★★★,人工智能基于问题链与思维链进行深度推理★★★,通过苏格拉底式引导帮助学生真正掌握学习方法★★★,做到因材施教★★★。
“同学们★★★,我现在将立方体的这一面填满红色★★★,我们再一起看下这个立方体的展开图是什么样的★★★。”在枣庄市第九中学的课堂上★★★,数学老师王宁在AI黑板上画出一个立方体★★★,点击“展开”功能凯发天生赢家一触即发凯发天生赢家一触即发★★★,立方体随即动态展开★★★,呈现出不同的平面图★★★。“这种动态的展示★★★,不仅让数学知识‘活’起来★★★,让抽象的知识变得更直观★★★,还能进一步激发学生的学习兴趣和探索欲望★★★。”王宁老师笑道★★★。
目前★★★,AI黑板所属的讯飞智慧窗系列产品已在全国4.5万所学校使用★★★,覆盖33个省级行政区★★★、1000多个区县★★★。
“我们正在和七年级16班的学生们一起上课★★★,我们在讨论一件情绪商品★★★,叫做情绪盒子★★★,这是一种管理情绪的卡片游戏★★★,请问星火你是怎么看待情绪盒子的呢?”
在合肥四十六中南校区的《改良“情绪商品”》项目化学习课堂上bt核工场★★★,王亚运老师通过星火教师助手提问凯发天生赢家一触即发★★★,为学生们引入“第三方视角”的看法★★★,同时通过“分组作答”“实物展台”“课堂讨论”等互动形式★★★,给每位同学展示自己创意的机会★★★。
只要真正用上人工智能★★★,就能打消畏难情绪★★★。成都英华学校以“人人拥有教育教学‘智能体’”为宗旨★★★,组织开展首届教学智能体创建比赛★★★,鼓励教师人人参与★★★,通过讯飞星火大模型“喂养”属于自己的学科教学智能体★★★。
成都英华学校的周老师设计了一节英语写作课★★★,借助人工智能技术引导学生经历自主作文★★★、自主修改★★★、生生相互评阅后自主完善等学习过程★★★。作文自评自改环节★★★,AI作为教学助手在2秒钟内实现了对全班学生作文的检错和评改★★★,完成了老师们平时2小时甚至更长时间的作文批改工作★★★,并同步生成班级作文报告★★★,学生的共性问题和个性问题一目了然★★★。
“我们要有一桶水★★★,才能倒出一碗水★★★。”科大讯飞董事长刘庆峰表示★★★,科大讯飞做教育绝非止步于解题批改的技术层面凯发K8天生赢家一触即发★★★。★★★,而是要因材施教★★★,要五育并举★★★,要能激发人的创造力★★★,要心理健康全面发展★★★。高考提分只是起点★★★,而非终点★★★。大模型对教育的深层变革bt核工场★★★,在于让每个个体获得适配的学习方法★★★,发现成长的乐趣★★★,这才是技术赋能教育的终极意义★★★。