EdTech 全球风向标
政策
2026世界数字教育大会闭幕,八项重磅成果指引AI教育方向
由教育部、浙江省人民政府联合主办的2026世界数字教育大会于5月11日至13日在杭州举行,以”人工智能+教育:变革 发展 治理”为主题,来自中外政府部门、国际组织、大中小学、企业及学术界的850余位代表参会。大会按前沿引领、实践赋能、全球共识三大篇章发布八项重磅成果:
① 《中国智慧教育发展报告(2025—2026)》,由中国教育科学研究院发布,系统梳理中国智慧教育进展与国际比较;
② 《全球数字教育发展指数(GDEI)2026》,首次发布跨国可比的教育数字化指标体系;
③ 《人工智能教育杭州倡议》,中方与巴西等多方签署19项国际合作,凝聚AI教育全球治理共识;
④ 《人工智能教育伦理:参考框架》,为AI教育应用提供伦理准则;
⑤ 中国智慧教育公共服务平台升级版,打造国家层面AI教育资源枢纽;
⑥ 全球AI教育服务平台,面向国际开放,标志中国将AI教育纳入数字基础设施战略;
⑦ 世界数字教育创新十大案例,展示一线教育变革实践;
⑧ 两项教育数字化标准成果,推动教育大模型与应用规范建设。
本次大会标志着AI教育正式从”概念验证期”迈入“规模化应用期”,教育数字化转型进入国家战略驱动的快车道。
学术
Nature子刊:六款LLM教育评分能力大比拼,DeepSeek-R1最接近人类评审
西班牙马德里卡洛斯三世大学研究团队在Nature旗下Scientific Reports发表了一项开创性研究——对六款大语言模型在高等教育作业评分任务中的表现进行了系统基准测试。研究以大学数据分析与机器学习课程中学生的Jupyter Notebook作业为评估对象,采用统计测量与语义测量(BERTScore F1)双重评估框架,并结合成本分析。
在DeepSeek-R1、DeepSeek-V3、GPT-4o、GPT-4o mini、Llama 3.1和Llama 3.3六款模型中,DeepSeek-R1在评分准确性与反馈质量两个维度均最接近人工评审。但研究同时揭示了一个重要警示:“评分数字的一致性不等于评估质量的一致性”——即便模型与人类给出相同分数,其评估推理路径可能完全不同(BERTScore F1可低至0.17)。研究还发现LLM普遍存在评分膨胀倾向,对存在严重方法论缺陷的作业仍给出”基本可行”的评价。
研究者贡献的不仅是一个评估结果,更是一套可随着新模型出现而持续适用的评估框架,为高等教育AI辅助评分提供了系统化的基准测试方法论。
学术
Nature同日刊发两篇重磅:Google Co-Scientist与FutureHouse Robin — 多智能体AI系统从科研工具走向科研伙伴
2026年5月19日,《Nature》杂志同日发表了两项来自科技巨头的突破性研究,介绍了两款旨在全面辅助科研流程的多智能体AI系统:Google DeepMind的Co-Scientist(基于Gemini 2.0)和FutureHouse的Robin。两者均在药物再定位任务上进行了临床前实验验证。
Co-Scientist采用五智能体协作架构(生成、反思、排名、进化、元评审),在11个开放生物医学问题的专家盲评中获得新颖性、影响力和整体偏好的最高分。在急性髓系白血病药物筛选中,从2300种已批准药物中筛选出候选药物并经细胞实验验证。该系统支持科学家随时介入提供反馈,体现了人机协作的科研范式。
Robin则展现了更强的”闭环”能力:其Crow组件在30分钟内阅读551篇论文并提炼出10个疾病机制(估计人类专家等价工作量超过800小时),而Finch组件可自主在Jupyter Notebook中编写并执行代码完成湿实验数据分析,从文献检索到实验设计再到数据解读形成完整循环。令人警醒的是,用OpenAI的o4-mini替换Crow后,幻觉引用比例从零飙升至45%。
→ Co-Scientist论文 | → Robin论文 | → Ars Technica报道
这项研究的深远意义在于,它将”AI辅助科研”的概念从工具层面提升到了伙伴层面。对于教育技术学而言,Co-Scientist和Robin的架构设计提供了极具参考价值的范例:Co-Scientist的多智能体辩论式假设生成(反思智能体通过查阅文献来”防止看似新颖但不合逻辑的假说的幻觉”),与Robin的文献-实验-数据分析闭环,都暗示了未来智能导师系统的进化方向——不再是简单地回答学生问题,而是能够诊断学习者的知识漏洞、检索最佳教学策略、生成个性化练习并基于练习数据动态调整教学路径。而且,Robin的Crow组件30分钟处理551篇文献的能力,意味着教育研究者进行系统性文献综述的效率将被彻底重构。
学术
斯坦福SCALE发布K-12教育AI证据综述:超过1100项研究,因果证据仍不足
斯坦福大学教育AI中心(AI Hub for Education)发布了一份具有里程碑意义的综述报告——《K-12中AI的证据基础:2026年综述》(The Evidence Base on AI in K-12: A 2026 Review)。报告最初分析了800余项学术研究,后扩展至1100余项,是迄今为止规模最大的K-12 AI教育因果证据全面梳理。
报告核心发现包括:① 绝大多数现有研究偏重AI对数学技能的短期影响,对阅读、科学、社会情感学习等领域覆盖不足;② 大部分严格的因果研究集中在高等教育阶段,K-12阶段的实验性证据仍然薄弱;③ 由EDSAFE AI Alliance召集的SAFE AI Companions工作组制定了围绕五大关键主题的教育AI伴侣研究议程——安全设计、公平准入、学习效果、社会情感影响、教师角色转型。
报告强调了教育AI研究中“证据赤字”问题——产品的商业推广速度远超学术研究验证速度,这对教育决策者构成了实质性挑战。
这份报告可谓一剂清醒剂。在教育AI产品席卷全球学校的背景下,斯坦福团队用严谨的同行评审标准审视了”AI教育有效吗”这一根本问题,而得出的结论令人深思:我们目前对AI在K-12场景中真正改变学生学习效果的因果链知道得很少。报告提出的”证据赤字”概念揭示了一个结构性矛盾:教育是慢变量,AI产品迭代是快变量,两者之间存在根本性的节奏错配。对教育技术研究者而言,这份综述不仅是一张研究地图,更是一个呼吁建立教育AI因果证据基础设施的宣言。报告中特别值得关注的SAFE AI Companions工作组议程,实际上为整个教育AI领域提供了一个负责任发展的路线图。
企业
微软正式发布 Study and Learn Agent — 嵌入Copilot的AI学习教练,强调引导式学习而非代劳
Microsoft于今日(5月21日)正式发布了集成在Microsoft 365 Copilot中的Study and Learn Agent(学习与辅导智能体)。该产品面向K12及高等教育阶段的师生,持有Microsoft Education许可证的用户可免费使用(首发英语美国,更多语言规划中)。
与其他AI辅导工具不同,该Agent的核心设计理念是“学习者始终坐在驾驶座上”——AI不直接给出答案,而是通过提问优先、分步教练、鼓励批判性思维等方式引导学生独立思考。功能覆盖概念解释、写作辅助(不代写)、数学科学分步引导、闪示卡生成、自适应学习检查等。Agent位于Copilot左侧导航栏,与Word、OneNote、Teams、PowerPoint深度集成。
微软同步推出了教育者专业发展课程(完成可获官方徽章),涵盖AI辅助教育最佳实践、课堂整合策略和负责任学习方法,展现出”产品+培训”一体化的教育AI部署思路。
Study and Learn Agent的差异化策略值得产品团队深入研究。在三句话里讲清楚”我们不干什么”(不代写、不直接给答案)比”我们干什么”更难——这正是教育AI产品信任构建的核心。技术上,Agent的引导式教学设计本质上是一个受控生成问题:在保持LLM自然对话能力的同时,通过系统提示工程和状态管理将对话导向Socratic式引导。对教育科技开发者而言,微软的”引导而非代劳”设计范式提供了一个重要参照:好的教育AI应该是认知脚手架,而不是认知替代品。推荐关注其”next-item correctness”评估理念在Agent对话质量评估中的应用潜力。
企业
OpenAI Education for Countries扩展至新加坡,加速全球教育AI部署
OpenAI宣布其Education for Countries计划的下一阶段扩展。新加坡正式成为该计划的最新合作伙伴,将聚焦于提升AI素养、推动个性化学习、帮助学生为未来劳动力市场做好准备。该计划将支持新加坡教育部与GovTech的多项举措,包括举办教师研讨会和黑客松以促进教师主导的AI应用。
首批参与国家已取得初步成果:爱沙尼亚超过20,000名学生和4,600名教师使用ChatGPT Edu;约旦超过100万名学生和10万名教师使用AI教育助手Siraj;哈萨克斯坦84,000名教育工作者完成了AI准备培训;斯洛伐克的大学教育者报告每周节省约5小时。OpenAI同时预告了“OpenAI Luminaries”——一个面向教育工作者共同设计与资源共享的参与项目。
OpenAI的Education for Countries采取的是“研究驱动+政府合作+本地化落地”三驾马车模式,这一思路值得其他教育AI平台借鉴。它的核心洞察在于:教育AI的成功部署需要的是基础设施级别的国家方案,而非单纯的工具分发。从开发者角度看,该计划的技术架构面临两重挑战:一是多语言、多文化场景下的模型对齐——哈萨克斯坦和爱沙尼亚的教学场景差异巨大;二是教育数据的隐私合规——在国家教育体系中运行AI意味着处理的是未成年人的学习行为数据。推荐教育科技创业者关注该计划中Workspace Agents的实践——斯洛伐克教育部已用于加速教师专业标准起草,展示了Agent在教育行政自动化中的实际价值。
企业
好未来发布九章龙虾智能体,科大讯飞牵头研制教育AI标准
好未来(TAL Education)在2026财年实现净利润5.31亿美元(同比+527%)后,正式发布九章龙虾智能体——国内首个面向教育垂类的AI Agent,专为教师打造。核心功能包括自动作业批改、智能课件生成、学情精准诊断,标志着好未来AI战略从”工具辅助”向“任务闭环”的演进。
与此同时,科大讯飞在2026世界数字教育大会上牵头研制《人工智能教育大模型规范》。其智慧教育业务2025年全年收入达89.67亿元(同比+24.04%),占公司总营收33.08%,大模型API及MaaS平台收入暴增263%至3.9亿元。AI学习机、星火智能批阅机、智慧课堂等核心产品持续放量,沈阳、江海等地已出现学校统一配备智能学习平板的规模化落地案例。
此外,作业帮以32.9%的市占率持续领跑学习平板市场,松鼠AI发布新一代多模态智适应教育大模型(引入草稿纸内容智能分析识别解题行为),网易有道教育大模型”子曰”通过信通院最高等级五级认证。
好未来的九章龙虾智能体代表了教育Agent从”概念”走向”产品化”的关键一步。值得关注的技术取向是:它没有追求通用Agent,而是深度锚定三个高价值教学场景(批改、备课、诊断)做精做透,这种”窄场景、深闭环”策略在B端教育市场中更具落地可行性。科大讯飞牵头标准制定则释放了另一个信号:教育AI行业的竞争正从模型能力竞争转向标准话语权竞争——谁掌握了大模型规范的定义权,谁就掌握了教育AI落地的游戏规则。对于做教育Agent产品的团队,建议同时关注Khan Academy对Khanmigo的反思(见第8条):Agent如果不嵌入学习流程而是在旁边”等着被问”,使用率就只有15%。
深度
Khan Academy坦诚面对Khanmigo使用率仅15%:从被动等待到主动嵌入的AI导师重新设计
Khan Academy首席学习官Kristen Eignor DiCerbo在LinkedIn上公开承认:尽管Khanmigo自2023年推出以来累计产生超过1.08亿次交互(工作日日均26.9万次),但仅有15%的获授权学生会定期使用该AI导师。”早期使用效果参差不齐,有些对话比其他对话更能帮助学生取得进展。”这份诚实的自我剖析在教育AI领域极为罕见。
重新设计的Khanmigo将于2026年夏季面向所有学区合作伙伴推出,核心转变包括:从被动等待学生提问转向主动嵌入学习流程、基于帮助寻求行为研究设计分场景辅导策略(做题前vs做题后、首次接触vs复习)、以及在检测到技能漏洞时主动提示回顾前置知识。Khan Academy还引入了一个新评估指标——”next-item correctness”(下一题正确率),来衡量AI辅助后学生能否独立解决下一道题。
该案例最深刻的启示在于:“通过练习发生的学习仍然是基础”——正如DiCerbo所言,学生在Khan Academy上花时间练习比任何单一AI功能都更重要。
深度
AI+教育进入”标准元年”:三大政策文件落地,斑马AI以”大模型+精讲产品+认知研究”走出合规路径
2026年3月至5月,三大核心政策文件密集出台——《”人工智能+教育”行动计划》(提出构建全学段通识教育体系)、教育部《关于加强中小学人工智能教育的通知》(建立AI阅读标准体系)及工信部《大模型规范应用与创新发展实施方案》(支持教育平台研发AI产品),形成了”目标—标准—路径“的完整闭环,标志着AI教育行业从”抢风口”进入”拼合规”的新阶段。
在合规路径上,斑马AI提供了标杆案例:其儿童启蒙大模型成为儿童学习领域唯一通过国家备案并实现规模化应用的品牌。产品层面推出了AI伴学角色Jessica——定位为”以对话交互、启发引导的探究式教学Agent”,而非单纯的虚拟形象。斑马同时与北京大学共建先进教育实验室,开展长期儿童认知科学研究,形成了”技术—产品—科研”三位一体的标准化发展模式。
深度
加州州立大学$1700万ChatGPT协议引发争议,Duolingo深度AI转型面临市场考验
加州州立大学(CSU)于2025年以1700万美元与OpenAI签订合同,为校园提供无限量ChatGPT Edu访问权限。然而一年后,该协议正在校园内外引发激烈争议:支持者认为它促进了教育公平,反对者则质疑教育资金是否应当大规模流向商业AI公司,以及数据隐私和学术诚信风险。CalMatters在2026年5月的深度报道揭示,师生态度呈现两极分化——部分教师积极拥抱,部分则明确拒绝在教学中使用。
与此同时,Duolingo正在经历一场深度AI转型。公司于2026年升级Max订阅中的AI功能,推出AI视频通话(模拟真实对话场景)和B2级别课程的AI角色扮演。但伴随转型的是争议:2025年底Duolingo大幅削减人工翻译和内容创作团队,引发了”AI是否在替代教育工作者”的公共讨论。投资者的核心关注点是:当AI在语言学习领域的辅助能力趋近天花板时,Duolingo的内容壁垒还能否维持其竞争优势?
这篇研究对教育技术领域具有重要的方法论启示。其设计巧妙的”统计+语义”双重评估框架实质上回应了教育评估中的一个根本性问题:分数只是表象,评估推理过程才是真正体现教育评价质量的关键。从教育技术学研究者的角度看,该框架可被迁移到更广泛的教育场景——如作文评阅、项目制学习评估、形成性反馈等。值得警惕的是,LLM倾向于给予”安全的、偏高的分数”,这意味着盲目使用AI评分可能导致评分效度的系统性偏差,在大规模标准化考试场景中尤其需要谨慎对待。