如何手搓一个实时转录(Speaker Diarization)+ LLM实时总结的讨论妙计项目?

25 年 5 月 20 日 星期二
1686 字
9 分钟

摘要

这是我自己组装的一个用于分析小组协作、课堂观察或教师公开课的项目,技术栈为 实时语音转写(区分发言人)+ 大模型(LLM)实时多维度分析 ,可针对个人表现,团队互动模式,整体表现给出实时的反馈和支架。

为了方便在一般学校使用(考虑到许多学校平板或者电脑设备的条件不一),因此这是一个自适应的网页,在ipad,电脑或者手机都可以使用 。具体演示请查看以下项目演示:

项目演示视频:

<多人实时转录项目演示>



该项目由我与我的同事(李爽)合作开发。其中李爽主要负责了理论研究部份,我负责了其中技术选型和技术实现的部份。

然后下面写了我开发网站的初衷,原理解析,还有合作期望。

痛点与产品核心价值

在学习分析中,关于学生小组的研究是非常有趣的话题,无论是学生的SRL,元认知,还是学生小组之间的Dynamic,都很有趣。

但是实际研究中,许多研究者都是通过 录音笔 ➡️ 转文本 ➡️ 数据清洗 ➡️ 人工编码 ➡️ 批量编码 的一个挺累的过程的,而且也并非实时的。

一些学生仪表盘项目,检测的也总是更多量化数据。或者是针对全班的。或者是需要学生全程线上(例如会议,或者必须通过输入文本,做出操作等行为)才能拿到学生过程性数据。

但是,这并非不可解决的,例如飞书妙计,或者会议妙计这样的项目就可以收到数据,但是他们目前都是针对更加通用的场景,无法做到根据教育研究的目标和设计,来进行二次开发。

这就是我开发这个项目的初中生,做一个复刻的,教育研究版本的讨论妙计,重新手搓这个项目,可以..

  • 所有数据链路全自动串起来,不遗漏“现场的每一秒”;
  • 能针对需要的那种“情感/社交/元认知”模型灵活扩展或者直接对接文献指标体系;
  • 智能体反馈和教学干预嵌入讨论第一现场,实时帮忙“提醒组员、正向纠偏”,不是事后诸葛亮;
  • UI界面设计和数据表结构都根据你的课题需要灵活定制,无痛对接任何分析引擎或者知识图谱。

技术实现方式

diagram

1.1 实时语音“事件流”链路建设

  • 底层采集:用现代浏览器的音频流采集+WebSocket推送,不挑硬件,笔记本,Ipad自带麦、甚至手机都可以。
  • 流转到实时转录API :音频数据被实时推到\实时转录的接口,返回转写文本,并且支持说话人区分(speaker diarization)—— 整组仅需一个收音设备,即可自动区分不同发言人,即使是多组并发也完全OK
  • 为什么不用普通录音再转写? 本方案做到低于1秒的实时性,每一句话落地时你就能收到分析,便于实时干预而不是事后复盘。
  • 为什么说话人区分( speaker diarization) 这么重要?—— 线下讨论场景,不同发言人距离极近,为每位发言人单独配备高降噪麦克风不现实,也无法做到完全去除背景音(包括其他人的发言)。数据收集不准确,将导致后续分析结果大大偏离实际情况。
  • 分组与隔离 :每个小组有独立的数据流和分析板块,数据隔离做到“班级/实验/小组随心自定义,不混不串”。

1.2 大语言模型(LLM)分析:依据你指定的教育理论进行分析

拿到实时转写文本后,可实时(或者间隔固定时长,如1分钟)丢给大模型做批量总结/抽取。例如:

  • 自动生成摘要,提取讨论关键词/话题热度。

  • 把一句话分成“积极、中性、消极”(情感分析),并统计全小组各自的分布。

  • 针对每一分钟的发言做“计划-执行-监控-反思-Off-task”等元认知类别的自动编码。

  • 检查“离题”情况,例如这一分钟聊的内容和“课程目标”题目不符会被自动标红。

    所有评价维度可以根据你的研究或者公开课需求进行替换 。例如可以根据你合作的具体教育理论,和最新的文献模型来给出监控指标和评价维度。大模型将针对所有评价维度进行 “并行分析” :每条新的转写落地后都能独立走分析,所以系统高度实时——不像传统那种“讨论完了导出数据再分析”,而是在“事件刚发生”,“智能体”就能给反应。

1.3 根据分析和你指定的规则,进行智能干预与可视化仪表盘

  • 主动反馈机制 :“灯泡”或者消息推送,谁安静太久、谁消极话多、某情境已经需要教师干预了(例如学生之间的吵架),全部内置自动触发条件和智能建议。
  • 这些触发和干预完全建立在教育研究者设定的规则之上 ,比如有个学生5次没回应小组、1分钟内Off-task比例高达60%),系统自动弹窗或在界面亮灯,并给出具体建议(如“鼓励大家关注同学A的建议”、“建议分工再细化”)。这一点,是大部分现有转录+办公助手完全做不到的。
  • 数据可追溯与可导出 : 每次实验全量结构化数据(话语文本、发言人、时间戳、标签、智能体反馈)一键导出,后期你要复用/写论文很方便。

合作期望

个人看重项目中的互相成长啦,愿意花时间了解项目中的研究痛点和目标,一起讨论每一步需求、每一个细节落地。你负责理论和研究设计,我负责产品原型实现。回报给我论文共署或者一定开发费用都可以。

如果你感兴趣该项目,或者你感兴趣这个项目,你可以联系我!

邮箱: lanlinling001@gmail.com

文章标题:如何手搓一个实时转录(Speaker Diarization)+ LLM实时总结的讨论妙计项目?

文章作者:lanlinling

文章链接:https://lanlinling.com/posts/student-realtime-observation[复制]

最后修改时间:


商业转载请联系站长获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。
本文采用CC BY-NC-SA 4.0进行许可。