记者会被AI取代吗?每日经济新闻大模型年度评测报告发布:没有“全能选手”

每经记者 王嘉琦 每经实习记者 宋欣悦 每经编辑 兰素英

2024年11月14日,2024智媒体50人成都会议暨每经20周年财经媒体峰会在蓉举行。会议上,《每日经济新闻大模型年度评测报告》正式发布。

在此之前,2024年6月25日,发布,对15款市面主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四个新闻采编应用场景的能力进行了评测。

2024年9月6日,发布,重点考察大模型在“金融数学计算”“商务文本翻译”“财经新闻阅读”三个新闻采编应用场景的能力。

与前两期评测一样,《每日经济新闻大模型年度评测报告》继续以大模型在新闻采编场景的应用能力为评测目标,但为了更精准对接采编人员的实际需求,本次评测以“采写编审和短视频创作的新闻生产全流程”为场景,包括大模型设计采访提纲——撰写新闻稿件——校对稿件差错——提炼稿件标题——改写短视频文本五个细分场景。通过大模型在新闻生产全流程的介入,评测出“谁是新闻生产全流程的最优秀大模型”,用直观的评测结果,对采编人员在工作中选用适合的大模型工具提供实战参考。

本次评测设置的五个细分应用场景具体如下:

(1)设计采访提纲:旨在考察大模型能否帮助记者拟定采访提纲,辅助记者采访工作。

(2)撰写新闻稿件:旨在考察大模型围绕既定的多份材料,能否创作一篇新闻稿件。

(3)校对稿件差错:旨在考察大模型能否检查出新闻稿件中的错别字,语法、数字、标点符号等差错。

(4)提炼稿件标题:旨在考察大模型能否根据稿件内容,提炼新闻标题,特别是制作适合在微信等新媒体平台传播的新媒体风格标题。

(5)改写短视频文本:旨在考察大模型能否根据一篇文字新闻稿件,改写成适合短视频发布的文案。

每经大模型评测小组为五个细分场景制定了对应的评价维度和评分指标。每日经济新闻10余名首席、高级、资深记者编辑根据评价维度和评分指标,对各款大模型在五个细分场景中的表现进行评分,汇总各场景得分,最终得到参评大模型总分。

需要指出的是,本期评测是通过各款大模型的API端口,并在默认温度下完成。与公众用户使用的大模型C端对话工具存在差异。但是评测结果对用户在具体场景中选择合适的大模型工具,依然具有重要参考价值。

本期评测均在“雨燕智宣AI创作+”测试台上进行,一共有12款国内大模型参与。

评测时间为2024年10月18日,因此参评大模型均为截至10月18日的最新版本。

评测结果显示,腾讯混元hunyuan-turbo以379.53的总分位居榜首,紧随其后的是智谱GLM-4-Plus获得368.6分,字节跳动doubao-pro-32k(240828版本)获得363分。

在五个细分场景方面,各家模型展现出不同的优势:

在设计采访提纲场景中,腾讯混元hunyuan-turbo与昆仑万维天工SkyChat-3.0两款模型均取得了93.33分的佳绩,并列第一。

在撰写新闻稿件场景中,智谱GLM-4-Plus以98分的高分拔得头筹。

在校对稿件差错场景中,智谱GLM-4-Plus以60分的成绩位居首位。

在提炼稿件标题方面,深度求索DeepSeek-V2.5模型以55.2分的成绩领先其他模型。

在改写短视频文本场景中,腾讯混元hunyuan-turbo再次展现其强劲实力,以95分的成绩位列第一。

阅读完整报告请访问:每日经济新闻大模型年度评测报告。

结论一:暂无一款大模型能高质量完成采编全流程工作

截至目前,每日经济新闻一共推出三期大模型评测报告,覆盖12项新闻采编应用场景,但从结果来看,没有一款大模型能在所有场景中均排名前列

正如人类一样,各款大模型的长处与短板各不相同。比如,有的大模型擅长财务数据计算,但在新闻标题提炼中却排名末尾;有的大模型擅长英译汉,却在汉译英方面能力平平。

在新闻生产的关键环节,如本期评测中的“撰写新闻稿件”“校对稿件差错”“提炼新闻标题”、第一期评测中的“财务数据计算与分析”和第二期评测中的“金融数学计算”等应用场景,多数大模型生成结果的差错频出,要保证新闻稿件的高质量、无差错,还必须由人工审核、把关

目前市面上还没有一款大模型能够高质量、全流程完成新闻采编场景的所有工作,换句话说,世界上还没有“AI记者”

结论二:大模型“幻觉”未解,错误更隐蔽

尽管各款大模型已经多次迭代升级,但依然解决不了“一本正经地胡说八道”的幻觉问题

最初的大模型“幻觉”问题比较明显。随着产品不断迭代,大模型生成文本质量逐渐提升,但文本中的错误也越发隐蔽。比如,在“撰写新闻稿件”场景中,大模型会在不起眼处改变人物的职位或虚构事件发生的时间。例如在本期评测中,部分大模型将9月24日“星巴克咖啡公司宣布调整其中国领导层结构”的时间,误写成9月30日。再比如在第二期评测“金融数学计算”场景中,即便是得分第一的大模型也会在个别题目中给出了正确的计算公式,却依然得出错误的答案。

对于一篇高质量新闻稿件来说,上述问题都可能是“致命”的差错。目前,AI生成内容已经大规模出现在互联网中。这就要求新闻媒体要进一步完善新闻内容真实性审核机制,更需要加强内容把关

结论三:“冷面”的大模型难判断新闻价值

阅读一篇稿件,挖掘出最重要的新闻点,然后提炼和制作标题,在这方面,大模型与经验丰富的编辑相比,差距不小。

在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。在本期评测的“提炼稿件标题”场景中,大模型得分普遍偏低。其生成的标题多显得中规中矩。例如大模型提炼的《“星巴克中国新篇章:80后刘文娟接任CEO,引领咖啡巨头迎挑战”》《“星巴克中国换帅:80后刘文娟接棒CEO,直面市场挑战与变革”》等标题。

另外,评测中发现,大模型提炼的新闻标题,往往充斥着一些“高大上”的抽象概念词汇,无法挖掘文章中最重要的新闻点和有价值的信息,文字空洞,很难吸引读者的眼球。

此外,在“撰写新闻稿件”场景中,大模型生成的文本较为生硬,“机器痕迹”较明显,缺乏情感和个性化的表达

从现阶段来看,大模型在阅读文章方面,难以具备对一篇稿件新闻点的准确和深层次把握,容易停留在浅层次的理解。因此,新闻点和新闻价值的判断,包括采写有温度、有故事、有人情味的厚重稿件,仍然离不开记者、编辑的人工介入和悉心打磨

结论四:不同采编场景选择最适合的大模型

三期大模型评测的场景基本可以分为辅助性场景(如财经新闻阅读、文本翻译、设计采访提纲等)和关键性场景(如撰写新闻稿件、校对稿件差错、提炼新闻标题等)。

三期评测的结果表明,绝大部分大模型在设计采访提纲、改写短视频文案、英汉翻译、文章阅读以及微博新闻写作等辅助性场景中普遍表现良好。例如,“改写短视频文案”场景中,所有参与评测的12款大模型均取得超过80分的成绩;而“设计采访提纲”场景中,有8款大模型的得分高于80分。在第二期评测的“商务本文翻译”场景中,13款大模型得分都高于80分,在“财经新闻阅读”场景中,13款大模型得分高于70分。

在撰写新闻稿件、校对稿件差错、提炼新闻标题等新闻生产关键性场景的能力则明显不足。比如,在“校对稿件差错”场景中,仅一款大模型得分达到60分。在“提炼新闻标题”场景中,没有一款大模型得分达到60分。

因此,记者、编辑可以根据采编工作的不同环节,不同场景,选择最适合的大模型,让部分场景实现采编工作AI化,提升工作效率。

结论五:新闻媒体主导:打造垂直领域的“AI记者”

对比三期大模型评测结果不难发现,国内大模型通过持续迭代,能力稳步提升。同时,各家大模型之间的差距也在逐步缩小,每个模型都展现出独特的优势。但这些大模型都属于通用大模型,并非为新闻媒体、采编工作量身定制。

造成大模型“幻觉”问题严重的一大原因,在于训练文本和数据质量不高,其中包含不少信息错误。而新闻工作对准确性要求极高。这一短板直接限制了大模型在新闻领域的应用。然而,新闻媒体在长期的新闻报道中已经积累的大量高质量新闻稿件和数据,这恰恰为研发适合新闻采编工作的大模型工具提供了得天独厚的优势。

因此,自主训练和主导研发大模型工具变得尤为重要,借此,新闻媒体不仅能够最大限度地确保大模型训练数据的质量和生成逻辑的准确性,还能保证大模型生成内容的可控性,使其更好地契合媒体自身的属性和特色。

在研发方法上,可以将采编全流程拆分成数十个环节,如采访、翻译、稿件写作、提炼摘要和校对差错等。根据各环节的具体工作目标、方法和要求,对大模型进行专项训练,以形成一系列单任务或垂类AI工具。最终,将这些单任务AI工具打包汇集,则可以打造出一整套新闻采编AI工具。

每日经济新闻大模型评测小组

2024年11月

⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

接下来,“每日经济新闻大模型评测小组”将继续深入探索大模型的无限可能,从实际应用场景出发,对各个大模型进行全方位的评测,并定期推出专业报告,带来最前沿的洞察和发现。

在此,我们诚挚地邀请您,加入评测项目。

如果您是研发企业,想要展示自家大模型的实力,与其他大模型进行比拼,请将参评大模型的详细信息发送至我们的邮箱:damoxing@nbd.com.cn

如果您是大模型的使用者,请告诉我们您希望在哪些场景中使用大模型,或者希望我们测试大模型的哪些能力。打开每日经济新闻App,在“个人中心”——“意见反馈”栏中留下您的想法和需求。

期待您的参与,共同探索大模型的无限可能。

返回搜狐,查看更多

责任编辑:

 冷冻 

标签:

相关推荐

  • 交银国际:维持万国数据-SW“买入”评级 目标价至22.88港元

    交银国际:维持万国数据-SW“买入”评级 目标价至22.88港元

      交银国际发布研究报告称,上调万国数据-SW(09698)目标价至22.88港元,维持“买入”评级。由于公司第3季度业绩符合预期,考虑到其在海外市场的拓展加速,因此给予的估值更接近国际同业的估值。  交银国际指,2024年第3季公司收入约29.66亿元人民币(下同),同比增加17.7%,调整EBITDA为12.95亿元,同比增加15%。公司维持全年业绩...

    2024/11/25
  • 今年内第三次来华!库克:没中国就没现在的苹果!公司第四财季净利润下降超35%

    今年内第三次来华!库克:没中国就没现在的苹果!公司第四财季净利润下降超35%

      每经编辑张锦河      据玉渊谭天微博11月25日消息,今天上午,中国贸促会主办的第二届中国国际供应链促进博览会在北京举行。  美国苹果公司首席执行官库克首次现身链博会,而这也是他在今年内第三次来华。  库克称这是他第一次来该博览会。库克还表示:“很高兴来到这里,我很自豪苹果和我们的合作伙伴在这里参加展览。”  在回答如何评价苹果在中国的合作...

    2024/11/25
  • 最惨财务总监刘文焱:担任摩登大道董秘7个月被判赔投资者 1180 万!股民能不能拿到钱还不一定!

    最惨财务总监刘文焱:担任摩登大道董秘7个月被判赔投资者 1180 万!股民能不能拿到钱还不一定!

    登录新浪财经APP搜索【信披】查看更多考评等级  来源:国际投行研究报告  最惨财务总监刘文焱:担任摩登大道董秘7个月被判赔投资者1180万!股民能不能拿到钱还不一定!  董秘有风险,财务总监有风险,签字就有风险。  陷入困境的摩登大道发布公告,因大股东无法偿还占用公司的资金,停牌2个月,如果再还不了就退市。摩登因为虚假信息已经被证监会...

    2024/11/25
  • 旺仔牛奶异物疑云

    旺仔牛奶异物疑云

      21世纪经济报道记者易佳颖上海报道  “旺仔牛奶中疑现异物?”  11月24日,旺旺集团相关工作人员在接受21世纪经济报道记者采访时表示,“每盒或每罐都是无菌封闭生产的,不会有外物进去。况且每罐容量固定,若其中有异物,牛奶会溢出来,装不进去的。”  11月22日,有网友反映孩子近期在牛奶中喝出异物,该网友剪开罐子后,拍摄的黑色异物影像疑似为老鼠...

    2024/11/25
  • 陈海燕:打通健康管理服务的最后一公里——健康小屋的故事

    陈海燕:打通健康管理服务的最后一公里——健康小屋的故事

    专题:第十七届中国保险文化与品牌创新论坛  2024年11月13日,以“静水流深”为主题的第十七届中国保险文化与品牌创新论坛暨第七届中国保险康养产业创新论坛在江苏无锡隆重举行。东吴人寿保险股份有限公司总裁助理兼苏州分公司总经理陈海燕发表了主题演讲。  陈海燕介绍了东吴人寿通过社企共建、整合多方资源,与乡村、社区、银行等共同在新时代文明实践站点、党群服务中...

    2024/11/25
  • 记者会被AI取代吗?每日经济新闻大模型年度评测报告发布:没有“全能选手”

    记者会被AI取代吗?每日经济新闻大模型年度评测报告发布:没有“全能选手”

    每经记者王嘉琦每经实习记者宋欣悦每经编辑兰素英2024年11月14日,2024智媒体50人成都会议暨每经20周年财经媒体峰会在蓉举行。会议上,《每日经济新闻大模型年度评测报告》正式发布。在此之前,2024年6月25日,发布,对15款市面主流大模型在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数...

    2024/11/25
  • 一加Ace 5将搭载新技术“毒液”:把游戏功耗做到行业最低

    一加Ace 5将搭载新技术“毒液”:把游戏功耗做到行业最低

    【TechWeb】作为一加的中端型号,一加Ace系列一直以出色的性价比在中端市场上占据了一席之地。6月27日,一加推出了一加Ace3Pro,该机首发搭载了独家自研的“性能黑科技”,号称榨干第三代骁龙8的GPU的全部性能潜力,一经亮相便受到了用户的广泛关注。而不久前,下一代的Ace产品也开始遭到曝光,不过新机将会跳过Ace4,而直接命名为一加Ace5。...

    2024/11/25
  • 长期策略不敌短期冲击 基金公司谋划“加时”

    长期策略不敌短期冲击 基金公司谋划“加时”

      证券时报记者安仲文  在规模和短期业绩排名压力下,基金经理如何才能拥抱“时间的玫瑰”?  尽管公募产品似乎具有永续运作的某些特点,但最低规模的存续条件以及短期业绩波动,则意味着基金经理的长期策略需要面临诸多短期扰动。有些基金经理虽然看好某只股票,而基于长期投资的视角买入后,最后往往出现被迫短期卖出的情形。在此背景下,有一些基金公司主动修改基金产品合...

    2024/11/25
  • 供需双弱,工业硅继续探底?

    供需双弱,工业硅继续探底?

      期货日报  上周,工业硅期货维持偏强震荡,截至11月22日收盘,工业硅期货主力合约SI2501下跌1.09%,至12270元/吨,周跌幅为0.49%。  对于当前工业硅价格维持震荡走势的原因,国信期货分析师李祥英认为,主要是在经历一年的下跌之后,目前市场价格已经贴近企业的成本线,即使在供过于求的情况下,硅企出于生产亏损的考虑,也不愿继续降价,对...

    2024/11/25
  • 净利润同比增61%,拼多多被低估了?

    净利润同比增61%,拼多多被低估了?

      来源:美股研究社  周五,拼多多股价明显下挫。  消息面上,11月21日周四,拼多多正式发布的三季度业绩报告。财报显示,拼多多Q3营收达到994亿元,同比增长44%,略低于市场预估。  营收同比增44%,拼多多一如既往的稳健  拼多多在第三季度的利润达到了250亿元,实现61%的同比增长。在调整后的每美国存托股(ADS)收益方面,拼多多第三季度录...

    2024/11/25
返回顶部
微信号复制成功
微信号:
点击下方按钮