• 四川省情语料库“若水”正式上线

    为媒体领域大模型相关应用及智库服务提供强力支撑

  •     

      本报讯(四川日报全媒体记者 蒋京洲 董晓尚)10月10日,在全国省级党报国际传播业务研讨会暨2024新型主流媒体建设天府年会上,由四川日报报业集团自主研发,多家省级部门、高校共同建设的四川省情语料库“若水”正式上线。
      因何“若水”?据介绍,雅砻江、金沙江合流之段,古称若水,滋养蜀地、泽被万物。语料库取“若水”之名,意为汇聚各行各业数据,以其基础进行智能化开发,为媒体领域大模型相关应用及智库服务提供强力支撑,为各类大模型提供安全语料支撑、知识增强服务,助力各类人工智能应用实现主流价值观。
      “若水”以四川日报报业集团在国家网信办备案通过的智媒大模型为底座,对四川日报的自有数据以及拟整合的省政府网站、省统计局、省地方志办等单位数据进行归一化处理、数据分析、标注并形成相关高质量数据集及数据应用。截至目前,已统计数据文字约200亿字,各类图片约1180万张,视频约20万条。
      如何“若水”?通过对大量四川省情语料的深度学习,“若水”已“学习”了许多与四川有关的知识,可为用户了解四川、研究四川提供帮助。目前,“若水”已支持通过自然语言与大模型进行交互问答。例如,在输入问题“川剧有哪些代表曲目”后,语料库随即会列出“《岁岁重阳》《桃村新歌》《燕儿窝之夜》”等内容,其依据主要来自投入学习训练的《四川省志·川剧志》中的相关记载。
      “若水”经过近两年的技术准备和攻关,目前已具备自然语言处理、知识图谱构建、智能问答等模块功能。在数据处理方面,系统充分发挥大模型优势,有效减少样本人工标注工作量,进一步提升系统的运行效率和通用能力。同时,通过专业人员的人工校准,在PDF、表格的处理以及数字准确性方面都做了针对性攻关,极大提升了语料处理准确性。

分享到微信朋友圈