ChatGPT 很“大”我们的研究很“精”---四川日报电子版

12 科创未来上一版下一版

走近“AI四川队”：
ChatGPT 很“大”我们的研究很“精”
　　长虹AI实验室展示的家庭服务机器人演示样机。相较普通的扫地机器人，这款家庭服务机器人具备更高的拟人形态，灵活的机械臂可以听从用户指令，结合当下环境做出正确行动。受访者供图

□四川日报全媒体记者吴忧
　　“四川省有多个优秀的人工智能研究团队。”光标闪烁几秒钟后，ChatGPT用肯定的语气回答记者，“在机器学习、自然语言处理、计算机视觉等领域，他们表现出色。”
　　最近，由开放人工智能研究中心（OpenAI）推出的ChatGPT热度爆表。这是一款先进的聊天机器人模型，由人工智能技术驱动，依靠包罗万象的知识储备，能够像人类一样聊天交流，甚至能完成撰写文案、翻译文本、修饰代码等任务。
　　它的惊艳亮相，既带来了“热话题”，也引起了“冷思考”。在人工智能研究领域，四川表现如何、有何成效？面对ChatGPT及其背后的OpenAI，四川差距多大、如何追赶？
　　近日，在询问ChatGPT的同时，记者在成都、绵阳等地，走近多个具有代表性的人工智能研究团队，现场寻找答案。

看底层技术研究覆盖广泛，部分领域亮点突出
　　“我们来看图说话。”在电子科技大学未来媒体研究中心，高联丽教授研究团队为记者介绍了一款图像描述模型。向其展示一幅图像，一段文字描述迅速生成，显示在屏幕上。例如，上传一张街拍照片，模型将其描述为“A car running on the road”（在公路上行驶的汽车）。
　　在最新的Microsoft COCO Image Captioning Challenge（微软COCO图像描述挑战）全球排行榜Top5中，这款模型占据了一席之位，同榜的还有行业巨头，例如微软和阿里。
　　高联丽介绍，与ChatGPT相同，这是一款典型的人工智能内容生成模型，既能准确感知和理解图像信息，又能用人类的语言加以描述。这样的能力，需要计算机视觉、自然语言处理等人工智能底层技术支持。近年来，团队在这些领域深耕，在IEEE/ACM等国际顶刊顶会发表论文100余篇，实现一次次创新突破。
　　长虹AI实验室，也是顶刊顶会的常客。在前不久举行的全球语音领域顶级会议INTERSPEECH 2022上，长虹AI实验室提交的3篇技术论文被收录。
　　声音是人类交流的最便捷方式之一，在人工智能特别是人工智能内容生成领域，语音技术一直都是研究的重点。长虹AI实验室首席科学家展华益告诉记者，在这个方面，长虹AI实验室的创新成果不断涌现，上述3篇论文分别聚焦声纹识别、语音提取和语音质量评价，堪称矩阵式突破。
　　自然语言处理，是西南财经大学新财经综合实验室的重点研究领域之一，主要部署的研究方向包括文本理解、文本生成等，这也是ChatGPT用到的底层技术。在一个文本摘要模型上，实验室研究员黄鹂“小试牛刀”。
　　给定一段源文，叙述了一位病人看病的经历，医生为其开便宜药，只花了几元钱。模型给出4个字：业界良心。“我第一次看到这样的结果，也跟你一样惊讶。”黄鹂笑着说，这个模型采用了一项新技术，生成准确内容摘要的同时可生成多样化拟人词语，这项成果已在人工智能顶级期刊IEEE Transaction on Cybernetics（电气与电子工程师协会控制论学报）上发表。

看实际应用阶段性成果陆续落地、见到实效
　　作为长虹AI实验室视觉检测团队的负责人，刘明华最近一直扎在长虹控股集团华丰科技的生产线上。在他面前，首套连接器外观自动化全检系统刚刚投入运行，另一套系统又开始了搭建。
　　华丰科技生产的连接器，是广泛应用于神舟、天宫等航天装备的精密器件。该产品是多面异形体，材质和纹理复杂多变，有比头发还细小的裂缝、异物等瑕疵，都可能造成严重故障。
　　“下线前的外观检测，是重点也是难点。”刘明华介绍，以往主要依靠检测人员通过显微镜观察，国外的行业龙头也是如此。利用人工智能实现自动检测，打通智能制造的“最后一米”，国内外的企业都在挑战。但真正落地见效的，长虹是第一家，填补了国内外行业空白。
　　连接器进入检测线，要依次通过15个工位，从不同的角度拍下20多张照片。“照片的一个像素大约是0.015毫米，这是人眼借助显微镜也难以达到的水平。”刘明华解释说，在此基础上，人工智能运用计算机视觉、机器学习等技术，识别、判断、分析产品是否有瑕疵、有哪种瑕疵，生成检测分析结果，“一套系统就相当于一个10多人的班组，一天能够完成检测10000余件，看得更准、更快。”
　　最近，由四川团队牵头的“地空协作的重大灾害监测搜救平台主动认知技术研究”进入结项阶段，这是科技部实施的“新一代人工智能”重大项目之一，电子科技大学计算机科学与工程学院院长、四川省人工智能研究院院长申恒涛教授担任项目负责人。
　　“研究面向实际应用。”据介绍，一套高效的搜救平台已搭建完成，借助计算机视觉技术，可以对灾害现场进行实时建模，掌握灾害前方现场的最新情况；而通过对地空图像、听觉信息的感知与理解分析，可以对被困人员进行精准定位，判断其身体状态，在此基础上推演出最快、最安全的解救方式，“在地震、洪水等重大灾害场景中，能够大幅提高应急救援效率，并降低搜救人员自身的安全风险。”

走近“AI四川队”：

ChatGPT 很“大”我们的研究很“精”

分享到微信朋友圈