澳门牌照网投平台(http://visagebynatalia.com/xwyhd/xsjd/2022s/202206/t20220605_87156.html)

央音要聞

學術前沿∣音樂人工智能系系列講座——“多模態大模型的技術探索與音樂評分應用”

  • 作者:供稿:音樂人工智能與音樂信息科技系  
  • 來源:
  • 发布日期:2022-06-05 20:43:00

  澳门牌照网投平台(http://visagebynatalia.com/xwyhd/xsjd/2022s/202206/t20220605_87156.html)

        主讲嘉宾:王金桥教授

  主持人:李小兵教授

  时间:2022年6月6日 20:00-21:30

  題目:多模態大模型的技術探索與音樂評分應用

  主办:音樂人工智能與音樂信息科技系

  入場方式

  ZOOM会议号:978 438 6825

  入會密碼:8888

  題目:多模態大模型的技術探索與音樂評分應用

  報告簡介:

  自從GPT/Bert模型提出以來,基于自監督學習的預訓練模型迎來了爆發式發展,隨著訓練數據和模型參數持續增加,各項下遊理解任務的性能也取得了顯著提升。但當前的研究主要集中單一語言或者圖文模態,更豐富的包含文本、語音、圖像、視頻等多種模態數據的信息並未被充分利用與學習。因此,預訓練模型必然由單模態往多模態方向發展,通過將文本、語音、圖像、視頻海量弱相關的多模態數據利用各自編碼器和解碼器實現跨模態學習,開拓性地實現了圖像、文字、語音和視頻等不同模態數據之間的統一表示和互相生成,基于國産化基礎軟硬件平台打造,既可以實現跨模態理解,還能實現跨模態生成,與CCTV合作在“唱出我心聲”節目中實現了音樂評分的下遊任務,同時實現了在跨模態媒體理解、多模態對話多個場景的落地應用。

  嘉賓簡介:

  王金桥 ,中国科学院自动化研究所模式识别国家重点实验室研究员,博士生导师,中国科学院大学人工智能学院岗位教授,中科院人工智能创新研究院“2035团队”跨模态通用人工智能平台负责人。现任多模态人工智能产业联盟秘书长,中国技术创业协会技术创新工作委员会副理事长,获北京市高聚领军人才、广州市创新团队领军人才、山东省泰山领军人才等称号,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究。共发表包括IEEE T-PAMI、TIP、TNNLS、ICCV、CVPR、NeurIPS、ECCV等国际权威和顶级会议论文300余篇,国际杂志50余篇,国际会议220余篇。完成国家标准提案3项,发明专利36项,10项国际视觉算法竞赛冠军,吴文俊人工智能科技进步二等奖,中国发明创新银奖。曾携自主研发的人工智能机器人在CCTV1、CCTV2、CCTV3、北京卫视和湖南卫视等做技术展示。

  

文:張淵、周子雅

相關附件:
相關鏈接:

? Copyright www.ccom.edu.cn All Rights Reserved

京公網安備110402430057號

京ICP備05064625號

澳门牌照网投平台(http://visagebynatalia.com/xwyhd/xsjd/2022s/202206/t20220605_87156.html)
澳门牌照网投平台(http://visagebynatalia.com/xwyhd/xsjd/2022s/202206/t20220605_87156.html)

央音要聞

學術前沿∣音樂人工智能系系列講座——“多模態大模型的技術探索與音樂評分應用”

作者:供稿:音樂人工智能與音樂信息科技系來源:更新日期:2022-06-05 21:14:31发布日期:2022-06-05 20:43:00本欄目內容由黨委宣傳部負責維護

  澳门牌照网投平台(http://visagebynatalia.com/xwyhd/xsjd/2022s/202206/t20220605_87156.html)

        主讲嘉宾:王金桥教授

  主持人:李小兵教授

  时间:2022年6月6日 20:00-21:30

  題目:多模態大模型的技術探索與音樂評分應用

  主办:音樂人工智能與音樂信息科技系

  入場方式

  ZOOM会议号:978 438 6825

  入會密碼:8888

  題目:多模態大模型的技術探索與音樂評分應用

  報告簡介:

  自從GPT/Bert模型提出以來,基于自監督學習的預訓練模型迎來了爆發式發展,隨著訓練數據和模型參數持續增加,各項下遊理解任務的性能也取得了顯著提升。但當前的研究主要集中單一語言或者圖文模態,更豐富的包含文本、語音、圖像、視頻等多種模態數據的信息並未被充分利用與學習。因此,預訓練模型必然由單模態往多模態方向發展,通過將文本、語音、圖像、視頻海量弱相關的多模態數據利用各自編碼器和解碼器實現跨模態學習,開拓性地實現了圖像、文字、語音和視頻等不同模態數據之間的統一表示和互相生成,基于國産化基礎軟硬件平台打造,既可以實現跨模態理解,還能實現跨模態生成,與CCTV合作在“唱出我心聲”節目中實現了音樂評分的下遊任務,同時實現了在跨模態媒體理解、多模態對話多個場景的落地應用。

  嘉賓簡介:

  王金桥 ,中国科学院自动化研究所模式识别国家重点实验室研究员,博士生导师,中国科学院大学人工智能学院岗位教授,中科院人工智能创新研究院“2035团队”跨模态通用人工智能平台负责人。现任多模态人工智能产业联盟秘书长,中国技术创业协会技术创新工作委员会副理事长,获北京市高聚领军人才、广州市创新团队领军人才、山东省泰山领军人才等称号,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究。共发表包括IEEE T-PAMI、TIP、TNNLS、ICCV、CVPR、NeurIPS、ECCV等国际权威和顶级会议论文300余篇,国际杂志50余篇,国际会议220余篇。完成国家标准提案3项,发明专利36项,10项国际视觉算法竞赛冠军,吴文俊人工智能科技进步二等奖,中国发明创新银奖。曾携自主研发的人工智能机器人在CCTV1、CCTV2、CCTV3、北京卫视和湖南卫视等做技术展示。

  

文:張淵、周子雅

  • 相關附件:
  • 相關鏈接:
sitemap网站地图