AI解读视频张口就来？这种「幻觉」难题Vista-LLaMA给解决了

机器之心专栏论文主页：图1技术创新路径图2图3图4基准测试结果图5数据集：CineClipQA图6与Vista-LLaMA一同提出的还有CineClipQA新数据集。问题主要分为五类：识别、时间性（预......

机器之心专栏

论文主页：

图1

技术创新路径

图2

图3

图4

基准测试结果

图5

数据集：CineClipQA

图6

与Vista-LLaMA一同提出的还有CineClipQA新数据集。

问题主要分为五类：识别、时间性（预测）、空间性（互动）、意图和感知。具体来说，识别包括地点和行动的问题；时间性涉及下一个行动、之前的行动、同时发生的行动和预测行动的问题；空间性涉及物体与人之间的空间信息问题；意图涉及行动目的地三种相似问题；最后，感知检查情感识别和询问“如何”（方式、态度等）。

该研究还提供了所有16种类型的详细解释和相应案例。在CineClipQA数据集中，Vista-LLaMA也表现出了卓越的性能。

图7

更多详情，请访问项目页面[]。

关于字节跳动智能创作团队

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。

本文由admin于2025-10-13发表在摇海投影，如有疑问，请联系我们。
本文链接：https://www.yaohaizhijun.cn/416312863167.html