GPT4V大型模型的各种能力都非常出色和全面。它不仅具有静态分析能力,而且在动态分析方便方面也非常出色。经过测试人员的详细评估,性能非常惊人。以下小边带来相关内容介绍,感兴趣的朋友来看看。
1.除静态内容外,GPT-4V也可以做动态分析,但不能直接给模型喂一段视频。
2.以上五张图片是从一段制作寿司的教程视频中截取的,GPT-4V的任务是(在理解内容的基础上)推测这些图片的顺序。
3.对于同一系列图片,可能会有不同的理解方式,即GPT-4V会结合文本提示进行判断。
4.例如,在下面的一组图片中,无论人的动作是开门还是关门,都会导致相反的排序结果。
5.当然,通过多张图片中人物状态的变化,也可以推断出他们在做什么。
6.甚至预测接下来会发生什么: