通过 LLM-OCR 来辅助搜索视频内容

之前不是有想法自行定义过信息的维度、并基于此设想一个新的 video search engine 嘛(如何检索视频),现在又有新东西了!

近期大模型开始进军 OCR 领域,那么……

依旧是从痛点出发。

首先提出需求:我想要一个系统,我作为用户提供某作品里的一个画面或一段描述,系统告诉我这是这个作品里面的哪一帧。

系统架构设计:

深得我心!博主晚餐加鸡腿!