第363部分 (第3/5页)

而半九十’的,而是按照一个个技术阶段分别攻克的。他们要实现的最终目标,是‘通过让人工智能算法,识别出一个视频中,哪几帧画面才是决定全篇调性、故事主题的‘主要内容/中心思想’。

然后,再通过精读识别这些帧的画面上,有多少人物、什么动作、发生了什么故事’,最后总结出‘这视频大致是在说讲怎么样一个故事’。”

冯见雄说到这里的时候,稍微停顿了一下。也观察了杰克马的接受度,又通俗解释了几个点。

他的这番理论,如果都用术语表述,可能比较晦涩。

但是,举个小学生都懂的例子,横向对比一下,就通俗了谷歌科学家们,在调教“深度学习”型人工智能、理解人类语言文字/图像信息的时候,其实有点儿像老师给小学生上语文课。

相信小学生都记得,当年语文课的时候,老师会不厌其烦问你:这篇课文的主要内容是什么?中心思想是什么?线索是什么?

很多小学生当初肯定是内心有一万头羊驼奔腾而过:尼玛!老子知道这个课文说了啥,看懂不就好了?你问个屁的“主要内容”、“中心思想”啊!考试答错了还扣分!

但你别说,调教机器人学语文的时候,还真得严格按照“主要内容”、“中心思想”这么一步步总结下来。很多人类觉得可以靠本能绕过去、或者省略掉的步骤,机器是绕不过去的。

杰克马很快就懂了,示意他继续:“那么,然后呢?”

冯见雄继续解说:“既然知道谷歌的技术路线了,那么我们就可以推断:在实现最终极的目标之前,谷歌需要先解决‘读懂一张图里发生的故事’的问题,然后再考虑‘如何选出一个视频中最能体现中心思想的那几帧’。

那么,距离‘读懂一张图里的故事’这一步,谷歌目前差多远呢?我认为大致是三年目前谷歌已经可以做到识别图片里是不是有一张人脸,但还没法识别这个人到底是谁、和另一张照片里的人是不是同一个。

谷歌还能识别出‘图里有没有一只猫’,但识别不出‘这只猫和刚才那只猫是否是同一只’。而大约三年之后,这些都不是问题。谷歌能做到‘从识别出图里有只猫’,到‘识别这一帧在讲什么故事’。

我们如果紧跟谷歌的步伐,结合阿狸系的图像识别研发,就算留一年余量好了。那么2016年也能搞出‘让机器读懂一帧’的商用技术。当然,这里面肯定需要与阿狸系图像识别团队的深度合作,也需要后续的投资。

而对我来说,只要做到了‘识别出一帧’,我就能‘大致读懂整个故事’,从而把谷歌需要用纯技术手段解决的问题,用运营手段给暂时绕过去。”

技术不够,运营补。

这一招,冯见雄用得屡试不爽了。

“怎么补?”杰克马的语气已经有些急切,他觉得自己完全被冯见雄天才的脑洞给折服了。

“杰克,你看过n站的视频么?看过优酷或者youtube的么?”冯见雄不公布答案,而是先反问了一句。

“都看过吧,不多。”杰克马不明所以,回答得比较谨慎。

冯见雄终于到了揭开谜底的一刻,他傲然笑道:“那不知道你有没有发现一个细节优酷和youtube上的视频,其实都是没有‘封面’的,而我们n站的up主,在上传视频时,已经养成了另外传一张图片作为封面的习惯了当然,说实话,这个习惯不是up主们自发养成的,是我让天音硬逼着up主们养成的。

或许将来有人看到这一招有效之后,会跟风我。但是一个网站的内容提供者水平,是不可能一朝一夕提高的,用户习惯也不是一朝一夕可以改变的。优酷未来即使学了,他们的up主在选封面方面的水平,也是远远弱于

本章未完,点击下一页继续阅读。