美科学家“训练”电脑分析录像内容

顾汉现 · 发表于 2009-4-27 13:37:30

美科学家“训练”电脑分析录像内容

发布时间：2009-4-26 19:05:45

美科学家“训练”电脑分析录像内容

模式识别中最为公众熟悉的是对指纹的识别。

　派罗那制造了会看录像的机器人

电脑已经能够帮助人们看录像了！近日，美国加州理工学院的科学家们训练电脑从录像中自动分析果蝇的攻击和求偶行为，这开启了大规模的基因控制行为研究的新方法。

1　基本工作

电脑也会“看录像”

这个程序可以让电脑自动检测半小时长度的关于果蝇间互动的录像，它可以近乎实时地自动描述一组新培养的果蝇的行为模式，整个过程大约半小时，而人类做同样的工作需要超过100小时。

这个项目由加州理工学院电子工程教授佩特罗·派罗那(Pietro Perona)，以及该学院的生物学教授大卫·安德森(David Anderson)共同主持。

安德森说：“每个人都想知道基因如何控制行为，但是如果你想要对复杂的社会行为，比如攻击和求偶的行为进行基因分析，你就需要精确的方法来测量或者统计这些行为。”

以前，做到这件事的惟一方法是让学生们“一遍又一遍地看录像，每一次统计一种行为”。用这种方法来统计果蝇的一大堆行为：突刺、扭打、追逐、绕圈、交尾，甚至于确定一只果蝇在遇到另一只果蝇时身体和翅膀的动作，都需要让学生们反复看录像，每一次确定一对果蝇的动作。“如果用这种方式确定基因变异对攻击行为的影响，我们需要分析大约2000对果蝇，如果没有一支‘研究生军团’，我们根本不可能做这件事。”

这时派罗那和电子工程学博士后海科·丹科特(Heiko Dankert)及时出现，运用机器视觉和其他新工程成就来“训练”电脑“看”和“识别”攻击和求偶行为。结果是，一个自动系统可以在几分钟之内统计录像中互动的果蝇的各类行为。

派罗那说：“机器视觉的域运用已经有年头了。通过选择已经存在的机器视觉技术，我们可以做出比以往曾经验证过的任何东西都有效的系统。”

2　发展目标

最终目标研究“人”

这个小组先“喂”给电脑一些特定的果蝇动作的视频，比如“突刺”的动作，就是果蝇先缩短身体，然后突然弹开身体，跳到离另一只果蝇几厘米远的地方。

当电脑掌握了这些细节，研究者会比较同一段录像机器分析的结果和人工分析的结果，安德森说：“我们要看电脑抓住了多少次，错过了多少次，通过查看电脑犯下的错误，我们可以更好地完善我们的描述，从而创造一个更精确的体系”。最后，这种“千锤百炼”的自动程序比人工统计还要准确！

而派罗那表示，以前的实验录像中只有100到1000帧图像，而现在的实验录像中可以有10万帧图像，以前的实验会犯很多计数上的错误，而我们的错误非常少，我们可以给出非常准确的统计数据。

安德森说，下一步，他们将把这种自动行为统计方法扩展到老鼠实验中。比起果蝇，哺乳类的行为更加模糊，更不容易用机器识别。为什么要费这个劲呢？因为科学家们不仅仅想了解基因对果蝇行为的影响，他们最终要了解基因对人类行为的影响，那么就一定要研究小白鼠的行为。

派罗那说：“我们的视觉系统可以告诉我们很多关于其他人在干什么的信息———谁在吃东西，谁在打人，谁在脸红，谁泡到了女生或者勾到了男生，我们的领域‘计算机视觉’的最终目标是设计一个机器，能够探测和理解人类的动机和行为。为了达到这个目的，我们需要从更简单的生命体开始。安德森给我展示了果蝇的行为是多么丰富和有趣，所以我们开始合作。”

安德森补充说：“现在我们可以从这些视频中‘挤’出很多信息，它有助于我们理解是什么控制着果蝇的社会互动行为，它让我们现在可以研究以前根本不可能研究的东西。”

3　相关技术

模式识别是关键

机器视觉就是将计算机视觉的方法运用到工业生产和其他实际操作中。计算机视觉主要集中在基于电脑的图像处理，机器视觉往往还需要数字输入/输出设备和计算机网络，以控制其他的设备，比如说机器手臂。机器视觉融合了电脑科技、光学、机械工程和工业自动化等领域。比较简单的机器视觉可以做的事情包括快速检验生产出来的罐头、针管是否合格、迅速读取零件上的标码、寻找机器周围遗落的螺钉等等。而在“果蝇”的例子中，机器视觉重点应该还是在计算机视觉的领域。

机器视觉和两个概念息息相关，一个是“计算机视觉”，另一是“图像处理”，这三者之间有着密切的联系，之间的界限非常模糊，经常被混为一谈。实际上，在“训练电脑研究果蝇”这个例子中，三个领域的成果都有重要的应用，研究人员在接受采访的时候只说“机器视觉”仅是一种简化说法而已。

图像处理指用计算机对图像进行分析和处理，以达到所需结果的技术。图像处理包括图像的压缩、图像的增强和复原，以及图像的匹配、描述和识别这三个部分。北京理工大学模式识别副教授吴晓兵说，要实现机器视觉，应当首先对图像进行增强、去噪声、方向滤波等方面的处理。我们在好莱坞电影中，看到特工人员把一幅模糊的录像截图，迅速地转化成一幅清晰的人像照片。吴晓兵说，这就是对图像的“锐化”，是图像处理的一种。当然，电影中对机器的这种能力有所夸大，锐化只能部分改善图片质量，不可能达到这么好的效果。而图像处理最前沿的部分是“模式识别”。在一个定义中，模式识别是通过以往的知识，或者通过从模式中提取的常数来对数据进行归类的技术。

听起来很费解，但是其实“模式识别”在我们的生活中时时需要用到，有简单点的，比如一堆豆子里找到坏掉的豆子，也有很难的，比如在参加酒会的人群里找到可以搭讪的对象。可以说，模式识别是人类的一项基本智能，但是让机器学会这个本事可就费老劲了。吴晓兵说：“模式识别就是要告诉你‘目标图像是什么’。”

4　实际应用

人脸识别很典型

人脸识别是最典型的模式识别。吴晓兵说。首先要做的是在一个图像中找到人脸。人脸一般是椭圆形的，机器容易辨认，然后在脸上找到眼、鼻、嘴等器官。这些器官和周围的其他东西的对比度是不一样的，而且位置比较固定，所以容易找到。即使脸稍微模糊一点，或者角度略偏一点，机器也可以识别。

下一步是识别这张脸是谁的脸。机器可以通过矩阵运算来对比图片上的脸和目标库里的脸在像素上的相似度，也可以通过选定的特征点进行比较。不过，现在人脸识别并未特别广泛地运用，除了像奥运安检这样的特殊场合，这种技术不常使用。这是因为人脸比较复杂，不容易识别———在图片画面比较杂乱的情况下经常有误认的情况，比如把树皮误认为人脸———其实这种现象在人类视觉里也经常出现。至于像著名美剧《越狱》中表现的，通过卫星图像来确定一个人的脸，现在是根本不可能的。相比起来，指纹识别是更简单的模式识别。人类觉得认出人脸比认出指纹容易，但电脑的看法正相反，所以指纹识别的运用很广泛。

那么，电脑能识别人的表情吗？吴晓兵说，对于一个特定的人来说这个技术实现很容易，前提是要建立这个人各种表情的资料库，但是现在还无法做到用机器对任意一个人的表情进行识别。

至于加州理工学院的机器视觉运用，吴晓兵表示这并不算难。电脑可以通过将一帧图像和上一帧图像相比较来确定运动的趋势，这在受控的实验室背景下相当容易实现。北京理工大学曾经实验开发过一段足球录像搜索系统，可以自动找到进球片段，运用的就是类似的技术。

机器视觉的未来是什么？吴晓兵说，未来想要达到的是机器对图像的理解。比如机器人看到一段楼梯，它能够理解其中的空间关系，并且决定是否上楼，当然，这其中已经包含人工智能的成分了。