对话松下康之：以具身智能突破AI与物理世界的边界

发布者：触摸天际 2024-11-19 20:12

2024年10月，松下康之（Yasuyuki Matsushita）博士在离开近十年之后重返微软亚洲研究院。再次加入，松下康之有了一个全新的身份——微软亚洲研究院（东京）负责人。在此之前，他曾于2003年至2015年间在微软亚洲研究院任职，主要研究方向包括计算机视觉、机器学习和优化等，随后他转赴大阪大学担任教授。

作为微软研究院全球化战略的一部分，微软亚洲研究院东京实验室的成立将进一步巩固微软研究院在亚太地区的科研投入。为此，我们与松下康之进行了一次深入的对话，回顾了他的职业生涯，探讨了科学技术的发展演变，并展望了微软亚洲研究院（东京）令人期待的新机遇。

微软亚洲研究院（东京）负责人松下康之（Yasuyuki Matsushita）博士

重返微软亚洲研究院

Q：欢迎您回到微软亚洲研究院，并肩负起建设东京实验室的重任。您曾在微软亚洲研究院的北京实验室工作了十二年，之后又转战学术界担任教授。是什么促使您在十年后选择回归微软亚洲研究院？

松下康之：微软亚洲研究院一直走在科学研究的最前沿，特别是在当前的人工智能时代。今年初，我得知了研究院计划扩展其研究网络，包括在东京设立新的实验室，这对我来说是一个令人激动的新机遇，让我有机会在本地进行具有深远影响的研究，也能在国际舞台上施展才干。而且，微软在人工智能领域处于领先地位，这也是我重新参与其中的一个最佳时机。

我相信，在微软亚洲研究院这个世界级的科研平台上，我能够为人工智能这个蓬勃发展的领域注入新的能量。参与到人工智能的发展中并贡献一份力量，也让我感到倍感兴奋。

微软亚洲研究院过去十年的变与不变

Q：在回来的这一个多月里，从您的角度看，过去十年微软亚洲研究院有哪些变与不变？

松下康之：一个最直接的感受就是员工使用的工具和资源有了显著的变化。我目前还在熟悉这些先进的数字化系统，它们极大地提高了我们的工作效率，并促进了团队间的协作。这十年间，微软不仅推动了其他公司的数字化转型，自身也经历了深刻的变革。

除此之外，微软亚洲研究院的许多独特之处依然如故，比如持续为人才的成长营造创新和协作的文化与环境。研究院始终拥有并吸引着对科学研究充满热情的优秀人才。微软亚洲研究院最大的优势之一就是开放与协作的精神，这一点在和众多高校与研究机构建立的长期合作伙伴关系中也得到了体现。这种合作促进了跨地区、跨文化和跨学科的交流，激发了创新，并推动了产业的发展。对卓越的不懈追求一直是微软亚洲研究院的核心特质，这一点始终未变。

对微软亚洲研究院（东京）的规划

Q：随着微软亚洲研究院在温哥华、东京、新加坡和香港等地区的扩展，您作为微软亚洲研究院（东京）的负责人对东京实验室有哪些规划？微软亚洲研究院（东京）的建立将如何为亚太地区的创新生态做出贡献？

松下康之：当前我的首要任务是确保东京实验室的发展与微软研究院的使命保持一致，即推动科学技术的进步，造福人类。东京实验室的研究将与日本社会经济发展的重点相契合，并特别关注具身智能（embodied AI）、社会福祉与神经科学、社会责任人工智能（societal AI），以及产业创新等领域。这些领域的研究工作旨在解决当前社会面临的紧迫挑战，并将推动人工智能技术的发展，使其惠及整个社会。

我们始终坚持开放的研究实践，通过发布并开源研究成果和工具，我们希望我们的工作能够使更广泛的行业从中受益，并为丰富全球知识库做出贡献。我们的目标是分享那些能够推动全社会进步和创新的深刻见解。

加速下一代人才成长

Q：人才成长与发展是微软研究院使命与文化的核心。微软亚洲研究院（东京）正在寻找具备哪些特质的人才？东京实验室将如何加大力度培养下一代科技创新人才？

松下康之：作为微软的一部分，我们的关键优势在于能够将研究与现实世界的应用紧密结合。这种研究与实践的桥梁可以确保我们的技术创新能够带来更加有意义且有益的成果，直接影响社会发展。

在招募新人时，我们寻找的是具有自驱力、强烈好奇心以及对解决社会挑战充满热情的伙伴。对复杂问题背后的“为什么”有强烈的求知欲是我们最看重的特质之一。虽然技术专长至关重要，但我们相信，致力于解决社会问题可以激发更多创造力并促进更多有意义的进步。而这种好奇心和使命感的结合更能激发创新，并推动微软亚洲研究院向前发展。

培养下一代科技创新人才也是微软亚洲研究院（东京）的核心愿景之一。我们将延续微软亚洲研究院过往成功孵化的人才培养项目，包括联合研究计划、访问学者项目和实习生项目等。这些项目为青年研究人员和学生提供了宝贵的实践经验，能够帮助他们掌握必要的科研技能，加深对复杂技术挑战的理解。

我们致力于营造一个有利于人才成长、协同合作并为全球科技发展做出贡献的科研环境。通过将技术创新与现实世界的需求紧密结合，我们希望可以激励新一代人才不断突破极限，推动社会进步。

计算机视觉领域的快速发展

Q：十年前您主要专注于光度学和视频分析领域的研究，能否分享一些当时的关键成果？您认为像人工智能这样的新兴技术对计算机视觉领域有什么影响？

松下康之：十年前我的研究重点集中在计算机视觉领域，特别是用于三维（3D）重建的光度学和提升视频质量的视频分析。在那个时期一个比较有影响力的项目是我们开发了一台能够捕捉高分辨率 3D 信息的十亿级像素相机。这台相机在敦煌莫高窟的文化保护中发挥了重要作用，它以前所未有的精度对敦煌壁画和佛像等文化遗产进行数字化保护。

另一个值得一提的项目是视频稳定技术，该技术作为媒体基础的一部分被集成到了 Windows 7 操作系统中。这项技术通过校正不必要的相机抖动提升了视频质量，实现了更流畅、专业的视频输出效果。在当时，能够实时处理并提升视频稳定性的算法是一项具有开创性的研究进展。

此后，深度学习、大规模数据集和复杂的神经网络架构的引入将计算机视觉推向了新的高度。曾经我们认为困难的任务，如目标检测、识别和分割，现在借助人工智能技术已经变得司空见惯。网络架构、学习策略的持续创新，以及增强的数据集，正在进一步拓展科学技术的边界。当前，一个令人兴奋的趋势是人工智能在现实世界交互场景中的应用，而这催生了具身智能这一新兴的研究领域，这也是我目前工作的一个重点。

理解具身智能：超越机器人技术

Q：您目前的研究方向主要是具身智能，那么请问具身智能是什么？它与我们熟悉的机器人技术有何不同？

松下康之：具身智能超越了传统机器人技术的范畴。机器人通常配有执行器，专门设计来完成特定的任务，而具身智能则侧重于开发能够执行复杂任务并在物理和虚拟环境中理解和交互的智能系统。过去，机器人技术和人工智能是两个相对独立的领域。具身智能则是这两个领域的融合，它可以将人工智能技术与能够在真实世界中感知、行动和学习的物理实体集成在一起。

本质上，具身智能是一个跨学科领域，它涉及机器人控制、强化学习、空间感知、人机交互和推理等多个方面。例如，具身智能拥有推断因果关系的能力，可以理解没有支撑的笔记本电脑会因重力而坠落。这种交互和认知能力源于对物理世界的接触和理解，因此，具身智能是一个令人兴奋且多面的研究领域。

正是由于具身智能的高度复杂性，没有任何单一组织能够独自覆盖其发展的所有方面。我们非常期望与工业界和学术机构合作，通过结合他们的专业知识和我们在人工智能领域的优势，共同推动具身智能领域的发展。

给计算机视觉与人工智能年轻科研人的建议

Q：您在学术界和工业界都有着深厚的研究经验。以教育者和科研人的双重身份，您对那些有志于投身于计算机视觉和人工智能研究的年轻人有什么建议？

松下康之：对于想要从事计算机视觉和人工智能领域研究的年轻人来说，扎实的数学基础和计算机科学知识是必不可少的。即使在研究课题与技术演进日新月异的今天，这些核心技能依然至关重要，例如对梯度、雅可比矩阵和向量空间等基础数学概念的深刻理解。掌握了这些原理，无论编程语言还是开发平台如何更迭，你都能游刃有余。

另外，持续学习的能力同样不可或缺，因为研究领域时刻都在发生变化。十年前，深度学习远不如今天这样重要，但现在它已经成为人工智能领域的基石。微软特别强调培养成长型思维，即要灵活适应变化、对新技术持开放态度，并随着行业的发展不断调整。新入行的研究者需要培养快速掌握新技能的能力，同时不断巩固基础知识，这种适应能力是在科研领域长期发展和取得成功的关键。