李·齐齐安格(Li Zhiqiang):将来,我们必须通过
发布时间:2025-08-10 09:13
“ 2025年世界机器人会议”于8月8日至12日在北京经济和技术发展区开业。 以下是语音成绩单: 大家好!我今天带给您的标题是“触觉增强的世界模型”。 现在,我看到许多人仍然对发展具有体现的智力感到非常疯狂。作为AI技术的资深人士,我很高兴看到这些发展。我于2011年从CMU毕业。当时,AI处于其发展的早期阶段。我将带您回顾AI开发的早期阶段。 Imete在2000年代初期开始了,然后视觉智能逐渐出生。当时,这还不够,自2010年以来,我一直试图确定视野中的不同事物。在过去的15年中,Openai的Chatgpt的多模式模型已开发为充分理解和重建语义。今天,我们进入了纯粹的视觉变化过程。 我认为体现智力的未来应该是过去15年来发展视觉情报的过去历史的起点。实际上,将来仍然有一些丢失的部分。我们应该做些什么来使它们促进体现智力的方向发展人工智能的发展。我们看到其中一些缺点。例如,我们仍然有一些世界物理模型的参数。实际上,许多人的VLA模型都可以很好地发挥他们的作用,我认为这也是一个很好的开始。 例如,某些材料和物理结构尺寸较高的参数仍然缺失。如果您想建立如此大的世界模型,那么您仍然需要进行一个过程。因此,我们认为我们可以获取无法获得的数据。我们可以参考以前的开发,通过摄像机的发展,我们将获得通过视觉模型的演变,更好的视觉识别,语义理解和听力理解。 将来,了解更多维度的事物需要提高理解触摸的能力。特别有趣的是,对触摸的理解和实施确实是我们的手。这是不同的vision和听力。远见和听力非常了解没有接触的事物,但是一旦我们联系,我们的执行器和感知者就完全统一了,这也是奇妙的事情之一。 因此,我们认为将来,我们需要通过按下来制造大型模型的缺点。可以通过触摸来增强VLA模型吗?真正促进体现情报的发展。 如何专门这样做?我们想进行思考的实验。每个人都可以尝试从他们的口袋里拿出一些东西。人们可以判断出出口口袋中的钥匙,耳机还是硬币。何W进行此过程并不是推理和计算的非常严格的逻辑。实际上,这是对IT反对者和人类世界的逐渐触摸和探索。结论有线,3D构造和物理世界映射。我很容易地知道这是关键,这是耳机。我认为机器人必须重新开发人类看到物理世界的能力。 如果有一天,一个机器人可以通过触摸和探索来重建人类的看法,我认为这是世界模型达到最终目的的那一天。如何专门这样做?我们也不是开拓者。我们应该从像素到体素。我们通过数字像素化获得了从真正物理世界的感知信息,最终通过三维物理世界的物理构建,将其导入到我们的物理模型,然后开发更多的尺寸nawa来生成体素的信息。 如果您想实现这一目标,那么这种触觉的理解系统需要满足三个条件。 第一个条件应该是人类感知的全部能力,它始于所有类似人类的触觉能力的反应。它应该基于必须具有人性的原则,建筑,性能和形式。 第二个条件是在系统工程优化功能中实现高诚实和稳定的系统。如果我们看看视力和听力的演变,我们都是从最初的低级人物,低分辨率逐渐是人类的。我们认为,触摸也应该具有类似的过程,逐渐接近人类的触觉能力,因此它必须完全作为人类的空间一致性,时机的稳定性,信号和生物拟合的整合性。 第三个条件是因为有必要实现智能,必须将其连接到体现的大型模型,并且应该开发出良好且稳定的算法系统,可以从头到尾组合到现有的VLA或VTLA模型,并可以发展人类的理解能力。 这三点需要满足成为理解的最终能力。 我们不是第一个在世界上建议的人。我们也尊重我们早期的。视觉触摸和轻触摸解决方案应该是我们至今已经看到的最佳触觉解决方案。 Yiji还发布了视觉触摸解决方案,这些解决方案将通过高诚实,高像素和稳定检查进行优化。 我们可以像人们一样反复处理这个物理世界的演变,然后再次构建对三维坐标系统和物理世界的三维形式的理解,产生更大的表现能力的维度,并最终将其输入大型模型,以实现实性智能的演变。第一个问题是硬件问题,可以通过触觉传感器来解决。 富有的情报在机车和导航方面做得很好,但是有still操作中的缺点,尤其是精制操作中,这种缺陷主要在数据中。数据集是我们最缺乏的。我们如何解决第二个问题是数据的问题。同时,我们还希望通过触觉传感器和触觉解决方案加速大量数据质量。如何做?我们也相信Nvidia建议的逻辑。如果您仅依靠强度-tao来收集数据,则始终将是线性的,无法忽略上海数据,例如OpenAI或ChatGpt。这种线性路径不能让我们朝着具体的智能端点移动。我们的想法是将真理用作锚点,并使用模拟作为数据加强过程,以及增加10次,100次甚至1000次的能力,以加速收集完整的大量数据。但这是一件事,应该有真实的数据作为锚点以增加数据的数量。 通过这种方式,我们可以达到对具体智能DAT的需求一个。如果体现的智能没有大量数据,那么促进其发展确实很难。我们进行了许多实验和实验。在物理模型中,我们首先试图通过NVIDIA的物理模型(例如胶水,螺丝刀和各种笔)来持有世界上数百万的东西。我们通过各种环境,不同的照明和不同的物理形式进行了模拟世界中的模拟和触摸。该算法可以尽快使用实际应用。 在此期间,我们首先通过仿真获得了主要模型,然后在现实中恢复了该模型的一些实际数据。最终,有可能充分重建最初需要一两个掌握尝试的场景。例如,可以识别不同的事物,甚至可以判断事物的位置和形状。 此外,在此过程中的稳定性需要实时校准。如果中断,它也可以返回最正式的姿势。我们不仅致力于Matagumpare案件,而且在失败的情况下也致力于。例如,当我们得到一些脆弱的东西时,人们会通过许多尝试学习。当我们知道失败的案件和成功的案件时,我们可以更快地达到最稳定的状态。 因此,我认为,通过硬件功能以及算法和数据添加的开发,我们可以输入快速行,以及如何最终满足用户的需求以及如何提供这些服务,NVIDIA建议使用通用的机器人体系结构,我们同意。将来应该更容易访问此体系结构。通过安排和处理原始材料,可以调用各种物理智能机,最终向用户交付给用户,我们的平民,我们的结果和用户的价值。通过这样的一般体系结构,可以实现总体价值的实现。 环球如何以及如何普遍?我们已经检查了世界上80%的一般案件,但是我们可以看到人们与众不同。例如,职业运动员和专业外科医生与人不同,他们的智力也更加专业,因此我们建议我们应该从异质和软件的角度连接这种解决方案。 阳光日的工作可以分为较低的脚强度和上肢的准确性。我们主要专注于上肢的精致操作和运动能力,我们可以看到它也适合第28个原则。全天的80%的活动可以由更一般的模量使用。有20%的特殊任务可以提供更专业的培训案例来解决。我们给您操纵作为服务。我们认为,Pine作为服务是更好的实施途径。通过包括硬件,软件和算法在内的服务,我们可以为所有需要精制操作的方案提供一般服务。这项服务将在此结束时采取一年,请保持专注。 最后,让我们介绍我们的公司Yimu Technology,该技术于2015年在美国的硅谷建立。我们的名字真的很有趣。五百二十五百万年前,Trilobite开发了一只眼睛,它可能会感到轻松,从而爆炸了整个寒武纪生物和所有Mattack生物的发展。我们相信,我们希望成为人工智能的第一个眼睛,这可以促进整个人工智能向未来的发展,以涵盖更高,更快的缩放法律,并做出自己的贡献。我们期待与所有人合作。 谢谢你的一切! 金融的官方帐户 24小时广播滚动滚动最新的财务和视频信息,并扫描QR码以供更多粉丝遵循(Sinafinance)