World Labs là một công ty khởi nghiệp do chuyên gia AI nổi tiếng, giáo sư Stanford Li Fei Fei, thành lập vào năm 2024, chuyên phát triển hệ thống AI thế hệ tiếp theo với "trí thông minh không gian".
Kể từ khi thành lập, World Labs đã hoàn thành hai vòng tài trợ với tổng trị giá khoảng 230 triệu đô la. Các nhà đầu tư lớn bao gồm a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures và Intel Capital, trong số những nhà đầu tư khác. Định giá của công ty đã vượt qua 1 tỷ USD chỉ trong ba tháng, khiến nó trở thành một kỳ lân mới trong không gian AI.
Gần đây, Li Feifei đã có cuộc trò chuyện với hai đối tác của a16z, Martin Casado và Eric Torenberg, và cô đã lần đầu tiên công khai nói về việc xây dựng ý tưởng, định hướng nghiên cứu và tầm nhìn lớn đằng sau việc đồng sáng lập World Labs: quá khứ và hiện tại của chiến lược nền tảng a16z: từ VC "không muốn lau đít" đến "dịch vụ full-stack".
Li Feifei ngay từ đầu đã chỉ ra quan điểm cốt lõi của cuộc đối thoại này: "Tôi không cần mô hình ngôn ngữ lớn để thuyết phục tôi, mô hình thế giới mới là hướng quan trọng thực sự."
Cô ấy nhấn mạnh rằng trí tuệ không gian - dù là thế giới vật lý ba chiều mà chúng ta sống trong đó hay là vũ trụ số mà chúng ta tưởng tượng - đều là thành phần không thể thiếu của trí tuệ. Và hôm nay, cuối cùng chúng ta đã có khả năng tạo ra và tái tạo những vũ trụ này.
▍****Thông minh cổ xưa hơn cả ngôn ngữ: Nhận thức không gian và Tái tạo 3D
Li Feifei chỉ ra rằng so với ngôn ngữ, nhận thức không gian là một khả năng cổ xưa và bản năng hơn trong quá trình tiến hóa của con người. Cô chia sẻ kinh nghiệm cá nhân: cách đây vài năm do chấn thương giác mạc khiến mất thị lực lập thể trong một thời gian ngắn, trong thời gian đó, cô ngại lái xe một mình, ngay cả trên một con phố quen thuộc, và rất khó để đánh giá khoảng cách với chiếc xe bên cạnh.
Trải nghiệm thử nghiệm này đã giúp cô ấy nhận thức sâu sắc về vai trò cơ bản của hệ thống nhận thức 3 chiều trong hành động của con người. Đối với AI, nếu không thể xây dựng mô hình thế giới 3 chiều, nó sẽ không thể thực sự hiểu, thao tác hoặc tái tạo thế giới thực.
Martin Casado nói thêm rằng sự thiếu trí thông minh ba chiều này là lý do chính khiến robot và các hệ thống tình báo hiện thân chậm hạ cánh. Anh ấy sử dụng ví dụ của một người bình thường để giải thích rằng nếu bạn đưa một người vào một căn phòng lạ, bịt mắt anh ta, mô tả không gian bằng lời nói một mình, và sau đó để anh ta hoàn thành nhiệm vụ - điều đó gần như không thể. Khi mắt được mở ra, não sẽ tự động tái tạo mô hình không gian và hoàn thành hành động. Loại khả năng tái tạo này hoàn toàn thiếu trong các mô hình ngôn ngữ chính thống hiện nay.
▍****Từ NeRF đến điểm kỹ thuật của mô hình thế giới
Khi nói về lý do tại sao chọn thành lập World Labs vào lúc này, Li Feifei cho rằng đây là kết quả của sự tích lũy nghiên cứu học thuật lâu dài và nền tảng công nghiệp.
Cô ấy đã hồi tưởng rằng, cách đây bốn năm, một nghiên cứu có tên là NeRF (Trường bức xạ thần kinh) đã mở ra một con đường mới cho mô hình hóa thị giác 3D. Và người đề xuất NeRF chính là một trong những người đồng sáng lập hiện tại của World Labs, Ben Mildenhall.
Còn một người sáng lập khác là Christopher đã thực hiện nghiên cứu tiên phong trong lĩnh vực biểu diễn ba chiều hiệu quả, thúc đẩy sự trở lại của mô hình 3D thể tích trong ngành công nghiệp.
Cộng thêm Justin Johnson, người đã ứng dụng công nghệ GAN vào việc chuyển đổi phong cách hình ảnh từ sớm, những kết quả nghiên cứu rời rạc này giờ đây được tích hợp trong cùng một đội ngũ, xoay quanh một mục tiêu "ngôi sao Bắc Đẩu": xây dựng khả năng mô hình thế giới của AI.
Martin cho rằng mục tiêu này là do sự tích hợp sâu sắc của hai hệ thống: mô hình AI, dữ liệu và bản thân kiến trúc, và hệ thống kỹ thuật để kết xuất đồ họa và tái tạo không gian. Cho phép các chuyên gia từ hai thế giới này cộng tác hiệu quả trên một nền tảng duy nhất là một sự đổi mới quan trọng của tổ chức trong ngành công nghệ.
▍****Mô hình ngôn ngữ không phải là kết thúc, mà là phần mở đầu
Li Feifei nhấn mạnh rằng niềm tin của cô vào mô hình thế giới không phải đến từ sự thất vọng đối với LLM, mà là từ sự hiểu biết sâu sắc hơn về bản chất của trí tuệ.
Cô chỉ ra rằng ngôn ngữ là một cách nhận thức "nén có tổn hại", nó trừu tượng hóa thế giới nhưng cũng mất đi nhiều thông tin vật lý và cảm nhận phong phú. Thế giới thực sự không có từ ngữ, ngữ pháp và văn bản, chỉ có vật lý, chuyển động và cấu trúc ba chiều.
Quan điểm này cũng đã thay đổi nhận thức của cô ấy về hình thức mà các công ty AI nên có. Việc chuyển từ giáo sư Stanford sang doanh nhân là do cô ấy nhận ra rằng, để mô hình hóa trí thông minh không gian, chỉ dựa vào nghiên cứu học thuật là không đủ - cần có sự đầu tư vào sức mạnh tính toán công nghiệp, khả năng điều phối kiến trúc hệ thống cấp cao và khả năng hợp tác với những tài năng hàng đầu từ các lĩnh vực khác nhau.
Và tất cả những điều này chỉ có thể thực sự hiện thực hóa trong một công ty có tổ chức rất cao và khả năng hợp tác kỹ thuật toàn diện nổi bật.
▍****Ứng dụng thông minh không gian vượt xa robot
Đối với hầu hết mọi người, "mô hình thế giới" vẫn là một thuật ngữ khoa học trừu tượng. Nhưng Li Feifei và Martin chỉ ra rằng các ứng dụng của nó vượt xa việc lái xe tự động và robot.
Sáng tạo vốn là trực quan. Thiết kế công nghiệp, làm phim, sáng tác kiến trúc và thậm chí cả phát triển trò chơi đều dựa vào xây dựng và điều khiển 3D. Và nếu AI có khả năng mô hình hóa thế giới, nó không chỉ có thể "hiểu" thế giới 3D mà còn có thể "tạo" và "thao túng" không gian ảo.
Martin mô tả rằng, chỉ cần một bức ảnh của bàn, mô hình có thể suy luận ra hình dạng và chất liệu phía sau, từ đó xây dựng một không gian hoàn chỉnh. Trên cơ sở đó, người dùng thậm chí có thể đo lường, thêm, xóa hoặc thiết kế lại không gian. Đây là một cách tương tác giữa người và máy tính trực quan và tự do hơn so với các lệnh bằng văn bản, đồng thời mở ra một chiều không gian hoàn toàn mới cho thiết kế, sáng tạo và thử nghiệm mô phỏng.
Li Feifei tiếp tục đề xuất rằng không gian số đang mang đến một cơ hội biến đổi chưa từng có: "Con người cho đến nay chỉ sống trong một thế giới vật lý ba chiều. Nhưng thế giới số sẽ lần đầu tiên cho phép chúng ta bước vào 'vũ trụ đa chiều'."
Cô trích dẫn một vài ví dụ: vũ trụ được xây dựng cho robot, vũ trụ cho sự sáng tạo của con người, và các câu chuyện, giao tiếp và du lịch trải nghiệm. Những không gian này, từng chỉ tồn tại trong trí tưởng tượng, giờ đây sẽ thực sự được tạo ra, hiểu, sử dụng và biến đổi bởi máy móc.
▍****Mô hình cơ bản cho trận chiến tiếp theo, mô hình 3D toàn cảnh
Quay trở lại với công nghệ, Li Feifei nhấn mạnh rằng World Labs không chỉ muốn tạo ra một AI "có khả năng nhìn", mà còn muốn AI hiểu cấu trúc ba chiều, động lực học và logic tổ hợp của thế giới. Đây không chỉ là một vấn đề kỹ thuật khó hơn, mà còn là một triết lý biểu diễn hoàn toàn mới.
Cô ấy cho rằng, những phát hiện khoa học như cấu trúc xoắn kép của DNA, bóng fullerene, đều là tinh hoa của trí thông minh không gian. Chỉ dựa vào ngôn ngữ không thể suy ra được những cấu trúc hình học này. Đó cũng là lý do tại sao mô hình thế giới không chỉ có thể nâng cao khả năng hiểu biết của máy móc, mà còn có thể mở ra những con đường sáng tạo mới cho khoa học và nghệ thuật của con người.
Martin tổng kết rằng, cuộc cách mạng do LLM mang lại đã chứng minh một thực tế: khi chúng ta tìm ra cấu trúc dữ liệu và cách biểu diễn mô hình đúng, khả năng của AI sẽ bùng nổ theo cấp số nhân. Hiện tại, họ tin rằng "mô hình thế giới" đang đứng trước một điểm tới hạn tương tự.
▍****Hiểu và xây dựng chìa khóa của thế giới
"Chúng ta thực sự đang lùi lại trên con đường tiến hóa." Martin đưa ra quan điểm này khi toàn bộ cuộc đối thoại cũng đã đi vào phạm trù triết học.
Ngôn ngữ là một trong những mô-đun mới nhất trong quá trình tiến hóa của não người, trong khi hệ thống nhận thức không gian đã xuất hiện từ thời động vật chân đốt và đã tồn tại trong 500 triệu năm. AI ngày nay, nếu chỉ "học ngôn ngữ" thì không thể thực sự gọi là "hiểu thế giới". Chỉ bằng cách xây dựng một mô hình không gian giống con người, AI mới có thể thực sự bước vào cánh cửa của "trí thông minh hiện thân".
Lý Phi Phi tóm tắt bằng giọng điệu kiên định như thường lệ: "Tôi đã luôn chờ đợi ngày này. Không phải vì tôi không tin vào mô hình ngôn ngữ, mà vì tôi hiểu rõ: thế giới thực sự không phải được cấu thành từ văn bản."
Mô hình thế giới chính là chìa khóa để AI thực sự hiểu và xây dựng thế giới này. I/O đến iO, Jony Ive sẽ thúc đẩy một phong trào thiết kế mới - AI đang viết lại mô hình tính toán và định nghĩa phần cứng, cũng là chiến trường mới sau các mô hình lớn.
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Đối thoại a16z: LLM là nén mất mát, mô hình thế giới mới là hướng đi thực sự.
World Labs là một công ty khởi nghiệp do chuyên gia AI nổi tiếng, giáo sư Stanford Li Fei Fei, thành lập vào năm 2024, chuyên phát triển hệ thống AI thế hệ tiếp theo với "trí thông minh không gian".
Kể từ khi thành lập, World Labs đã hoàn thành hai vòng tài trợ với tổng trị giá khoảng 230 triệu đô la. Các nhà đầu tư lớn bao gồm a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures và Intel Capital, trong số những nhà đầu tư khác. Định giá của công ty đã vượt qua 1 tỷ USD chỉ trong ba tháng, khiến nó trở thành một kỳ lân mới trong không gian AI.
Gần đây, Li Feifei đã có cuộc trò chuyện với hai đối tác của a16z, Martin Casado và Eric Torenberg, và cô đã lần đầu tiên công khai nói về việc xây dựng ý tưởng, định hướng nghiên cứu và tầm nhìn lớn đằng sau việc đồng sáng lập World Labs: quá khứ và hiện tại của chiến lược nền tảng a16z: từ VC "không muốn lau đít" đến "dịch vụ full-stack".
Li Feifei ngay từ đầu đã chỉ ra quan điểm cốt lõi của cuộc đối thoại này: "Tôi không cần mô hình ngôn ngữ lớn để thuyết phục tôi, mô hình thế giới mới là hướng quan trọng thực sự."
Cô ấy nhấn mạnh rằng trí tuệ không gian - dù là thế giới vật lý ba chiều mà chúng ta sống trong đó hay là vũ trụ số mà chúng ta tưởng tượng - đều là thành phần không thể thiếu của trí tuệ. Và hôm nay, cuối cùng chúng ta đã có khả năng tạo ra và tái tạo những vũ trụ này.
▍****Thông minh cổ xưa hơn cả ngôn ngữ: Nhận thức không gian và Tái tạo 3D
Li Feifei chỉ ra rằng so với ngôn ngữ, nhận thức không gian là một khả năng cổ xưa và bản năng hơn trong quá trình tiến hóa của con người. Cô chia sẻ kinh nghiệm cá nhân: cách đây vài năm do chấn thương giác mạc khiến mất thị lực lập thể trong một thời gian ngắn, trong thời gian đó, cô ngại lái xe một mình, ngay cả trên một con phố quen thuộc, và rất khó để đánh giá khoảng cách với chiếc xe bên cạnh.
Trải nghiệm thử nghiệm này đã giúp cô ấy nhận thức sâu sắc về vai trò cơ bản của hệ thống nhận thức 3 chiều trong hành động của con người. Đối với AI, nếu không thể xây dựng mô hình thế giới 3 chiều, nó sẽ không thể thực sự hiểu, thao tác hoặc tái tạo thế giới thực.
Martin Casado nói thêm rằng sự thiếu trí thông minh ba chiều này là lý do chính khiến robot và các hệ thống tình báo hiện thân chậm hạ cánh. Anh ấy sử dụng ví dụ của một người bình thường để giải thích rằng nếu bạn đưa một người vào một căn phòng lạ, bịt mắt anh ta, mô tả không gian bằng lời nói một mình, và sau đó để anh ta hoàn thành nhiệm vụ - điều đó gần như không thể. Khi mắt được mở ra, não sẽ tự động tái tạo mô hình không gian và hoàn thành hành động. Loại khả năng tái tạo này hoàn toàn thiếu trong các mô hình ngôn ngữ chính thống hiện nay.
▍****Từ NeRF đến điểm kỹ thuật của mô hình thế giới
Khi nói về lý do tại sao chọn thành lập World Labs vào lúc này, Li Feifei cho rằng đây là kết quả của sự tích lũy nghiên cứu học thuật lâu dài và nền tảng công nghiệp.
Cô ấy đã hồi tưởng rằng, cách đây bốn năm, một nghiên cứu có tên là NeRF (Trường bức xạ thần kinh) đã mở ra một con đường mới cho mô hình hóa thị giác 3D. Và người đề xuất NeRF chính là một trong những người đồng sáng lập hiện tại của World Labs, Ben Mildenhall.
Còn một người sáng lập khác là Christopher đã thực hiện nghiên cứu tiên phong trong lĩnh vực biểu diễn ba chiều hiệu quả, thúc đẩy sự trở lại của mô hình 3D thể tích trong ngành công nghiệp.
Cộng thêm Justin Johnson, người đã ứng dụng công nghệ GAN vào việc chuyển đổi phong cách hình ảnh từ sớm, những kết quả nghiên cứu rời rạc này giờ đây được tích hợp trong cùng một đội ngũ, xoay quanh một mục tiêu "ngôi sao Bắc Đẩu": xây dựng khả năng mô hình thế giới của AI.
Martin cho rằng mục tiêu này là do sự tích hợp sâu sắc của hai hệ thống: mô hình AI, dữ liệu và bản thân kiến trúc, và hệ thống kỹ thuật để kết xuất đồ họa và tái tạo không gian. Cho phép các chuyên gia từ hai thế giới này cộng tác hiệu quả trên một nền tảng duy nhất là một sự đổi mới quan trọng của tổ chức trong ngành công nghệ.
▍****Mô hình ngôn ngữ không phải là kết thúc, mà là phần mở đầu
Li Feifei nhấn mạnh rằng niềm tin của cô vào mô hình thế giới không phải đến từ sự thất vọng đối với LLM, mà là từ sự hiểu biết sâu sắc hơn về bản chất của trí tuệ.
Cô chỉ ra rằng ngôn ngữ là một cách nhận thức "nén có tổn hại", nó trừu tượng hóa thế giới nhưng cũng mất đi nhiều thông tin vật lý và cảm nhận phong phú. Thế giới thực sự không có từ ngữ, ngữ pháp và văn bản, chỉ có vật lý, chuyển động và cấu trúc ba chiều.
Quan điểm này cũng đã thay đổi nhận thức của cô ấy về hình thức mà các công ty AI nên có. Việc chuyển từ giáo sư Stanford sang doanh nhân là do cô ấy nhận ra rằng, để mô hình hóa trí thông minh không gian, chỉ dựa vào nghiên cứu học thuật là không đủ - cần có sự đầu tư vào sức mạnh tính toán công nghiệp, khả năng điều phối kiến trúc hệ thống cấp cao và khả năng hợp tác với những tài năng hàng đầu từ các lĩnh vực khác nhau.
Và tất cả những điều này chỉ có thể thực sự hiện thực hóa trong một công ty có tổ chức rất cao và khả năng hợp tác kỹ thuật toàn diện nổi bật.
▍****Ứng dụng thông minh không gian vượt xa robot
Đối với hầu hết mọi người, "mô hình thế giới" vẫn là một thuật ngữ khoa học trừu tượng. Nhưng Li Feifei và Martin chỉ ra rằng các ứng dụng của nó vượt xa việc lái xe tự động và robot.
Sáng tạo vốn là trực quan. Thiết kế công nghiệp, làm phim, sáng tác kiến trúc và thậm chí cả phát triển trò chơi đều dựa vào xây dựng và điều khiển 3D. Và nếu AI có khả năng mô hình hóa thế giới, nó không chỉ có thể "hiểu" thế giới 3D mà còn có thể "tạo" và "thao túng" không gian ảo.
Martin mô tả rằng, chỉ cần một bức ảnh của bàn, mô hình có thể suy luận ra hình dạng và chất liệu phía sau, từ đó xây dựng một không gian hoàn chỉnh. Trên cơ sở đó, người dùng thậm chí có thể đo lường, thêm, xóa hoặc thiết kế lại không gian. Đây là một cách tương tác giữa người và máy tính trực quan và tự do hơn so với các lệnh bằng văn bản, đồng thời mở ra một chiều không gian hoàn toàn mới cho thiết kế, sáng tạo và thử nghiệm mô phỏng.
Li Feifei tiếp tục đề xuất rằng không gian số đang mang đến một cơ hội biến đổi chưa từng có: "Con người cho đến nay chỉ sống trong một thế giới vật lý ba chiều. Nhưng thế giới số sẽ lần đầu tiên cho phép chúng ta bước vào 'vũ trụ đa chiều'."
Cô trích dẫn một vài ví dụ: vũ trụ được xây dựng cho robot, vũ trụ cho sự sáng tạo của con người, và các câu chuyện, giao tiếp và du lịch trải nghiệm. Những không gian này, từng chỉ tồn tại trong trí tưởng tượng, giờ đây sẽ thực sự được tạo ra, hiểu, sử dụng và biến đổi bởi máy móc.
▍****Mô hình cơ bản cho trận chiến tiếp theo, mô hình 3D toàn cảnh
Quay trở lại với công nghệ, Li Feifei nhấn mạnh rằng World Labs không chỉ muốn tạo ra một AI "có khả năng nhìn", mà còn muốn AI hiểu cấu trúc ba chiều, động lực học và logic tổ hợp của thế giới. Đây không chỉ là một vấn đề kỹ thuật khó hơn, mà còn là một triết lý biểu diễn hoàn toàn mới.
Cô ấy cho rằng, những phát hiện khoa học như cấu trúc xoắn kép của DNA, bóng fullerene, đều là tinh hoa của trí thông minh không gian. Chỉ dựa vào ngôn ngữ không thể suy ra được những cấu trúc hình học này. Đó cũng là lý do tại sao mô hình thế giới không chỉ có thể nâng cao khả năng hiểu biết của máy móc, mà còn có thể mở ra những con đường sáng tạo mới cho khoa học và nghệ thuật của con người.
Martin tổng kết rằng, cuộc cách mạng do LLM mang lại đã chứng minh một thực tế: khi chúng ta tìm ra cấu trúc dữ liệu và cách biểu diễn mô hình đúng, khả năng của AI sẽ bùng nổ theo cấp số nhân. Hiện tại, họ tin rằng "mô hình thế giới" đang đứng trước một điểm tới hạn tương tự.
▍****Hiểu và xây dựng chìa khóa của thế giới
"Chúng ta thực sự đang lùi lại trên con đường tiến hóa." Martin đưa ra quan điểm này khi toàn bộ cuộc đối thoại cũng đã đi vào phạm trù triết học.
Ngôn ngữ là một trong những mô-đun mới nhất trong quá trình tiến hóa của não người, trong khi hệ thống nhận thức không gian đã xuất hiện từ thời động vật chân đốt và đã tồn tại trong 500 triệu năm. AI ngày nay, nếu chỉ "học ngôn ngữ" thì không thể thực sự gọi là "hiểu thế giới". Chỉ bằng cách xây dựng một mô hình không gian giống con người, AI mới có thể thực sự bước vào cánh cửa của "trí thông minh hiện thân".
Lý Phi Phi tóm tắt bằng giọng điệu kiên định như thường lệ: "Tôi đã luôn chờ đợi ngày này. Không phải vì tôi không tin vào mô hình ngôn ngữ, mà vì tôi hiểu rõ: thế giới thực sự không phải được cấu thành từ văn bản."
Mô hình thế giới chính là chìa khóa để AI thực sự hiểu và xây dựng thế giới này. I/O đến iO, Jony Ive sẽ thúc đẩy một phong trào thiết kế mới - AI đang viết lại mô hình tính toán và định nghĩa phần cứng, cũng là chiến trường mới sau các mô hình lớn.