Xiaohu trình diễn quy trình làm việc đa mô hình: GPT tạo ảnh + Gemini 3.1 Pro chuyển thành nội dung 3D tương tác

Nhà quan sát AI người Trung Quốc xiaohu hôm 10/5 chia sẻ một ví dụ quy trình làm việc kết hợp GPT và Gemini 3.1 Pro: trước tiên dùng GPT để tạo hình ảnh, sau đó dùng Gemini 3.1 Pro để chuyển hình ảnh thành nội dung 3D tương tác, có thể biến bất kỳ chủ đề kiến thức nào thành các ứng dụng khoa học có thể xoay và thao tác. Các ví dụ được xiaohu đăng kèm tweet gồm trình chiếu 3D các hành tinh, mô hình khoa học tương tác,… là một thực hành cụ thể của “quy trình làm việc đa mô hình” (multi-model workflow).

Cấu trúc quy trình: GPT sinh ảnh → Gemini 3.1 Pro chuyển thành 3D

Thiết kế theo hai giai đoạn của toàn bộ quy trình:

Giai đoạn một: dùng GPT (GPT-image-1 hoặc trình tạo hình ảnh tích hợp sẵn trong ChatGPT) để tạo ra hình ảnh theo chủ đề, cung cấp nền tảng thị giác

Giai đoạn hai: đưa ảnh vào Gemini 3.1 Pro, để Gemini chuyển đổi hình ảnh 2D thành nội dung 3D tương tác

Định dạng đầu ra: các đối tượng 3D có thể xoay, thu phóng, tương tác ngay trong trình duyệt

Trường hợp áp dụng: giáo dục khoa học, trưng bày sản phẩm, nội dung tri thức tương tác

“Quy trình làm việc đa mô hình” là một trong những xu hướng chủ chốt của lớp ứng dụng AI năm 2026 — một mô hình đơn lẻ không còn là công cụ vạn năng; nhà phát triển sẽ ghép nối phần mạnh nhất của các mô hình khác nhau để tạo ra các ứng dụng mà một mô hình đơn lẻ không thể làm được.

Trình diễn cụ thể: các hành tinh 3D, nội dung khoa học tương tác, trang web bán hàng của robot

Các ví dụ nhiều mẫu mà xiaohu đồng thời công bố:

Trình chiếu hành tinh 3D: hệ mặt trời có thể xoay hoặc mô hình một hành tinh

Nội dung khoa học tương tác: biến kiến thức trừu tượng thành trực quan 3D, phù hợp cho mục đích giáo dục

Trang web tương lai của máy bán hàng robot: dùng GPT sinh ảnh kết hợp với nền tảng Tripo 3D, tạo ra trang web mang tính trưng bày

Điểm chung của các ví dụ này là “tạo hình ảnh + chuyển đổi tương tác” — GPT chịu trách nhiệm cho phần thị giác giàu tính sáng tạo, còn Gemini hoặc các công cụ 3D khác chịu trách nhiệm biến ảnh tĩnh thành dạng tương tác có thể thao tác. Lấy từng phần riêng ra thì chưa hẳn là mới, nhưng khi ghép nối, trải nghiệm cuối cùng mạnh hơn bất kỳ công cụ đơn lẻ nào.

Ý nghĩa: quy trình làm việc đa mô hình dần trở thành phương thức phát triển chủ đạo

Các gợi ý cụ thể cho nhà phát triển:

Chọn đúng công cụ quan trọng hơn chọn mô hình mạnh nhất — GPT mạnh về thị giác, Gemini mạnh về hiểu đa phương thức, Claude mạnh về context dài, mỗi công cụ đều có “điểm ngọt” riêng

Chi phí tích hợp API mô hình giảm xuống, việc ghép nối nhiều mô hình ở mức triển khai trở nên khả thi

Ứng dụng kiểu mới rất có thể là “pipeline đa mô hình”, chứ không phải là phần mở rộng của “một mô hình đơn lẻ mạnh nhất”

Giá trị của dự án này không nằm ở đột phá kỹ thuật, mà nằm ở các mẫu thiết kế quy trình làm việc

Các sự kiện cụ thể có thể theo dõi tiếp theo: khả năng tạo 3D của Gemini 3.1 Pro có được Google công bố chính thức như một tính năng sản phẩm trong các hoạt động sắp tới hay không; quy trình làm việc đa mô hình có nhận hỗ trợ mẫu mặc định trong các khung như LangChain/LlamaIndex hay không; và các ví dụ áp dụng thương mại cụ thể (như giáo dục, thương mại điện tử, marketing).

Bài viết này của xiaohu minh họa quy trình làm việc đa mô hình: GPT sinh ảnh + Gemini 3.1 Pro chuyển thành nội dung 3D tương tác lần đầu xuất hiện tại Chuỗi tin ABMedia.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.

Bài viết liên quan

Alibaba Cloud ra mắt kế hoạch token cho đội ngũ với hơn 10 mô hình hôm nay

Theo Beating, Alibaba Cloud đã ra mắt hôm nay Kế hoạch Token dành cho Đội (Team Token Plan), cung cấp gói đăng ký cho hơn 10 mô hình ngôn ngữ lớn, bao gồm Qwen 3.6, Kimi-K2.6, GLM-5.1 và Wan 2.7. Người dùng có thể linh hoạt chuyển đổi giữa các mô hình cho tạo mã, tổng hợp hình ảnh và các tác vụ khác. Phiên bản dành cho đội khác với gói cá nhân ở các tính năng quản lý cho doanh nghiệp. Quản trị viên có thể quản lý phân bổ chỗ ngồi, theo dõi mức sử dụng và đặt giới hạn ngân sách trên ba hạng: Stan

GateNews6giờ trước

Đông Quan sản xuất một nửa lượng kính AI toàn cầu vào năm 2025

Các công ty tại Đông Quản đã xuất xưởng hơn 4 triệu đôi kính thông minh AI trong năm 2025, chiếm gần một nửa trong tổng số 8,7 triệu đôi toàn cầu, theo công ty nghiên cứu Omdia. Thành phố Quảng Đông đứng đầu thế giới về khối lượng xuất xưởng, trong khi lượng kính thông minh AI toàn cầu tăng 322% so với năm trước. Vị thế thị trường của Đông Quản và sự hỗ trợ của chính quyền Sự thống trị của thành phố trong sản xuất kính thông minh AI phản ánh cả hạ tầng điện tử sẵn có và các sáng kiến chính sách

CryptoFrontier8giờ trước

UXLINK tích hợp hạ tầng tính toán AI của Origins Network để mở rộng quy mô cho Web3

Theo thông báo chính thức của UXLINK ngày 11/5, giao thức mạng xã hội Web3 đã công bố hợp tác chiến lược với Origins Network nhằm tích hợp hạ tầng điện toán AI phi tập trung vào hệ sinh thái của mình. Quan hệ đối tác này hướng tới việc nâng cao nền tảng UXLINK bằng cách tích hợp hạ tầng blockchain mô-đun của Origins Network, qua đó cải thiện năng lực tính toán cho các ứng dụng phi tập trung chạy theo AI. Việc tích hợp sẽ tận dụng cơ chế Proof-of-Computation của Origins Network cùng điện toán GPU

GateNews13giờ trước

Tencent Cloud cung cấp dịch vụ ngân hàng AI của Ryt Bank cho 50.000 người dùng vào ngày ra mắt

Theo Tencent Cloud, vào ngày 11/5, công ty đã hợp tác với Ryt Bank, một ngân hàng số có trụ sở tại Malaysia, để hỗ trợ dịch vụ ngân hàng hội thoại dựa trên AI của hãng bằng Tencent Cloud Chat cho nhắn tin theo thời gian thực. Hệ thống đã xử lý 50.000 người dùng hoạt động vào ngày ra mắt mà không gặp sự cố gián đoạn, giúp khách hàng có thể đưa ra lệnh thanh toán bằng ngôn ngữ thông thường thay vì phải điều hướng trong các menu của ứng dụng. Ryt Bank đã đạt 1,2 triệu người dùng trong hơn bảy tháng

GateNews14giờ trước

Reactor ra mắt bản demo mô hình thế giới thời gian thực, thu hút 7,8 triệu lượt xem

Theo Beating, Reactor đã ra mắt bản demo mô hình thế giới thời gian thực của mình hôm nay, cho phép người dùng tạo các cảnh 3D tương tác thông qua xử lý AI dựa trên đám mây. Mô hình chạy trên hạ tầng đám mây toàn cầu độ trễ thấp của công ty, loại bỏ nhu cầu về phần cứng tại chỗ. Trong video trình diễn có chiếc xe thể thao màu đỏ di chuyển qua phong cảnh sa mạc ngoài hành tinh, AI đã kết xuất vật lý địa hình và các vật thể hành tinh ở xa trong thời gian thực đồng thời theo dõi các điều khiển của

GateNews15giờ trước

Minara ra mắt AI Copilot cho thị trường dự đoán Hyperliquid HIP-4 đầu tiên ngay hôm nay

Theo BlockBeats, Minara AI đã ra mắt AI Prediction Copilot hôm nay (ngày 11/5), trở thành công cụ AI thị trường dự đoán đầu tiên được tích hợp với market HIP-4 của Hyperliquid. Hệ thống phân tích xu hướng ngắn hạn của BTC, các mức hỗ trợ và kháng cự, cũng như chênh lệch giá trên thị trường để đưa ra khuyến nghị giao dịch YES/NO. Copilot xuất ra xác suất do AI đưa ra, xác suất suy ra từ thị trường, giá trị chênh lệch (edge) và lợi nhuận kỳ vọng theo thời gian thực.

GateNews15giờ trước
Bình luận
0/400
Không có bình luận