UiPath Screen Agent dẫn đầu OSWorld: Agentic UI Automation đã sẵn sàng cho doanh nghiệp

2026-01-16 11:24:05 335

UiPath dẫn đầu OSWorld: Bước tiến quan trọng của Agentic UI Automation cho doanh nghiệp

UiPath Screen Agent (sử dụng mô hình Claude Opus 4.5) vừa được xếp hạng #1 trên OSWorld-Verified Benchmark, một đánh giá độc lập do OSWorld thực hiện.

Với các doanh nghiệp đang tự động hóa quy trình nghiệp vụ trọng yếu, kết quả này không đơn thuần là một bảng xếp hạng công nghệ. Nó là chỉ báo quan trọng về độ tin cậy của AI agent khi làm việc trực tiếp với giao diện phần mềm thực tế, yếu tố then chốt để agentic UI automation có thể triển khai ổn định trong môi trường production.

Vì sao OSWorld-Verified Benchmark đặc biệt quan trọng?

OSWorld không đo khả năng “trả lời thông minh”, mà đánh giá khả năng thao tác thực tế trên máy tính, bao gồm:

Hiểu đúng nội dung hiển thị trên màn hình
Tương tác chính xác với UI (click, nhập liệu, điều hướng)
Thích ứng khi giao diện thay đổi
Tự phục hồi khi có gián đoạn hoặc lỗi phát sinh

Việc Screen Agent đạt xếp hạng #1 đồng nghĩa với:

Độ chính xác cao hơn trong thao tác UI
Tính ổn định tốt hơn khi chạy unattended
Giảm rủi ro khi đưa agentic automation vào các quy trình lõi

Từ góc nhìn của iBASE, đây là yếu tố quyết định để doanh nghiệp tin tưởng giao AI agent xử lý quy trình thay cho con người, thay vì chỉ dừng ở mức PoC hoặc demo.

Agentic UI Automation là gì và vì sao nó khác RPA truyền thống?

Agentic UI Automation là mô hình tự động hóa trong đó AI agent:

Hiểu ý định bằng ngôn ngữ tự nhiên
Tự lập kế hoạch hành động
Thực thi tác vụ thông qua giao diện người dùng như một nhân sự thực thụ

Thay vì phụ thuộc cứng vào selector hay logic lập trình chi tiết, agent:

Quan sát màn hình
Đưa ra quyết định theo ngữ cảnh
Điều chỉnh hành vi khi UI thay đổi

Đây chính là bước tiến từ “automation theo kịch bản” sang “automation theo mục tiêu”.

Screen Agent trong kiến trúc UiPath: “bộ não” của ScreenPlay

Trong hệ sinh thái UiPath, Screen Agent là nền tảng agentic đứng sau UiPath ScreenPlay activity cho phép:

Mô tả yêu cầu bằng ngôn ngữ tự nhiên, hệ thống tự động thực thi trên UI

Screen Agent đảm nhiệm:

Nhìn thấy nội dung trên màn hình
Hiểu ý định người dùng
Lập kế hoạch hành động
Thích nghi khi có thay đổi bất ngờ

Về mặt công nghệ, Screen Agent kết hợp:

Nền tảng automation của UiPath
Các LLM hàng đầu (OpenAI, Google, Anthropic)
Cho phép doanh nghiệp linh hoạt lựa chọn model phù hợp với chính sách bảo mật và chi phí

Từ hạng 2 lên hạng 1: Điều gì đã thay đổi?

09/2025: Screen Agent (GPT-5) đạt hạng 2 OSWorld-Verified
12/2025: Screen Agent (Claude Opus 4.5) đạt 67,1% – Số 1 toàn bảng

Đáng chú ý:

Kết quả đạt được chỉ bằng agentic UI automation
Không cần bổ sung code-based action
Chứng minh khả năng xử lý kịch bản UI phức tạp, unattended, quy mô lớn

Từ kinh nghiệm triển khai của iBASE, đây chính là điều kiện tiên quyết để:

Giảm chi phí bảo trì bot
Hạn chế lỗi do thay đổi giao diện
Mở rộng automation sang các hệ thống khó tích hợp API

Kiến trúc phân lớp: Nền tảng của độ ổn định

Screen Agent sử dụng kiến trúc layered architecture, tách biệt rõ:

1. Planner

Hiểu ý định người dùng
Chuyển thành chuỗi hành động cấp cao
Theo dõi liên tục trạng thái môi trường

2. Targeter

Kết hợp AI Computer Vision + grounding
Xác định tọa độ pixel chính xác trước khi thao tác

Thiết kế này giúp agent:

Tương tác UI chính xác
Ít bị ảnh hưởng khi giao diện thay đổi
Duy trì hành vi ổn định trong runtime dài

Những bài toán doanh nghiệp giờ đây đã khả thi

Khi Screen Agent được mở rộng trong ScreenPlay, UiPath bổ sung thêm AI-powered DOM Extraction, yếu tố cực kỳ quan trọng trong triển khai thực tế.

Ví dụ thực tế: Tự động kiểm tra tuân thủ SOC 3

Bài toán:

Mỗi vendor công bố SOC 3 ở vị trí khác nhau
Định dạng khác nhau (web, PDF dài, file scan)
Cách truyền thống: phải viết bot riêng cho từng vendor, khó scale

Với ScreenPlay:

Mô tả quy trình một lần bằng ngôn ngữ tự nhiên
Chỉ thay đổi tên vendor
Agent tự:
- Tìm website
- Định vị tài liệu SOC 3
- Mở, đọc, trích xuất thông tin cần thiết
- Thích nghi theo từng cấu trúc trang và tài liệu

Đây chính là ngưỡng automation mới mà RPA truyền thống khó đạt được.

Từ phòng lab ra production: Giá trị thực sự của xếp hạng #1

Với iBASE, ý nghĩa lớn nhất của kết quả OSWorld không nằm ở “#1”, mà ở chỗ:

Agentic UI automation đã sẵn sàng triển khai thực tế
Có thể áp dụng cho:
- Quy trình nghiệp vụ phức tạp
- Hệ thống legacy
- Ứng dụng không có API
Giảm phụ thuộc vào kịch bản cứng
Tăng độ bền vững dài hạn của automation

Screen Agent + ScreenPlay đang mở ra làn sóng automation thế hệ mới, nơi AI agent thực sự trở thành “digital worker” có khả năng thích nghi.

Kết luận từ góc nhìn iBASE

Sự kiện UiPath Screen Agent đứng đầu OSWorld-Verified là một cột mốc kỹ thuật quan trọng, nhưng quan trọng hơn, nó xác nhận rằng:

Agentic UI Automation đã đủ độ chín để doanh nghiệp triển khai ở quy mô lớn.

Với vai trò là đơn vị tư vấn & triển khai RPA/AI, iBASE nhìn thấy rất rõ tiềm năng:

Tự động hóa các quy trình trước đây “không khả thi”
Giảm chi phí vận hành
Tăng tốc chuyển đổi số thực chất, không chỉ dừng ở PoC