LLM chưa phải là giải pháp toàn diện cho xử lý tài liệu doanh nghiệp – Góc nhìn từ iBASE
Khi các mô hình ngôn ngữ lớn (LLM) như ChatGPT không còn chỉ xử lý văn bản mà đã phát triển thành các mô hình đa phương thức (VLMs) có thể hiểu cả hình ảnh, nhiều lãnh đạo doanh nghiệp bắt đầu đặt câu hỏi:
“Tại sao không dùng LLM để xử lý toàn bộ tài liệu trong doanh nghiệp?”
Câu hỏi này hoàn toàn dễ hiểu trong bối cảnh AI phát triển mạnh mẽ. Nhưng theo nghiên cứu từ UiPath – nền tảng RPA hàng đầu thế giới mà iBASE triển khai tại Việt Nam – việc chỉ dựa vào LLM để xử lý tài liệu sẽ gặp nhiều giới hạn, đặc biệt là khi doanh nghiệp muốn tự động hóa quy trình từ đầu đến cuối (end-to-end automation).
Những giới hạn của LLM trong xử lý tài liệu
LLM mang lại giá trị lớn, nhưng không được thiết kế để xử lý tài liệu doanh nghiệp với độ chính xác, khả năng mở rộng và khả năng tích hợp cao. Dưới đây là những vấn đề lớn mà nhóm nghiên cứu của UiPath (và iBASE đã xác thực trong thực tiễn triển khai):
1. Điểm chết (Dead-ends) khi xử lý dữ liệu phức tạp
Một số tình huống không thể giải quyết chỉ bằng prompt. Đặc biệt là các bảng biểu, trường thông tin đặc thù, hoặc tài liệu không có cấu trúc rõ ràng. Các lỗi phổ biến bao gồm:
-
LLM bỏ sót dòng trong bảng
-
Nhầm lẫn giữa cột và dòng
-
Trích xuất dữ liệu ở những vị trí không tồn tại
Giải pháp từ UiPath IXP:
Tích hợp các bước tiền xử lý thông minh, sử dụng kết hợp giữa LLM, mô hình Computer Vision và các engine trích xuất chuyên biệt giúp xử lý tốt các bảng biểu phức tạp, ví dụ:
Loại tài liệu | F1 Score (Image Only) | Table V1 | Table V2 |
---|---|---|---|
Bảng lương | 73.4% | 79.7% | 85.4% |
Tài liệu bảo hiểm tái tục | 90.4% | 95.1% | 98.5% |
Điều này giúp doanh nghiệp rút ngắn thời gian triển khai, nhanh chóng đưa robot vào hoạt động và tạo ra giá trị rõ rệt.
2. Không sẵn sàng cho tự động hóa quy trình
Dù LLM có thể trích xuất đúng thông tin trong một vài mẫu đơn giản, nhưng để phục vụ tự động hóa thật sự, doanh nghiệp cần:
-
Schema chuẩn để tích hợp vào quy trình
-
Định dạng dữ liệu chính xác (kiểu ngày, số, văn bản,…)
-
Khả năng giải thích (Attribution)
-
Mức độ tin cậy (Confidence score)
a. Attribution – Dẫn nguồn rõ ràng
Tự động hóa ở cấp độ doanh nghiệp yêu cầu biết rõ dữ liệu được lấy từ đâu trong tài liệu. Điều này giúp con người kiểm tra lại chính xác mà không phải đọc toàn bộ tài liệu.
LLM truyền thống thường “bịa” nguồn hoặc không có khả năng dẫn nguồn rõ ràng. Trong khi đó, UiPath IXP tích hợp sẵn khả năng attribution cho từng trường thông tin được trích xuất.
b. Confidence – Mức độ tin cậy của dữ liệu
Khi doanh nghiệp cần xác định xem robot có thể tự xử lý hay cần con người kiểm tra lại, confidence score là yếu tố quyết định. Mô hình LLM truyền thống chỉ cung cấp logprob (xác suất suy đoán), không đủ chính xác như mô hình cổ điển.
Giải pháp từ IXP:
-
Cung cấp confidence dễ hiểu
-
Cho phép thiết lập rule kiểm tra tự động (regex, tính toán kiểm tra chéo, v.v.)
3. In-context learning chỉ hiệu quả hạn chế
Việc dùng ví dụ cụ thể để cải thiện prompt (few-shot learning) có kết quả tốt với văn bản ngắn như email. Nhưng với tài liệu dài, nhiều bảng biểu, kết quả không ổn định và có nguy cơ “overfitting” – mô hình áp dụng sai hành vi cho các trường hợp tương tự nhưng không giống nhau hoàn toàn.
Chiến lược tiếp cận toàn diện của iBASE và UiPath
Tại iBASE, chúng tôi đồng hành cùng UiPath để không chỉ áp dụng LLM, mà còn kết hợp công nghệ và phương pháp phù hợp nhằm mang lại kết quả tối ưu trong thực tế doanh nghiệp.
3 trụ cột chiến lược:
-
Phát triển các mô hình tùy chỉnh cho tài liệu phức tạp và không có cấu trúc
-
Tối ưu khả năng tiền xử lý và hậu xử lý dữ liệu
-
Liên tục đánh giá và lựa chọn LLM phù hợp cho từng bài toán cụ thể
Chúng tôi cũng đang mở rộng khả năng tích hợp nhiều mô hình AI khác nhau vào cùng hệ thống, giúp khách hàng có trải nghiệm linh hoạt và hiệu quả hơn trong xử lý tài liệu.
Kết luận
LLM là một công cụ mạnh, nhưng không nên dùng đơn lẻ trong xử lý tài liệu doanh nghiệp. Với sự kết hợp giữa các mô hình chuyên biệt, quy trình tiền/hậu xử lý thông minh và khả năng kiểm soát đầu ra rõ ràng, iBASE cùng UiPath đang mở ra kỷ nguyên mới cho xử lý tài liệu thông minh – chính xác – sẵn sàng cho tự động hóa.
Khám phá thêm:
-
Trải nghiệm tính năng xử lý tài liệu mới tại iBASE
-
Liên hệ iBASE để tư vấn giải pháp phù hợp cho doanh nghiệp của bạn
-
Đăng ký dùng thử tính năng trích xuất tài liệu nâng cao từ UiPath IXP