DocPath: Một mô hình ngôn ngữ lớn được tinh chỉnh để trích xuất thông tin từ tài liệu

2024-06-30 14:35:52 216

Đây là bài viết đầu tiên trong loạt bài viết đánh giá công trình của UiPath Research, một nhóm các nhà khoa học, nhà nghiên cứu và kỹ sư AI đang ngày càng mở rộng khả năng AI của UiPath Business Automation Platform™.

Mục tiêu của nhóm nghiên cứu UiPath là xây dựng các mô hình AI tốt nhất cho doanh nghiệp. Trọng tâm không chỉ là phát triển các mô hình AI sẵn sàng sản xuất mà còn liên tục cải thiện và mở rộng khả năng của chúng.

Là bài viết đầu tiên trong loạt bài, bài viết này sẽ tập trung vào UiPath DocPath, mô hình ngôn ngữ lớn (LLM) mới được xây dựng để thực hiện trích xuất thông tin từ tài liệu.

DocPath là gì?

Tài liệu rất phổ biến trong kinh doanh và đóng vai trò quan trọng trong việc vận hành các quy trình chính của doanh nghiệp. Chúng cho phép truyền tải thông tin hiệu quả giữa mọi người và hệ thống, chuẩn hóa các quy trình và tạo điều kiện thuận lợi cho việc lưu giữ hồ sơ quan trọng. Tuy nhiên, do số lượng lớn và nhiều dạng (bao gồm có cấu trúc, bán cấu trúc và không có cấu trúc), nên các doanh nghiệp gặp khó khăn trong việc xử lý khối lượng lớn tài liệu một cách đáng tin cậy, nhanh chóng và quy mô.

Để giải quyết vấn đề này, nhóm nghiên cứu UiPath đã phát triển DocPath.

DocPath là mô hình nền tảng mới của UiPath Document Understanding, khả năng nền tảng để xử lý tài liệu thông minh. Nó sẽ giúp các doanh nghiệp xử lý bất kỳ tài liệu nào ngay khi ban hành, chẳng hạn như biểu mẫu thuế có cấu trúc, hóa đơn, lệnh mua hàng hoặc báo cáo tài chính, v.v.

Phát triển DocPath

Ngược lại với các mô hình AI tạo ra mục đích chung như GPT của OpenAI, DocPath là một mô hình cho một nhiệm vụ cụ thể: trích xuất thông tin từ các tài liệu. Tuy nhiên, ngay cả khi ưu tiên một nhiệm vụ cụ thể, đội ngũ nghiên cứu vẫn phải đối mặt với nhiều tùy chọn cho kiến trúc mô hình cơ bản. Việc lựa chọn giữa kiến trúc chỉ giải mã và kiến trúc mã hóa-giải mã chắc chắn sẽ đòi hỏi phải đánh đổi giữa hiệu quả tính toán, khả năng tương thích của nhiệm vụ và hiệu suất.

Đội ngũ nghiên cứu đã thử nghiệm cả với kiến trúc chỉ giải mã và kiến trúc mã hóa-giải mã. DocPath đã sử dụng một tập dữ liệu đào tạo bao gồm hơn 100.000 tài liệu bán cấu trúc chất lượng cao, bao gồm hóa đơn, biên lai, biểu mẫu, giấy tờ xe, đơn đặt hàng, v.v. Các tài liệu này được dán nhãn cho mục đích trích xuất thông tin. Để chuẩn bị dữ liệu đào tạo của mình, chúng tôi đã cắt các tài liệu thành các chuỗi có độ dài chuỗi tối đa, chọn ngẫu nhiên một lát cắt từ mỗi tài liệu, chọn một tập hợp ngẫu nhiên các trường để trích xuất từ mỗi lát cắt và tạo các cặp nhắc nhở/mục tiêu bao gồm văn bản tài liệu, thông tin vị trí và các trường sẽ được trích xuất.

Dựa trên kết quả khi tinh chỉnh các mô hình chỉ có bộ giải mã bao gồm Mistral 7B và Llama-2-7b, DocPath đã chọn mô hình Google FLAN-T5 XL, một kiến trúc mã hóa-giải mã, làm cơ sở để tinh chỉnh DocPath. Chúng tôi đã chọn phiên bản FLAN được tinh chỉnh theo hướng dẫn của mô hình T5 vì chúng tôi quan sát thấy các điểm kiểm tra FLAN luôn vượt trội hơn các phiên bản T5 không có FLAN một vài điểm. Lựa chọn này có một số lợi thế bao gồm:

Các mô hình mã hóa-giải mã đã chứng minh hiệu suất vượt trội trong các tác vụ dựa trên thực tế với không gian giải pháp hạn chế, chẳng hạn như trích xuất thông tin.
T5 cung cấp các mô hình được đào tạo trước với kích thước tham số nhỏ hơn, cho phép thử nghiệm dễ dàng hơn trước khi đào tạo các phiên bản lớn hơn của các mô hình T5.
Bộ dữ liệu điều chỉnh hướng dẫn của Flan-T5 có thể truy cập công khai, giúp chúng ta có thể sử dụng một phần nhỏ dữ liệu đó trong quá trình đào tạo trước trên dữ liệu nội bộ của mình.

Thiết kế nhanh chóng

Thế hệ trước của các mô hình Document Understanding đã sử dụng phân loại mã thông báo dựa trên Bộ biến đổi chỉ mã hóa, phân loại mã thông báo thành một trường từ một lược đồ cố định, sau đó áp dụng logic xử lý hậu kỳ để nối các khoảng và áp dụng chuẩn hóa trường dựa trên loại trường. Với DocPath, chúng tôi đã chuyển sang phương pháp nhắc nhở và hoàn thành trong đó mô hình chỉ xuất ra JSON có cấu trúc. Do đó, chúng tôi phải phát triển một phương pháp mới để thực hiện việc gán trường được dự đoán trở lại tài liệu.

Để đạt được điều này, chúng tôi nhúng các mã thông báo vị trí, được tạo từ mỗi hộp OCR trong tài liệu, vào lời nhắc, cung cấp thông tin vị trí cho mô hình. Một cặp lời nhắc/mục tiêu ví dụ từ tập dữ liệu của chúng tôi trông như sau:

Lời nhắc:

"Cho văn bản sau trên một tài liệu bán cấu trúc cùng với tọa độ, hãy trích xuất các trường sau: mã hóa đơn, ngày hóa đơn, tổng, số tiền ròng.

Chữ:

Hóa đơn. 235266 Ngày 24/1/2023 ....."

Mục tiêu:

{"invoice-id" : 235266 , "invoice-date" : 24/1/2023 .......}

Và khi trích xuất một bảng, chúng tôi bao gồm danh sách các cột cần trích xuất trong lời nhắc và giải mã tất cả các giá trị trong cột cùng với số hiệu phiên bản của chúng. Ví dụ:

Mục tiêu:

{"line-amount" : {"0" : " 20", "1": " 25"} , "description" : {"0": " Mục 1", "2": " Mục 2"} .........}

Như được hiển thị ở trên, các mã thông báo vị trí đặc biệt giúp tăng cường khả năng hiểu và làm cơ sở cho đầu vào của mô hình. Các mã thông báo biểu thị số dòng được xác định bởi thuật toán phân đoạn dòng được áp dụng trong quá trình xử lý trước, trong khi và biểu thị tọa độ x và y được chuẩn hóa theo từng trang của mỗi từ được xác định bởi OCR.

Các mã thông báo được thêm vào trình phân tích mã thông báo và được giải mã trong đầu ra, cho phép DocPath gán phản hồi trở lại đầu vào một cách chính xác. Nền tảng vị trí này cung cấp độ tin cậy cho các tác vụ trích xuất thông tin trong doanh nghiệp. Để cải thiện hơn nữa tính mạnh mẽ của mô hình đối với tên trường, đội ngũ phát triển cũng kết hợp các kỹ thuật tăng cường dữ liệu như thay thế từ đồng nghĩa.

DocPath đã thử nghiệm kết hợp đầu vào hình ảnh bằng cách nhúng bản vá và thông tin bố cục bằng cách cập nhật sự chú ý T5 để bao gồm độ lệch vị trí 2D từ mô hình LayoutLMv3. Tuy nhiên, team thấy rằng việc thêm thông tin vị trí trực tiếp trong lời nhắc như được hiển thị ở trên mang lại kết quả tốt hơn.

Sự suy luận

Để tối ưu hóa suy luận và cải thiện thông lượng giải mã, team đã triển khai một số kỹ thuật. Giải mã tất cả các trường trong một lời nhắc duy nhất có thể tốn thời gian do bản chất tự hồi quy của quy trình, đặc biệt là khi xử lý các bảng lớn và các trường có nhiều giá trị. Để giải quyết vấn đề này, DocPath đã chia danh sách các trường cần trích xuất từ một tài liệu thành các nhóm. Sau đó, chạy một lời nhắc riêng cho từng nhóm song song và hợp nhất các phản hồi từ mỗi lời nhắc để có được đầu ra cuối cùng. Sau khi thử nghiệm với nhiều công cụ suy luận khác nhau, team nhận thấy CTranslate2 thân thiện với người dùng và hiệu quả nhất về mặt thông lượng giải mã và tích hợp vào cơ sở mã. DocPath chỉ định điểm tin cậy cho các trường dựa trên các giá trị logit cho các mã thông báo được liên kết với giá trị trường.

Phần kết luận

UiPath Research giới thiệu DocPath, một LLM tinh chỉnh để trích xuất thông tin từ tài liệu. DocPath đang thử nghiệm với các phiên bản lớn hơn của mô hình FLAN-T5 và với các phương pháp chỉ có bộ giải mã. Cần nghiên cứu thêm để xem liệu nhóm nghiên cứu có thể kết hợp các pixel hình ảnh tài liệu vào mô hình hay không và bằng cách nào.

Bên cạnh CommPath—mô hình xử lý thông tin hội thoại —DocPath là một trong những thế hệ LLM tinh chỉnh đầu tiên. Team nghiên cứu đang phát triển thêm nhiều LLM cho các tác vụ và kiểu dữ liệu khác và sẽ sớm ra mắt trong tương lai.