Để tiền huấn luyện DocLLM, dữ liệu được thu thập từ hai nguồn chính: Bộ sưu tập kiểm tra IIT-CDIP phiên bản 1.0 và DocBank.
JPMorgan đã giới thiệu DocLLM, một mô hình ngôn ngữ sáng tạo được thiết kế để hiểu biết tài liệu đa dạng. DocLLM nổi bật như một sự mở rộng nhẹ của các mô hình ngôn ngữ lớn cho việc phân tích các tài liệu doanh nghiệp, bao gồm các biểu mẫu, hóa đơn, báo cáo, hợp đồng mang theo những ngữ nghĩa phức tạp tại sự giao cắt giữa các chế độ văn bản và không gian.
Khác với các mô hình ngôn ngữ đa dạng hiện tại, DocLLM chiến lược tránh các bộ mã hóa hình ảnh đắt tiền và tập trung độc quyền vào thông tin hộp giới hạn để tích hợp các cấu trúc bố cục không gian. Mô hình giới thiệu một cơ chế chú ý không gian tách biệt bằng cách phân tách cơ chế chú ý trong các bộ biến áp cổ điển thành một bộ ma trận tách biệt.
DocLLM giải quyết các bố cục không đều và nội dung đa dạng trong tài liệu hình ảnh bằng cách sử dụng một mục tiêu tiền huấn luyện tập trung vào việc học điền vào các đoạn văn bản.
JPMorgan đã giới thiệu DocLLM, một mô hình ngôn ngữ sáng tạo được thiết kế để hiểu biết tài liệu đa dạng. DocLLM nổi bật như một sự mở rộng nhẹ của các mô hình ngôn ngữ lớn cho việc phân tích các tài liệu doanh nghiệp, bao gồm các biểu mẫu, hóa đơn, báo cáo, hợp đồng mang theo những ngữ nghĩa phức tạp tại sự giao cắt giữa các chế độ văn bản và không gian.
Nhấn vào đây để đọc bài báo.
Khác với các mô hình ngôn ngữ đa dạng hiện tại, DocLLM chiến lược tránh các bộ mã hóa hình ảnh đắt tiền và tập trung độc quyền vào thông tin hộp giới hạn để tích hợp các cấu trúc bố cục không gian. Mô hình giới thiệu một cơ chế chú ý không gian tách biệt bằng cách phân tách cơ chế chú ý trong các bộ biến áp cổ điển thành một bộ ma trận tách biệt.
DocLLM giải quyết các bố cục không đều và nội dung đa dạng trong tài liệu hình ảnh bằng cách sử dụng một mục tiêu tiền huấn luyện tập trung vào việc học điền vào các đoạn văn bản.
Mô hình có một cơ chế chú ý không gian tách biệt giúp tương tác chéo giữa chế độ văn bản và bố cục, một mục tiêu tiền huấn luyện điền thông minh có khả năng xử lý hiệu quả các bố cục không đều.
Để tiền huấn luyện DocLLM, dữ liệu được thu thập từ hai nguồn chính: Bộ sưu tập kiểm tra IIT-CDIP phiên bản 1.0 và DocBank. Phần trước bao gồm hơn 5 triệu tài liệu liên quan đến các vụ kiện pháp lý đối với ngành công nghiệp thuốc lá trong những năm 1990, trong khi phần sau gồm 500,000 tài liệu, mỗi tài liệu có bố cục riêng biệt.
Đánh giá mô hình một cách toàn diện trên nhiều nhiệm vụ thông minh văn bản chứng minh sự ưu việt của DocLLM so với các mô hình ngôn ngữ lớn tiên tiến nhất. Mô hình vượt trội hơn so với các mô hình tương đương trên 14 trong tổng số 16 bộ dữ liệu đã biết và thể hiện khả năng tổng quát mạnh mẽ đối với các bộ dữ liệu trước đây chưa thấy trong 4 trong 5 cài đặt.
Nhìn về tương lai, JPMorgan khẳng định cam kết thêm sức mạnh thị giác vào DocLLM một cách nhẹ nhàng, từ đó nâng cao thêm khả năng của nó.
Mohit Pandey đàm phán sâu vào thế giới trí tuệ nhân tạo để truyền đạt thông tin một cách đơn giản, dễ giải thích và đôi khi mang tính hài hước. Anh ấy cũng rất quan tâm đến nhiếp ảnh, làm phim và ngành công nghiệp game.