“Dữ liệu và lĩnh vực Trí tuệ Nhân tạo phát triển nhanh chóng. Nếu bạn không dừng lại và nhìn xung quanh ít nhất một lần, bạn có thể bỏ lỡ nhiều điều quan trọng.”
“Đang tò mò về những gì sẽ xảy ra tiếp theo cho tương lai của kỹ sư dữ liệu và GenAI? Mỗi năm, chúng tôi trò chuyện với một trong những nhà lãnh đạo tiên phong của ngành dữ liệu về dự đoán của họ về cấu trúc dữ liệu hiện đại – và chia sẻ một số dự đoán của riêng chúng tôi. Và năm nay, chúng tôi đã mời người bạn thân và nhà đầu tư nổi tiếng Tomasz Tunguz chia sẻ dự đoán về kỹ thuật dữ liệu cho năm 2024.”
“Là Đối tác Chính tại Theory Ventures và một nhà đầu tư của Motherduck, Monte Carlo, và các công ty tiên phong khác, Tomasz Tunguz biết một vài điều về dự đoán.”
“Chúng tôi đã chọn một số dự đoán yêu thích của Tomasz và một số của chính chúng tôi để mang đến cho bạn những xu hướng kỹ thuật dữ liệu hàng đầu cho năm 2024.”
“Sẵn sàng để nhìn thấy tương lai? Hãy lấy quả cầu pha lê của bạn và cùng nhau nhìn xem!”
“Mẹo chuyên gia: nếu bạn muốn biết đầy đủ thông tin, hãy đảm bảo kiểm tra buổi nói chuyện của Tomasz Tunguz tại IMPACT: Hội nghị Quan sát Dữ liệu.”
1. LLMS sẽ biến đổi toàn bộ hệ thống
Điều này là một điều dễ dàng nhận thức, nhưng chúng tôi vẫn tự hào về điều đó.
Không phải là viễn cảnh quá mức khi nói rằng các mô hình ngôn ngữ lớn đã biến đổi diện mạo của công nghệ trong vòng 12 tháng qua. Từ các công ty có các trường hợp sử dụng chính đáng đến các nhóm chỉ xuất hiện với công nghệ trên đuôi tìm kiếm vấn đề, ai cũng và người quản lý dữ liệu của họ đều đang cố gắng sử dụng genAI theo một cách nào đó.
Và các Mô hình Ngôn ngữ Lớn (LLMs) sẽ tiếp tục biến đổi đó vào năm 2024 và xa hơn – từ việc tăng cường nhu cầu về dữ liệu và đòi hỏi kiến trúc mới như cơ sở dữ liệu vector (“stap AI”), đến việc thay đổi cách chúng ta thao tác và sử dụng dữ liệu cho người dùng cuối của chúng ta.
Phân tích và kích hoạt dữ liệu tự động sẽ trở thành một công cụ được mong đợi trong mọi sản phẩm và ở mọi cấp độ của hệ thống dữ liệu. Câu hỏi là: làm thế nào chúng ta đảm bảo rằng những sản phẩm mới này cung cấp giá trị thực sự vào năm 2024 và không chỉ là một chút sự mới mẻ cho việc quảng bá?
2. Đội ngũ dữ liệu sẽ trông giống như đội ngũ phần mềm
Các đội ngũ dữ liệu tinh tế nhất đang xem xét tài sản dữ liệu của họ như những sản phẩm dữ liệu chính thức — đầy đủ với yêu cầu sản phẩm, tài liệu, chuỗi công việc, và thậm chí các SLA (Service Level Agreements) cho người dùng cuối.
Do đó, khi tổ chức bắt đầu liên kết giá trị ngày càng nhiều vào các sản phẩm dữ liệu được xác định của họ, ngày càng nhiều đội ngũ dữ liệu sẽ bắt đầu trông giống — và được quản lý — như những đội ngũ sản phẩm quan trọng mà họ đang làm việc.
3. Và đội ngũ phần mềm sẽ trở thành các chuyên gia dữ liệu
Khi các kỹ sư cố gắng xây dựng các sản phẩm dữ liệu hoặc genAI mà không suy nghĩ đến dữ liệu, kết quả không tốt. Chỉ cần hỏi United Healthcare.
Khi Trí tuệ Nhân tạo tiếp tục “nuốt chửng” thế giới, kỹ thuật và dữ liệu sẽ trở thành một. Không có sự phát triển phần mềm lớn nào sẽ xuất hiện trên thị trường mà không có một cái nhìn về Trí tuệ Nhân tạo — và không có Trí tuệ Nhân tạo lớn nào sẽ xuất hiện trên thị trường mà không có một cấp độ nào đó của dữ liệu doanh nghiệp thực tế đang làm động cơ.
Điều đó có nghĩa là khi các kỹ sư cố gắng nâng cao các sản phẩm Trí tuệ Nhân tạo mới, họ sẽ cần phát triển cái nhìn về dữ liệu — và cách làm việc với nó — để xây dựng các mô hình mang lại giá trị mới và liên tục.
4. RAG sẽ trở thành một thách thức lớn
Sau một loạt các thất bại nổi bật của GenAI, nhu cầu về dữ liệu ngữ cảnh sạch sẽ, đáng tin cậy và được chăm sóc để bổ sung vào các sản phẩm Trí tuệ Nhân tạo đã trở nên ngày càng rõ ràng.
Khi lĩnh vực Trí tuệ Nhân tạo tiếp tục phát triển và các điểm mù trong quá trình đào tạo chung trở nên đau đớn, các đội ngũ có dữ liệu độc quyền sẽ hướng đến RAG (Reliable AI Generation) và điều chỉnh tinh chỉnh hàng loạt để bổ sung cho các sản phẩm Trí tuệ Nhân tạo doanh nghiệp của họ và mang lại một lợi thế giá trị có thể chứng minh được cho các bên liên quan của họ.
5. Đội ngũ sẽ triển khai các sản phẩm Trí tuệ Nhân tạo sẵn sàng doanh nghiệp
Xu hướng kỹ thuật dữ liệu tiếp tục trở nên phổ biến – sản phẩm dữ liệu. Và không có nhầm lẫn, Trí tuệ Nhân tạo chính là một sản phẩm dữ liệu.
Nếu năm 2023 là năm của Trí tuệ Nhân tạo, thì năm 2024 sẽ là năm triển khai các sản phẩm Trí tuệ Nhân tạo. Dù là do nhu cầu hay ép buộc, các đội ngũ dữ liệu trên các ngành công nghiệp sẽ chấp nhận các sản phẩm Trí tuệ Nhân tạo sẵn sàng doanh nghiệp. Câu hỏi là – liệu chúng sẽ thực sự sẵn sàng cho doanh nghiệp không?
Hy vọng rằng (chắc chắn) những ngày tạo ra các tính năng trò chuyện ngẫu nhiên chỉ để nói rằng bạn đang tích hợp Trí tuệ Nhân tạo khi Hội đồng quản trị hỏi đã qua. Trong năm 2024, các đội ngũ có thể trở nên phức tạp hơn về cách họ phát triển các sản phẩm Trí tuệ Nhân tạo, tận dụng các phương pháp đào tạo tốt hơn để tạo ra giá trị và xác định các vấn đề cần giải quyết thay vì sản xuất công nghệ để tạo ra vấn đề mới.
6. Quan sát dữ liệu sẽ hỗ trợ Trí tuệ Nhân tạo và cơ sở dữ liệu vector
Trong cuộc khảo sát CDO Insights của Amazon Web Services (AWS) năm 2023, người tham gia được hỏi về thách thức lớn nhất của tổ chức họ trong việc hiện thực hóa tiềm năng của Trí tuệ Nhân tạo tạo sinh.
Câu trả lời phổ biến nhất? Chất lượng dữ liệu.
Trí tuệ Nhân tạo tạo sinh, ở cơ bản, là một sản phẩm dữ liệu. Và giống như bất kỳ sản phẩm dữ liệu nào khác, nó không hoạt động nếu thiếu dữ liệu đáng tin cậy. Nhưng ở quy mô của LLMs, theo dõi thủ công không thể cung cấp sự bao phủ chất lượng toàn diện và hiệu quả cần thiết để làm cho bất kỳ Trí tuệ Nhân tạo nào trở nên đáng tin cậy.
Để thực sự thành công, các đội ngũ dữ liệu cần một giải pháp quan sát dữ liệu sống động, linh hoạt được tùy chỉnh cho các ngăn xếp Trí tuệ Nhân tạo có thể giúp họ phát hiện, giải quyết và ngăn chặn thời gian chết của dữ liệu một cách liên tục trong bối cảnh của một môi trường ngày càng phát triển và động đậy. Các giải pháp quan sát dữ liệu như Monte Carlo, ưu tiên cho việc giải quyết, hiệu suất đường ống, và cơ sở hạ tầng streaming/vector hỗ trợ Trí tuệ Nhân tạo sẽ là thiết yếu trong cuộc chiến đấu về độ tin cậy của Trí tuệ Nhân tạo hiện đại vào năm 2024.
7. Dữ liệu lớn sẽ trở nên nhỏ
Ba mươi năm trước, máy tính cá nhân là điều mới lạ. Bây giờ, với các chiếc Macbook hiện đại sở hữu sức mạnh tính toán tương đương với các máy chủ AWS mà Snowflake ra mắt kho dữ liệu giá trị cao (MVP) của họ vào năm 2012, phần cứng đang làm mờ ranh giới giữa các giải pháp thương mại và doanh nghiệp.
Tomasz dự đoán rằng vì hầu hết các công việc đều nhỏ, các đội ngũ dữ liệu sẽ bắt đầu sử dụng cơ sở dữ liệu trong quá trình (in-process) và cơ sở dữ liệu trong bộ nhớ/in-process để phân tích và di chuyển các bộ dữ liệu.
Đặc biệt là đối với những đội ngũ cần mở rộng nhanh chóng, những giải pháp này nhanh chóng khởi đầu và có thể nâng cấp lên chức năng doanh nghiệp với các dịch vụ đám mây thương mại.
8. Ưu tiên sẽ đặt lên việc định kích thước đúng
Ngày nay, các nhà lãnh đạo dữ liệu đối mặt với một nhiệm vụ không thể thực hiện được. Sử dụng nhiều dữ liệu hơn, tạo ra nhiều ảnh hưởng hơn, tận dụng nhiều Trí tuệ Nhân tạo hơn — nhưng giảm chi phí đám mây.
Như Harvard Business Review mô tả, các quan chức dữ liệu và Trí tuệ Nhân tạo chủ chốt đã được thiết lập để thất bại. Tính đến Q1 năm 2023, IDC báo cáo rằng chi phí cơ sở hạ tầng đám mây đã tăng lên 21,5 tỷ đô la. Theo McKinsey, nhiều công ty đang chứng kiến chi phí đám mây tăng lên đến 30% mỗi năm.
Các phương pháp có tác động thấp như theo dõi siêu dữ liệu và các công cụ cho phép đội ngũ nhìn thấy và điều chỉnh kích thước sử dụng sẽ có giá trị không thể đo lường trong năm 2024.
9. Tảng băng sẽ nổi lên (Apache Iceberg)
Apache Iceberg là một định dạng bảng lưu trữ dữ liệu mã nguồn mở được phát triển bởi đội ngũ kỹ thuật dữ liệu tại Netflix để cung cấp một cách xử lý tập trung và dễ dàng hơn cho các bộ dữ liệu lớn. Nó được thiết kế để có thể truy vấn một cách dễ dàng bằng SQL, ngay cả đối với các bảng phân tích lớn có hàng petabyte dữ liệu.
Trong khi các hệ thống kho dữ liệu và lakehouses hiện đại sẽ cung cấp cả tính toán và lưu trữ, Iceberg tập trung vào việc cung cấp lưu trữ có cấu trúc có hiệu quả chi phí, có thể truy cập bởi nhiều công cụ khác nhau có thể được tận dụng trong tổ chức của bạn cùng một lúc, như Apache Spark, Trino, Apache Flink, Presto, Apache Hive và Impala.
Gần đây, Databricks đã thông báo rằng siêu dữ liệu của các bảng Delta cũng sẽ tương thích với định dạng Iceberg, và Snowflake cũng đã tích cực tích hợp với Iceberg. Khi lakehouse trở thành một giải pháp thực tế cho nhiều tổ chức, Apache Iceberg – và các sự thay thế của Iceberg – có khả năng sẽ tiếp tục phổ biến hóa.
10. Quay lại văn phòng cho… ai đó
RTO—viết tắt mà ai cũng không thích. Hoặc có thể là người ưa thích! Thật sự, ở điểm này, chúng tôi không thể theo kịp nữa. Trong khi các đội ngũ có vẻ chia rẽ về vấn đề này, ngày càng nhiều đội ngũ đang được yêu cầu trở lại văn phòng của họ, nơi có bàn làm việc riêng/lầu làm việc mở/flexibility ít nhất là vài ngày mỗi tuần.
Theo một báo cáo tháng 9 năm 2023 của Resume Builder, 90% các công ty dự định sẽ thực hiện chính sách trở lại văn phòng vào cuối năm 2024—gần bốn năm sau mùa xuân định mệnh đó vào năm 2020. Trên thực tế, một số CEO quyền lực như Andy Jassy của Amazon, Sam Altman của OpenAI và Sundar Pichai của Google đã áp đặt chính sách trở lại văn phòng trong vài tháng gần đây.
Và có vẻ ít nhất có một số lợi ích khi làm việc trong văn phòng (ít nhất là một phần thời gian) so với làm việc hoàn toàn từ nhà.
Bạn thuộc phe ủng hộ việc ở nhà mãi mãi? Dường như câu trả lời—như luôn luôn trong dữ liệu—là cung cấp thêm giá trị. Mặc dù gặp khó khăn kinh tế gần đây và ảnh hưởng của nó đối với thị trường lao động, các đội ngũ dữ liệu và Trí tuệ Nhân tạo đang được đặt hàng cao. Và các nhà tuyển dụng thường sẽ làm mọi cách để có được họ—và giữ chúng lại. Trong khi một số công ty yêu cầu tất cả nhân viên trở lại văn phòng bất kể vai trò, các công ty khác như Salesforce đang yêu cầu các kỹ sư không làm việc từ xa ít hơn nhiều, tổng cộng 10 ngày mỗi quý.
Tim Osborn
Tim là một người sáng tạo nội dung tại Monte Carlo, viết về chất lượng dữ liệu, công nghệ và đôi khi là về đồ ăn nhẹ—thỉnh thoảng theo thứ tự đó
.