img 15/06/21
img 19

DỮ LIỆU TỔNG HỢP TỪ AI

mostly.ai làm việc với các công ty tài chính, viễn thông và bảo hiểm để cung cấp những bản dữ liệu khách hàng giả mạo, cho phép các công ty chia sẻ cơ sở dữ liệu khách hàng của họ với những nhà cung cấp bên ngoài một cách hợp pháp. Sự ẩn danh có thể làm giảm mức độ phong phú của tập dữ liệu nhưng vẫn không bảo vệ được đầy đủ quyền riêng tư của mọi người. Tuy nhiên, dữ liệu tổng hợp có thể được sử dụng để tạo các tập dữ liệu giả chi tiết có cùng đặc tính thống kê với dữ liệu thực của công ty. Nó cũng có thể được sử dụng để mô phỏng dữ liệu mà công ty chưa có, bao gồm lượng khách hàng đa dạng hơn hoặc các tình huống như hoạt động gian lận.

Những người ủng hộ dữ liệu tổng hợp nói rằng nó cũng có thể giúp đánh giá AI. Trong một bài báo gần đây được công bố tại một hội nghị về AI, Suchi Saria, phó giáo sư về học máy và chăm sóc sức khỏe tại Đại học Johns Hopkins và các đồng tác giả của cô đã chứng minh cách những kỹ thuật tạo dữ liệu có thể được sử dụng để ngoại suy các tập bệnh nhân khác nhau từ một tập dữ liệu. Điều này có thể hữu ích, ví dụ như trong trường hợp một công ty chỉ có dữ liệu từ dân số trẻ hơn của Thành phố New York nhưng muốn hiểu cách AI của họ hoạt động trên một nhóm dân số già với tỷ lệ mắc bệnh tiểu đường cao hơn. Hiện tại cô đang thành lập công ty Bayesian Health của riêng mình, sẽ sử dụng kỹ thuật này để giúp kiểm tra các hệ thống AI trong y tế.

Giới hạn của việc làm giả dữ liệu

Tuy nhiên, dữ liệu tổng hợp có bị cường điệu hóa không?

Khi nói đến quyền riêng tư, “chỉ vì dữ liệu là ‘tổng hợp’ và không tương ứng trực tiếp với dữ liệu người dùng thực không có nghĩa là nó không mã hóa thông tin nhạy cảm về người thật”, Aaron Roth, giáo sư máy tính và khoa học thông tin tại Đại học Pennsylvania cho biết. Ví dụ, một số kỹ thuật tạo dữ liệu đã được chứng minh là tái tạo chặt chẽ hình ảnh hoặc văn bản được tìm thấy trong dữ liệu đào tạo, trong khi những kỹ thuật khác dễ bị tấn công khiến chúng kích hoạt hoàn toàn dữ liệu đó.

Điều này có thể ổn đối với một công ty như Datagen, công ty có dữ liệu tổng hợp không nhằm mục đích che giấu danh tính của những cá nhân đồng ý được quét. Nhưng sẽ là tin xấu đối với các công ty cung cấp giải pháp của họ như một cách để bảo vệ thông tin tài chính hoặc bệnh nhân nhạy cảm.

Deepfake trở thành xu hướng chủ đạo

Vào năm 2020, phương tiện tổng hợp AI bắt đầu rời xa những góc tối của Internet. Theo Bernease Herman, một nhà khoa học dữ liệu tại Viện Khoa học điện tử Đại học Washington, nghiên cứu gợi ý rằng sự kết hợp của hai kỹ thuật dữ liệu tổng hợp – riêng tư khác biệt và mạng đối thủ chung – có thể tạo ra những biện pháp bảo vệ quyền riêng tư mạnh mẽ nhất. Nhưng những người hoài nghi lo lắng rằng sắc thái này có thể bị mất đi trong ngôn ngữ tiếp thị của các nhà cung cấp dữ liệu tổng hợp bởi không phải lúc nào họ cũng sẵn sàng đưa ra những kỹ thuật mà họ đang sử dụng.

Trong khi đó, rất ít bằng chứng cho thấy dữ liệu tổng hợp có thể làm giảm thiểu sự thiên vị của các hệ thống AI một cách hiệu quả. Thứ nhất, việc ngoại suy dữ liệu mới từ tập dữ liệu sẵn có bị lệch không nhất thiết tạo ra dữ liệu đại diện hơn. Ví dụ, dữ liệu thô của Datagen chứa ít dân tộc thiểu số hơn, có nghĩa là nó sử dụng ít điểm dữ liệu thực hơn để tạo ra người giả từ các nhóm đó. Mặc dù quá trình tạo ra không hoàn toàn là phỏng đoán, nhưng những con người giả đó vẫn có nhiều khả năng khác với thực tế. “Nếu khuôn mặt có tông màu da sẫm hơn của bạn không phải là những khuôn mặt gần đúng đặc biệt, thì bạn thực sự không giải quyết được vấn đề,” O’Neil nói.

Theo Christo Wilson, phó giáo sư khoa học máy tính tại Đại học Northeastern, bộ dữ liệu cân bằng hoàn hảo không tự động chuyển thành các hệ thống AI hoàn toàn công bằng. Nếu một người cho vay qua thẻ tín dụng đang cố gắng phát triển một thuật toán AI để chấm điểm những người vay tiềm năng, thì nó sẽ không loại bỏ tất cả sự phân biệt đối xử có thể xảy ra bằng cách chỉ đại diện cho người da trắng cũng như người da đen trong dữ liệu của mình. Sự phân biệt đối xử vẫn có thể len ​​lỏi thông qua sự khác biệt giữa các ứng viên da trắng và da đen.

Để làm phức tạp thêm vấn đề, nghiên cứu ban đầu cho thấy rằng trong một số trường hợp, thậm chí có thể không đạt được cả AI riêng tư và AI công bằng với dữ liệu tổng hợp. Trong một bài báo gần đây được công bố tại một hội nghị về AI, các nhà nghiên cứu từ Đại học Toronto và Viện Vector đã cố gắng làm như vậy với việc chụp X-quang ngực. Họ nhận thấy rằng họ không thể tạo ra một hệ thống AI y tế chính xác khi họ cố gắng tạo ra một bộ dữ liệu tổng hợp đa dạng thông qua sự kết hợp giữa quyền riêng tư khác biệt và mạng lưới đối thủ chung.

Điều này không có nghĩa là không nên sử dụng dữ liệu tổng hợp. Trên thực tế, nó cũng có thể trở thành một yếu tố cần thiết. Khi các nhà quản lý đối mặt với nhu cầu kiểm tra các hệ thống AI để tuân thủ pháp luật, đó có thể là cách tiếp cận duy nhất mang lại cho họ sự linh hoạt mà họ cần để tạo dữ liệu thử nghiệm theo yêu cầu có mục tiêu, O’Neil nói. Nhưng điều đó làm cho câu hỏi về những hạn chế của nó thậm chí còn quan trọng hơn để nghiên cứu và trả lời ngay bây giờ.

“Dữ liệu tổng hợp có thể sẽ tốt hơn theo thời gian,” cô nói, “nhưng không phải ngẫu nhiên.”

Tags: AIdoanh nghiệp

Các bài viết khác