img 14/06/21
img 38

NGƯỜI GIẢ BÁO TRƯỚC MỘT KỶ NGUYÊN MỚI TRONG AI

Bạn cần có thêm dữ liệu để học sâu? Các công ty dữ liệu tổng hợp sẽ làm cho bạn.

Bạn có thể thấy những sợi râu lòa xòa trên môi, nếp nhăn trên trán, vết thâm trên da. Anh ta không phải là người thật, nhưng anh ta muốn bắt chước con người, như hàng trăm nghìn người giả khác được tạo ra bởi Datagen, một công ty kinh doanh người mô phỏng.

Những con người này không phải là hình đại diện trong game hay nhân vật hoạt hình trong phim. Chúng là dữ liệu tổng hợp được thiết kế để đáp ứng nhu cầu ngày càng tăng của những thuật toán học sâu. Các công ty như Datagen cung cấp giải pháp thay thế hấp dẫn cho quá trình thu thập dữ liệu trong thế giới thực vốn tốn nhiều chi phí và thời gian. Họ sẽ làm theo ý bạn muốn, khi nào bạn muốn mà chỉ với mức giá tương đối rẻ.

Để tạo ra con người tổng hợp, đầu tiên nhà cung cấp của Datagen sẽ quét con người thực. Họ trả tiền cho những người bước vào bên trong máy quét toàn thân khổng lồ để nắm bắt mọi chi tiết từ tròng mắt, kết cấu da đến độ cong của ngón tay. Sau đó, họ lấy dữ liệu thô và bơm nó thông qua một loạt các thuật toán để phát triển những hình ảnh đại diện 3D về cơ thể, khuôn mặt, mắt và bàn tay của một người.

Công ty có trụ sở tại Israel này cho biết họ đã làm việc với bốn gã khổng lồ công nghệ của Mỹ, mặc dù không tiết lộ đó là những công ty nào. Synthesis AI, đối thủ cạnh tranh gần nhất của họ, cũng cung cấp con người kỹ thuật số theo yêu cầu. Các công ty khác tạo ra dữ liệu để sử dụng trong lĩnh vực tài chính, bảo hiểm và chăm sóc sức khỏe. Hiện có nhiều công ty dữ liệu tổng hợp cũng như có đa dạng loại dữ liệu.

Từng được coi là ít được mong đợi hơn dữ liệu thực, dữ liệu tổng hợp giờ đây lại được một số người coi như liều thuốc chữa bách bệnh, bởi dữ liệu thực tế có phần lộn xộn và sai lệch. Các quy định bảo mật dữ liệu mới khiến việc thu thập dữ liệu thực tế trở nên khó khăn. Ngược lại, dữ liệu tổng hợp là nguyên sơ và có thể được sử dụng để xây dựng những tập dữ liệu đa dạng hơn. Bạn có thể tạo ra những khuôn mặt được gắn nhãn hoàn hảo, chẳng hạn như theo độ tuổi, hình thức và dân tộc khác nhau, nhằm xây dựng hệ thống nhận diện khuôn mặt hoạt động trên các quần thể dân cư.

Nhưng dữ liệu tổng hợp có những hạn chế của nó. Trong trường hợp không phản ánh đúng thực tế, nó có thậm chí thể tạo ra AI tệ hơn cả dữ liệu thế giới thực vốn sai lệch hoặc kế thừa những vấn đề tương tự. Cathy O’Neil, nhà khoa học dữ liệu và là người sáng lập công ty kiểm toán thuật toán ORCAA, cho biết: “Tôi không muốn lên tiếng ủng hộ mô hình này và khẳng định nó sẽ giải quyết được rất nhiều vấn đề, bởi vì thực ra, nó cũng sẽ bỏ qua rất nhiều thứ.”

Thực tế, không thực tế

Những điều mà AI học sâu luôn là về dữ liệu. Nhưng trong vài năm gần đây, cộng đồng AI đã học được rằng dữ liệu tốt quan trọng hơn dữ liệu lớn. Ngay cả một lượng nhỏ dữ liệu được gắn nhãn rõ ràng, phù hợp cũng có thể cải thiện hiệu suất của hệ thống AI gấp 10 lần lượng dữ liệu chưa bão hòa hoặc thậm chí là một thuật toán nâng cao hơn.

Điều đó thay đổi cách các công ty nên tiếp cận việc phát triển mô hình AI của mình, Ofir Chakon, Giám đốc điều hành và đồng sáng lập của Datagen, cho biết. Ngày nay, họ bắt đầu bằng cách thu thập càng nhiều dữ liệu càng tốt, sau đó tinh chỉnh và điều chỉnh các thuật toán của mình để có hiệu suất tốt hơn. Nhưng thực ra họ nên làm ngược lại: sử dụng cùng một thuật toán trong khi cải thiện thành phần dữ liệu.

Nhưng việc thu thập dữ liệu trong thế giới thực để thực hiện loại thử nghiệm lặp đi lặp lại này là quá tốn chi phí và thời gian. Đây là lúc Datagen xuất hiện. Với trình tạo dữ liệu tổng hợp, các nhóm có thể tạo và kiểm tra hàng chục tập dữ liệu mới mỗi ngày để xác định tập dữ liệu nào tối đa hóa hiệu suất của mô hình.

Để đảm bảo tính chân thực của dữ liệu, Datagen cung cấp cho các nhà cung cấp hướng dẫn chi tiết về số lượng cá nhân cần quét trong từng độ tuổi, phạm vi BMI và dân tộc, cũng như danh sách các hành động để họ thực hiện, chẳng hạn như đi bộ xung quanh phòng hoặc uống một lon nước ngọt. Các nhà cung cấp gửi lại cả hình ảnh tĩnh có độ trung thực cao và dữ liệu chụp chuyển động của những hành động đó. Các thuật toán của Datagen sau đó mở rộng dữ liệu này thành hàng trăm nghìn tổ hợp. Dữ liệu tổng hợp đôi khi được kiểm tra lại. Ví dụ, khuôn mặt giả được vẽ dựa trên khuôn mặt thật để xem chúng có giống thật không.

Datagen hiện đang tạo ra các biểu cảm khuôn mặt để theo dõi mức độ cảnh giác của người lái xe trong ô tô thông minh hay chuyển động cơ thể để theo dõi khách hàng trong các cửa hàng không có thu ngân cũng như chuyển động của tròng mắt và bàn tay để cải thiện khả năng theo dõi mắt và tay của tai nghe VR. Công ty cho biết dữ liệu của họ đã được sử dụng để phát triển các hệ thống thị giác máy tính phục vụ hàng chục triệu người dùng.

Không chỉ con người tổng hợp đang được sản xuất hàng loạt. Click-Ins là một công ty khởi nghiệp sử dụng AI tổng hợp để thực hiện kiểm tra xe tự động. Họ sử dụng phần mềm thiết kế dựng lại tất cả các sản phẩm và mô hình ô tô mà AI cần nhận dạng, sau đó hiển thị chúng với các màu sắc, kiểu hỏng hóc và biến dạng khác nhau trong các điều kiện ánh sáng khác nhau, dựa trên những nền khác nhau. Điều này cho phép công ty cập nhật AI của mình khi các nhà sản xuất ô tô đưa ra mẫu xe mới, giúp công ty tránh vi phạm quyền riêng tư dữ liệu ở các quốc gia nơi biển số xe được coi là thông tin cá nhân và do đó không thể xuất hiện trong ảnh được sử dụng để đào tạo AI.

Tags: AIdoanh nghiệpy tế

Các bài viết khác