Tóm tắt: Data annotators phân loại và gắn nhãn dữ liệu, cho phép trí tuệ nhân tạo học hỏi bằng cách tìm các mẫu trong lượng lớn dữ liệu và được coi là "lao động ma" ẩn sau cỗ máy. Công việc chú thích là nền tảng của trí tuệ nhân tạo, nó đã hình thành nên cả một chuỗi cung ứng và loại công việc này sẽ tiếp tục tồn tại trong một thời gian dài.
Tập trung
Trí tuệ nhân tạo học bằng cách tìm kiếm các mẫu trong một lượng lớn dữ liệu, nhưng trước tiên những dữ liệu này phải được con người phân loại và dán nhãn, và các công cụ chú thích dữ liệu ra đời, được ví như những “thợ ma” ẩn mình sau máy móc.
Công việc của người chú thích nhàm chán và tẻ nhạt, họ thường phải làm công việc lặp đi lặp lại và được trả lương theo từng công việc, mức lương trung bình mỗi giờ là từ 5 đến 10 đô la Mỹ (khoảng 36 đến 72 nhân dân tệ). Đến đầu năm nay, lương theo giờ của một số nhà bình luận đã giảm xuống còn 1 đô la đến 3 đô la một giờ (khoảng 7 đến 22 nhân dân tệ).
Công việc chú thích vẫn là nền tảng của trí tuệ nhân tạo và nó đã hình thành một chuỗi cung ứng hoàn chỉnh. Những loại công việc này sẽ tồn tại trong một thời gian dài sắp tới.
Công việc chú thích khác với điện thoại thông minh và sản xuất ô tô ở chỗ nó dễ bị biến dạng và lỏng, và thường chảy đến những nơi có chi phí vận hành thấp hơn.
Vài tháng sau khi tốt nghiệp Đại học Nairobi, Joe, hiện 30 tuổi, đã tìm được công việc là một người chú thích, giúp xử lý thông tin thô được sử dụng để đào tạo trí tuệ nhân tạo, một công việc buồn tẻ và tẻ nhạt. Trí tuệ nhân tạo học bằng cách tìm các mẫu trong lượng lớn dữ liệu, nhưng trước tiên dữ liệu này phải được con người phân loại và dán nhãn, vì vậy có thể nói con người là "thợ ma" ẩn sau máy móc.
Lấy ví dụ về công việc của Joe, nơi anh ấy dán nhãn video cho ô tô tự lái, xác định ô tô, người đi bộ, người đi xe đạp và bất cứ điều gì người lái xe cần chú ý, từng khung hình, từ mọi góc máy quay. Đây là công việc khó khăn và lặp đi lặp lại. Một video ngắn vài giây mất tám giờ để chú thích, Joe được trả khoảng 10 đô la.
Sau đó, vào năm 2019, một cơ hội xuất hiện trước mắt anh ấy và Joe bắt đầu đào tạo những tân binh cho một công ty mới đang rất cần những người chú thích, kiếm được gấp bốn lần. Hai tuần một lần, 50 nhân viên mới xếp hàng để vào một tòa nhà văn phòng ở Nairobi để bắt đầu học việc. Nhu cầu về người chú thích dường như là vô tận. Họ sẽ được yêu cầu phân loại quần áo mà họ nhìn thấy trong ảnh tự chụp trước gương, xác định căn phòng họ đang ở qua con mắt của máy hút bụi robot và vẽ các hộp xung quanh một chiếc xe máy được quét bởi lidar. Hơn một nửa số sinh viên của Joe thường bỏ học trước khi khóa đào tạo kết thúc. “Một số người không biết làm thế nào để ở yên một chỗ trong một thời gian dài,” anh nhẹ nhàng giải thích. Thêm vào đó, anh ấy thừa nhận, "công việc thật nhàm chán."
Nhưng đó là một công việc tốt ở một nơi khan hiếm việc làm và Joe đã tạo ra hàng trăm sinh viên tốt nghiệp. Sau khóa đào tạo, người học việc có thể trở về nhà và làm việc một mình trong phòng ngủ và nhà bếp của mình mà không cần nói cho ai biết họ đang làm gì. Đó không phải là vấn đề thực sự bởi vì họ thậm chí không hiểu những gì họ đang làm.
Việc gắn nhãn các đối tượng cho ô tô tự lái rất dễ dàng, nhưng việc phân loại các đoạn hội thoại bị bóp méo và xác định xem người nói là rô-bốt hay con người là một thách thức. Mỗi đối tượng nhận dạng là một phần nhỏ của một dự án lớn hơn, vì vậy thật khó để nói chính xác họ đang đào tạo AI để làm gì. Tên của những đối tượng này cũng không cung cấp bất kỳ manh mối nào, Tạo cua, Phân đoạn cá voi, Con quay hồi chuyển trong rừng và Hộp đựng thuốc Bratwurst đều là mã công việc không có bất kỳ thứ tự logic nào.
Đối với công ty đã thuê họ, hầu hết mọi người chỉ biết đến nó với cái tên Remotasks, một trang web cung cấp cơ hội việc làm cho bất kỳ ai nói thông thạo tiếng Anh. Giống như hầu hết các chú thích, Joe không biết rằng Remotasks là một công ty lao động hợp đồng thuộc sở hữu của Scale AI. Scale AI là nhà cung cấp dữ liệu trị giá hàng tỷ đô la ở Thung lũng Silicon có khách hàng bao gồm công ty khởi nghiệp trí tuệ nhân tạo OpenAI và quân đội Hoa Kỳ. Cả Remotasks và Scale AI đều không đề cập đến nhau trên trang web của họ.
01 Trợ giúp máy móc với khả năng độc đáo của con người
Phần lớn phản ứng của công chúng đối với các mô hình ngôn ngữ lớn như ChatGPT của OpenAI tập trung vào công việc mà chúng dường như sẵn sàng tự động hóa. Nhưng ngay cả hệ thống AI ấn tượng nhất cũng cần sự trợ giúp của con người, những người đào tạo nó bằng cách dán nhãn dữ liệu và can thiệp khi nó bị lẫn lộn. Chỉ những công ty có đủ khả năng mua dữ liệu mới có thể cạnh tranh trong ngành và những công ty có được dữ liệu sẽ cố gắng hết sức để giữ bí mật. Kết quả là, ngoại trừ một số người, chúng ta biết rất ít về thông tin ảnh hưởng đến hành vi của các hệ thống này, và thậm chí còn ít hơn về những người đứng đằng sau hành vi định hình chúng.
Đối với các sinh viên của Joe, đó là một công việc bị tước bỏ mọi vẻ bình thường: Họ phải tuân theo một lịch trình nghiêm ngặt và không cần biết họ đang làm gì hay đang làm việc cho ai. Trên thực tế, họ hiếm khi tự gọi mình là công việc, chỉ là những “nhiệm vụ” thường ngày. Họ tự gọi mình là nhân viên nhiệm vụ.
Nhà nhân chủng học David Graeber đã định nghĩa cái gọi là “công việc vớ vẩn”—những công việc không có ý nghĩa hay mục đích. Đây là những công việc nên được tự động hóa, nhưng không phải vì lý do quan liêu, tình trạng hoặc quán tính. Công việc đào tạo trí tuệ nhân tạo cũng tương tự như vậy: những công việc mà con người muốn tự động hóa, nói chung được coi là tự động hóa, nhưng vẫn cần con người tham gia. Những nhiệm vụ này có mục đích đặc biệt, nhưng người chú thích không nhận thức được điều đó.
Sự bùng nổ AI hiện tại bắt đầu với công việc lặp đi lặp lại khá tẻ nhạt này. Ngay từ năm 2007, Fei-Fei Li, một nhà nghiên cứu trí tuệ nhân tạo, sau đó là giáo sư tại Đại học Princeton, đã nghi ngờ rằng chìa khóa để cải thiện mạng lưới thần kinh để nhận dạng hình ảnh là đào tạo trên nhiều dữ liệu hơn, yêu cầu hàng triệu hình ảnh được dán nhãn thay vì hàng chục nghìn. Vấn đề là, nhóm của cô ấy đã phải mất hàng thập kỷ và hàng triệu đô la để gắn thẻ cho nhiều bức ảnh đó.
Fei-Fei Li đã tìm thấy hàng nghìn công nhân trên nền tảng cung cấp dịch vụ cộng đồng của Amazon, Mechanical Turk, nơi mọi người trên khắp thế giới hoàn thành các nhiệm vụ nhỏ với giá rẻ. Tập dữ liệu được gắn nhãn kết quả, được gọi là ImageNet, đã tạo ra một bước đột phá lớn trong lĩnh vực máy học, tiếp thêm sinh lực cho lĩnh vực này và mở ra tiến trình của thập kỷ trước.
Chú thích vẫn là một phần thiết yếu trong việc phát triển AI, nhưng các kỹ sư thường cảm thấy đó là một điều kiện tiên quyết phù du và cồng kềnh cho công việc mô hình hóa hấp dẫn hơn. Bạn có thể thu thập càng nhiều dữ liệu được gắn nhãn càng rẻ càng tốt để đào tạo mô hình của riêng mình và nếu bạn có thể làm được điều đó, ít nhất là về mặt lý thuyết, bạn sẽ không cần người chú thích nữa. Tuy nhiên, công việc chú thích không bao giờ thực sự được thực hiện. Các nhà nghiên cứu lập luận rằng các hệ thống học máy rất "dễ vỡ" và dễ bị lỗi khi gặp phải những điều trong dữ liệu đào tạo không được giải thích rõ ràng. Những lỗi này được gọi là "trường hợp cạnh" và có thể gây hậu quả nghiêm trọng.
Năm 2018, một chiếc xe thử nghiệm tự lái của hãng gọi xe Uber đã giết chết một phụ nữ vì mặc dù được lập trình để tránh người đi xe đạp và người đi bộ nhưng nó không biết phải làm gì với người đi xe đạp băng qua đường có người. Khi càng nhiều hệ thống AI cung cấp tư vấn pháp lý và hỗ trợ y tế, chúng càng gặp phải nhiều trường hợp khó khăn hơn, đòi hỏi nhiều con người hơn để giải quyết chúng. Điều này đã tạo ra một ngành công nghiệp toàn cầu gồm những người như Joe, những người sử dụng khả năng đặc biệt của con người để trợ giúp máy móc.
Trong sáu tháng qua, phóng viên điều tra công nghệ Josh Dzieza đã nói chuyện với hơn hai chục nhà bình luận từ khắp nơi trên thế giới, nhiều người trong số họ đang đào tạo các chatbot tiên tiến, nhưng cũng có nhiều người đang làm công việc chân tay trần tục cần thiết để duy trì hoạt động của AI . Một số đã lập danh mục nội dung cảm xúc của video TikTok, các biến thể mới của thư rác và quảng cáo trực tuyến không phù hợp. Những người khác đang xem xét các giao dịch thẻ tín dụng và tìm ra các loại giao dịch mua liên quan đến chúng hoặc xem các đề xuất thương mại điện tử và quyết định xem bạn có thực sự thích chiếc áo đó sau khi mua một chiếc khác hay không.
Con người đang sửa lỗi của chatbot dịch vụ khách hàng, lắng nghe yêu cầu từ trợ lý thông minh Alexa của Amazon và phân loại cảm xúc của mọi người trong các cuộc gọi video. Họ dán nhãn thực phẩm để tủ lạnh thông minh không bị nhầm lẫn bởi bao bì mới, kiểm tra camera an ninh tự động trước khi phát âm thanh báo động và giúp máy kéo tự động bị nhầm lẫn xác định ngô.
02 Bình luận làm ăn lớn, đẻ ra "tỷ phú tự thân trẻ nhất"
Sonam Jindal, giám đốc chương trình và nghiên cứu của tổ chức phi lợi nhuận Partnership on AI cho biết: "Đó là một chuỗi cung ứng hoàn chỉnh. Nhận thức chung trong ngành là công việc này không phải là một phần quan trọng của sự phát triển công nghệ, nó không phải là một phần quan trọng của sự phát triển của công nghệ." Sẽ thịnh vượng trong một thời gian dài. Tất cả sự phấn khích lan tỏa xung quanh việc xây dựng AI và một khi chúng tôi xây dựng nó, các chú thích không còn cần thiết nữa, vậy tại sao phải nghĩ về nó? Nhưng ghi nhãn dữ liệu là nền tảng của AI, giống như con người Cũng giống như trí thông minh là nền tảng của AI, chúng ta cần coi đây là những công việc thực sự trong nền kinh tế AI sẽ tồn tại trong một thời gian dài sắp tới."
Các nhà cung cấp dữ liệu đằng sau những cái tên quen thuộc như OpenAI, Google và Microsoft có những vỏ bọc khác nhau. Ngoài ra còn có các công ty gia công phần mềm tư nhân có văn phòng giống như trung tâm cuộc gọi, như CloudFactory ở Kenya và Nepal, nơi Joe thực hiện công việc chú thích với mức lương 1,2 đô la một giờ trước khi chuyển sang Remotasks.
Ngoài ra còn có các trang web "nhân viên cộng đồng" như Mechanical Turk và Clickworker, nơi mọi người có thể đăng ký để hoàn thành nhiệm vụ. Ở giữa là các dịch vụ như Scale AI. Bất cứ ai cũng có thể đăng ký, nhưng tất cả mọi người phải vượt qua kỳ thi đủ điều kiện, một khóa đào tạo và được theo dõi để thực hiện. Chú thích là kinh doanh lớn. Scale AI, được thành lập vào năm 2016 bởi Alexander Wang, khi đó mới 19 tuổi, được định giá 7,3 tỷ USD vào năm 2021, giúp anh trở thành một trong những tỷ phú tự thân trẻ nhất của Forbes.
Chuỗi cung ứng phức tạp này rất khó hiểu đối với người ngoài. Theo các nguồn tin trong ngành, các công ty mua dữ liệu được dán nhãn yêu cầu bảo mật nghiêm ngặt. Các chú thích đôi khi làm rò rỉ thông tin về hệ thống AI đang được phát triển và việc bổ sung một số lượng lớn các chú thích khiến việc rò rỉ trở nên khó ngăn chặn. Người chú thích luôn được cảnh báo không được nói với bất kỳ ai về công việc của họ, kể cả bạn bè và đồng nghiệp của họ. Quan trọng nhất, sự phân công lao động khắc nghiệt đảm bảo rằng họ không có đủ thông tin để nói về công việc của mình, ngay cả khi họ muốn.
Vì điều này, không có cách nào để đưa ra ước tính chi tiết về số lượng người làm việc trong lĩnh vực chú thích, nhưng điều chắc chắn là có rất nhiều và đang tăng lên nhanh chóng. Nghiên cứu của Google gần đây đã xuất bản một bài báo đưa ra ước tính mơ hồ về số lượng người chú thích ở mức "hàng triệu" và có thể là "hàng tỷ" trong tương lai.
Tự động hóa thường đến theo những cách không ngờ tới. Erik Duhaime, Giám đốc điều hành của Centaur Labs, một công ty chú thích dữ liệu y tế, nhớ lại rằng vài năm trước, một số kỹ sư máy học nổi tiếng đã dự đoán rằng trí tuệ nhân tạo sẽ thay thế các bác sĩ X quang. Khi điều đó không xảy ra, sự khôn ngoan thông thường chuyển sang các bác sĩ X quang sử dụng AI như một công cụ.
Theo Duheim, cả hai điều đó đều không xảy ra. Trí tuệ nhân tạo rất giỏi trong các nhiệm vụ cụ thể, điều này khiến công việc được chia nhỏ và giao cho các hệ thống thuật toán chuyên biệt và con người cũng chuyên biệt như nhau. Ông nói, ví dụ, một hệ thống AI có thể phát hiện ung thư, nhưng chỉ trong một số loại máy, trong một số loại hình ảnh. Vì vậy, bạn cần ai đó giúp kiểm tra xem AI có đang được cung cấp đúng loại dữ liệu hay không và có thể là người khác kiểm tra xem nó có hoạt động hay không trước khi giao cho một AI khác viết báo cáo và cuối cùng là cho con người. “AI sẽ không thay thế công việc của con người, nhưng nó thay đổi cách thức tổ chức công việc,” Duheim nói.
Nếu bạn nghĩ trí tuệ nhân tạo là một cỗ máy thông minh, biết suy nghĩ, thì có thể bạn đang phớt lờ con người đằng sau nó. Du Haimei tin rằng tác động của trí tuệ nhân tạo đối với công việc hiện đại giống như quá trình chuyển đổi từ thợ thủ công sang sản xuất công nghiệp: các quy trình mạch lạc được chia thành các nhiệm vụ nhỏ, sắp xếp dọc theo dây chuyền lắp ráp, một số bước được hoàn thành bởi máy móc, một số do con người thực hiện, nhưng nó là khác với những cái trước Tình hình là khá khác nhau.
Những lo ngại về sự gián đoạn của AI thường được phản bác bằng cách nói rằng AI tự động hóa một số nhiệm vụ chứ không phải toàn bộ công việc. Những nhiệm vụ này thường tẻ nhạt và buồn tẻ, khiến mọi người theo đuổi những công việc mang tính nhân văn, thỏa mãn hơn. Nhưng cũng có khả năng là sự trỗi dậy của trí tuệ nhân tạo cũng sẽ giống như các công nghệ tiết kiệm sức lao động trong quá khứ, có lẽ giống như điện thoại hoặc máy đánh chữ, giúp loại bỏ sự cực nhọc của việc gửi tin nhắn và chữ viết tay, nhưng tạo ra nhiều thông tin hơn về giao tiếp, thương mại và nhiều đến mức cần phải có một văn phòng mới với những loại công nhân mới, thư ký, kế toán, đánh máy, v.v., để quản lý họ. Bạn có thể không mất việc khi AI tham gia vào công việc của bạn, nhưng nó có thể trở nên xa lạ, cô lập hơn và tẻ nhạt hơn.
03 Đơn giản hóa thực tế phức tạp thành thứ mà máy có thể đọc được
Đầu năm nay, nhà báo Ziyeza đã đăng ký làm việc với Remotasks. Quá trình này rất đơn giản. Bạn chỉ cần nhập thông số kỹ thuật máy tính, tốc độ mạng và thông tin liên lạc cơ bản để vào "Trung tâm đào tạo". Để nhận được các nhiệm vụ được trả tiền, trước tiên Ziyeza phải hoàn thành các khóa học giới thiệu có liên quan nhưng không được trả tiền. Trung tâm đào tạo trưng bày hàng loạt lớp học với những cái tên khó hiểu như Glue Swimsuits và Poster Hawaii. Zieza đã nhấp vào một thứ gọi là GFD Chunking, yêu cầu quần áo được gắn thẻ trong các bức ảnh trên mạng xã hội.
Ngoài ra, còn có các hướng dẫn cho các nhiệm vụ như phải dán nhãn các mặt hàng là có thật, con người có thể đeo được hoặc người thật dự định đeo. Tự tin vào khả năng phân biệt quần áo thật mà người thật có thể mặc với quần áo giả mà người thật không thể mặc, Ziyeza bắt đầu thử nghiệm. Tuy nhiên, anh ta ngay lập tức bị đánh vào đầu: máy tính đưa ra một bức ảnh tạp chí về một người phụ nữ mặc váy. Hình ảnh quần áo có nên được coi là quần áo thật không? Không, Ziyeza nghĩ, bởi vì mọi người không thể mặc những bức ảnh về quần áo. Kết quả cho thấy một lỗi! Bởi vì trong con mắt của trí tuệ nhân tạo, ảnh chụp quần áo thật cũng tương đương với quần áo thật.
Hình ảnh sau đây là hình ảnh một người phụ nữ đang chụp ảnh tự sướng trước gương soi toàn thân trong phòng ngủ thiếu ánh sáng. Chiếc áo sơ mi và quần đùi cô ấy đang mặc là quần áo thật, và hình ảnh phản chiếu của quần áo có phải là thật không? Ziyeza cũng đưa ra câu trả lời phủ định, nhưng hệ thống trí tuệ nhân tạo tin rằng hình ảnh phản chiếu của quần áo thật cũng phải là quần áo thật.
Sau khi lúng túng thử và sai, Ziyeza cuối cùng cũng bắt tay vào việc, chỉ để kinh hoàng phát hiện ra rằng những hướng dẫn mà anh ấy đã cố gắng làm theo đã được cập nhật nhiều lần và dài tới 43 trang, bao gồm cả việc không gắn thẻ một chiếc vali đang mở chứa đầy quần áo; không gắn thẻ giày nhưng gắn thẻ chân chèo; gắn thẻ quần legging nhưng không gắn thẻ quần bó; không gắn thẻ khăn ngay cả khi ai đó đang mặc chúng; không gắn thẻ quần áo Dán nhãn nhưng không dán nhãn áo giáp. vân vân......
Milagros Miceli, một nhà nghiên cứu làm việc về dữ liệu tại Viện Weizenbaum ở Đức, cho biết có sự nhầm lẫn lan rộng trong toàn ngành. Một phần, đây là sản phẩm của cách học của các hệ thống máy học. Con người chỉ cần một vài ví dụ để hiểu khái niệm về "áo sơ mi", trong khi các chương trình học máy cần hàng nghìn ví dụ và chúng cần phải làm như vậy với tính nhất quán hoàn hảo và đủ loại (áo sơ mi polo, áo sơ mi mặc ngoài trời, áo sơ mi treo trên rack) để hệ thống có thể xử lý đa dạng trong thế giới thực. “Hãy tưởng tượng chúng ta cần giảm thực tế phức tạp thành thứ mà những cỗ máy vụng về có thể đọc được,” Miselli nói.
Đối với máy móc, hành động đơn giản hóa thực tế dẫn đến sự phức tạp to lớn. Người viết hướng dẫn phải đưa ra các quy tắc cho phép con người phân loại thế giới với sự nhất quán hoàn hảo. Để làm được điều này, họ thường tạo ra các danh mục mà con người sẽ không sử dụng. Nếu một người được yêu cầu dán nhãn tất cả áo sơ mi trong ảnh, họ có thể không dán nhãn áo sơ mi trong gương vì họ biết chúng là hình ảnh phản chiếu chứ không phải quần áo thực. Nhưng với một AI không hiểu thế giới thực, nó chỉ là các pixel, cả hai hoàn toàn giống nhau. Nếu một số áo sơ mi trong tập dữ liệu được dán nhãn và những áo sơ mi phản chiếu khác thì không, thì mô hình sẽ không hoạt động. Vì vậy, kỹ sư đã quay lại nhà cung cấp với thông tin cập nhật và yêu cầu dán nhãn cho chiếc áo được phản chiếu trong gương. Chẳng bao lâu nữa, bạn sẽ có một hướng dẫn khác dài 43 trang, tất cả đều bằng chữ in hoa màu đỏ.
Công việc của một người chú thích thường là gạt bỏ sự hiểu biết của con người sang một bên và làm theo hướng dẫn một cách rất, rất nghiêm ngặt. Như một nhà bình luận đã nói, hãy suy nghĩ như một người máy. Đó là một không gian tinh thần kỳ lạ, nơi bạn cố gắng hết sức để tuân theo những quy tắc vô lý nhưng nghiêm ngặt, chẳng hạn như làm bài kiểm tra tiêu chuẩn trong khi dùng chất gây ảo giác. Các chú thích luôn có những câu hỏi khó hiểu như, đây là áo đỏ sọc trắng hay áo trắng sọc đỏ? Nếu một cái bát đan bằng liễu gai chứa đầy táo, thì nó có phải là "bát trang trí" không? Da báo có màu gì? Mọi câu hỏi đều phải được trả lời và một lần đoán sai có thể khiến bạn bị cấm và bắt đầu một nhiệm vụ hoàn toàn mới, hoàn toàn khác với các quy tắc khó hiểu của riêng nó.
04 Trả tiền theo mảnh, kiểm tra nhiệm vụ ba giờ một lần
Hầu hết các công việc trên Remotasks được trả theo từng phần, với thu nhập từ vài xu đến vài đô la cho một nhiệm vụ. Bởi vì các nhiệm vụ có thể mất vài giây hoặc vài giờ để hoàn thành, nên tiền lương rất khó dự đoán. Khi Remotasks lần đầu tiên đến Kenya, các nhà bình luận cho biết nó được trả lương tương đối cao. Điều đó trung bình vào khoảng $5 đến $10 một giờ, tùy thuộc vào nhiệm vụ. Nhưng theo thời gian, tiền lương giảm xuống.
Anna Franko, phát ngôn viên của Scale AI, cho biết các nhà kinh tế của công ty phân tích chi tiết dự án, kỹ năng cần thiết, chi phí sinh hoạt khu vực và các yếu tố khác "để đảm bảo mức bồi thường công bằng và cạnh tranh". Cựu nhân viên của Scale AI cũng cho biết rằng tiền thưởng được xác định thông qua một cơ chế tương tự như định giá lạm phát, cơ chế này điều chỉnh dựa trên số lượng người chú thích có sẵn và tốc độ dữ liệu cần thiết. Thống kê cho thấy rằng những người chú thích từ xa ở Hoa Kỳ thường kiếm được từ 10 đến 25 đô la mỗi giờ, nhưng các chuyên gia trong một số lĩnh vực chú thích chuyên nghiệp được trả nhiều hơn. Đến đầu năm nay, lương của các bình luận viên người Kenya đã giảm xuống còn 1 đến 3 đô la Mỹ (khoảng 7 đến 22 nhân dân tệ) mỗi giờ.
Khiếu nại phổ biến nhất về công việc teletasking là tính hay thay đổi của nó. Loại công việc này đủ ổn định để trở thành một công việc toàn thời gian dài hạn, nhưng có quá nhiều điều không thể đoán trước để hoàn toàn dựa vào nó. Người chú thích dành hàng giờ để đọc hướng dẫn và hoàn thành khóa đào tạo chuyên nghiệp chỉ để hoàn thành hàng chục nhiệm vụ trước khi dự án kết thúc. Có thể không có nhiệm vụ mới nào trong vài ngày, và sau đó, bất ngờ, một nhiệm vụ hoàn toàn khác xuất hiện, có thể trong vài giờ đến vài tuần. Bất kỳ nhiệm vụ nào cũng có thể là nhiệm vụ cuối cùng của họ và họ không bao giờ biết khi nào nhiệm vụ tiếp theo sẽ đến.
Các kỹ sư và nhà cung cấp dữ liệu cho biết chu kỳ bùng nổ này bắt nguồn từ tốc độ phát triển của AI. Đào tạo một mô hình lớn yêu cầu nhiều chú thích, sau đó là các bản cập nhật lặp đi lặp lại nhiều hơn và các kỹ sư muốn tất cả những điều này diễn ra nhanh nhất có thể để họ có thể đáp ứng ngày phát hành mục tiêu của mình. Họ có thể cần hàng nghìn người chú thích trong vài tháng, sau đó giảm xuống còn vài trăm và cuối cùng chỉ còn hơn chục chuyên gia thuộc một loại cụ thể. Quá trình này đôi khi được lặp lại theo chu kỳ. “Câu hỏi đặt ra là ai chịu chi phí cho những biến động này?” Quan hệ đối tác về AI của Jindal cho biết.
Để thành công, các chú thích phải làm việc cùng nhau. Victor bắt đầu làm việc cho Remotasks khi anh ấy còn là sinh viên đại học ở Nairobi, và khi được thông báo rằng anh ấy đang gặp rắc rối với nhiệm vụ điều khiển giao thông, anh ấy nói rằng mọi người đều biết nên tránh xa nhiệm vụ đó: quá phức tạp, được trả lương thấp, không xứng đáng. Giống như nhiều nhà bình luận, Victor sử dụng một nhóm WhatsApp không chính thức để truyền bá thông tin khi có bài tập tốt. Khi nảy ra một ý tưởng mới, anh ấy sẽ bắt đầu một cuộc họp ngẫu hứng trên Google để chỉ cho những người khác cách thực hiện. Bất cứ ai cũng có thể tham gia và làm việc cùng nhau trong một thời gian, chia sẻ các mẹo. "Chúng tôi đã phát triển văn hóa giúp đỡ lẫn nhau vì chúng tôi biết rằng một người không thể biết tất cả các mánh khóe", anh nói.
Người chú thích luôn cần phải tự giác khi công việc xuất hiện và biến mất không báo trước. Victor thấy rằng các món đồ thường xuất hiện vào lúc nửa đêm, vì vậy anh ấy có thói quen thức dậy cứ sau ba giờ hoặc lâu hơn để kiểm tra chúng. Khi có nhiệm vụ, anh ấy sẽ luôn tỉnh táo. Tại một thời điểm, anh ấy đã thức 36 giờ không ngủ, đánh dấu khuỷu tay, đầu gối và đầu trong các bức ảnh đám đông, mặc dù anh ấy không biết tại sao. Một lần khác, anh ấy thức rất lâu đến nỗi mắt sưng đỏ.
Những người chú thích thường chỉ biết họ đang đào tạo hệ thống AI cho các công ty ở nơi khác, nhưng đôi khi bức màn ẩn danh biến mất và có quá nhiều dấu hiệu cho các thương hiệu hoặc chatbot được đề cập trong hướng dẫn. "Tôi đọc hướng dẫn, tìm kiếm trên Google và phát hiện ra mình đang làm việc cho một tỷ phú 25 tuổi. Nếu tôi biến ai đó thành tỷ phú và tôi kiếm được vài đô la, thì tôi đang lãng phí cuộc đời mình theo đúng nghĩa đen."
Tự nhận mình là một người “cuồng nhiệt tin tưởng” vào trí tuệ nhân tạo, Victor bắt đầu công việc chú thích vì anh muốn giúp mang lại một tương lai hoàn toàn tự động. Nhưng đầu năm nay, một người nào đó đã đăng một câu chuyện trên tạp chí Time trong nhóm WhatsApp của anh ấy về việc nhân viên tại nhà cung cấp Sama AI được trả chưa đến 2 đô la một giờ để đào tạo ChatGPT xác định nội dung độc hại. Victor, người không biết về mối quan hệ giữa Remotasks và Scale AI cho biết: “Mọi người tỏ ra phẫn nộ vì những công ty này quá lãi mà trả quá ít. Hướng dẫn cho một trong những nhiệm vụ mà anh ấy thực hiện gần giống với hướng dẫn được sử dụng bởi OpenAI, điều đó có nghĩa là anh ấy có thể cũng đang đào tạo về ChatGPT, với mức lương khoảng 3 đô la một giờ. "
Tôi nhớ ai đó đã đăng rằng chúng tôi sẽ được nhớ đến trong tương lai", anh nói. Không ai trả lời: "Chúng tôi bị đối xử tệ hơn cả bộ binh. Chúng ta sẽ không được nhớ đến ở bất cứ đâu trong tương lai, tôi nhớ rõ điều đó. Sẽ không ai nhận ra công việc chúng ta làm và nỗ lực chúng ta bỏ ra. "
Xác định quần áo và ghi nhãn các cuộc hội thoại dịch vụ khách hàng chỉ là một số công việc chú thích. Gần đây, thứ hot nhất trên thị trường là những người huấn luyện chatbot. Bởi vì nó yêu cầu chuyên môn cụ thể theo lĩnh vực hoặc thông thạo ngôn ngữ và mức lương có xu hướng được điều chỉnh theo khu vực, công việc có xu hướng trả nhiều tiền hơn. Một số loại chú thích chuyên nghiệp có thể kiếm được tới 50 đô la trở lên mỗi giờ.
Khi một phụ nữ tên Anna đang tìm việc ở Texas, cô ấy đã xem một danh sách việc làm trực tuyến chung chung và nộp đơn. Sau khi vượt qua bài kiểm tra đầu vào, cô được đưa vào một phòng Slack gồm 1.500 người để đào tạo về một dự án có tên mã là Dolphin, mà sau đó cô phát hiện ra đó là chatbot Sparrow của Google DeepMind, một trong nhiều chatbot cạnh tranh với ChatGPT. Công việc của Anna là trò chuyện với Sparrow cả ngày, lương theo giờ khoảng 14 đô la, cộng với tiền thưởng khi hiệu quả công việc cao, "điều này chắc chắn tốt hơn so với làm việc trong siêu thị địa phương để kiếm 10 đô la một giờ."
05 AI đáp ứng ba tiêu chí: chính xác, hữu ích và vô hại
Và, Ana yêu thích công việc này. Cô ấy đã thảo luận về khoa học viễn tưởng, nghịch lý toán học, câu đố dành cho trẻ em và các chương trình truyền hình với Sparrow. Đôi khi, những câu trả lời của chatbot khiến cô bật cười thành tiếng. Đôi khi, cô cũng cảm thấy không nói nên lời. Anna nói: "Đôi khi, tôi thực sự không biết phải hỏi gì, vì vậy tôi có một cuốn sổ nhỏ đã viết sẵn hai trang. Tôi Google những chủ đề thú vị, vì vậy tôi nghĩ mình có thể làm tốt công việc. Đối phó với bảy giờ, mà không phải luôn luôn như vậy."
Mỗi khi Anna nhắc Sparrow, nó sẽ đưa ra hai phản hồi và cô ấy chọn câu trả lời tốt nhất, tạo ra cái gọi là "dữ liệu phản hồi của con người". Khi ChatGPT ra mắt vào cuối năm ngoái, phong cách đàm thoại tự nhiên ấn tượng của nó được cho là do nó đã được đào tạo trên một lượng lớn dữ liệu Internet. Nhưng ngôn ngữ hỗ trợ ChatGPT và các đối thủ cạnh tranh của nó được lọc qua một số vòng chú thích của con người.
Một nhóm các nhà thầu đã viết các ví dụ về cách các kỹ sư muốn chatbot hoạt động, đặt câu hỏi và sau đó đưa ra câu trả lời chính xác, mô tả các chương trình máy tính và sau đó đưa ra mã chức năng, hỏi các mẹo tội phạm và sau đó từ chối một cách lịch sự. Sau khi mô hình được đào tạo với các ví dụ này, nhiều nhà thầu hơn sẽ được giới thiệu để nhắc nhở mô hình và xếp hạng các phản hồi của mô hình. Đó là những gì Ana đã làm với Sparrow.
Chính xác những tiêu chí mà người đánh giá được yêu cầu sử dụng rất đa dạng, chẳng hạn như sự trung thực, hữu ích hoặc chỉ là sở thích cá nhân. Vấn đề là, họ đang tạo dữ liệu về sở thích của con người và khi có đủ dữ liệu, các kỹ sư có thể đào tạo một mô hình thứ hai để bắt chước sở thích của họ trên quy mô lớn, tự động hóa quy trình xếp hạng và đào tạo AI của họ để nhận ra cách hành động theo sở thích của con người. Kết quả là một robot rất giống con người, về cơ bản từ chối các yêu cầu có hại và giải thích bản chất trí tuệ nhân tạo của nó theo cách có vẻ như tự nhận thức được.
Nói cách khác, ChatGPT trông giống con người vì nó được đào tạo bởi một AI bắt chước con người đang hoạt động giống con người.
Kỹ thuật này được gọi là "học tăng cường từ phản hồi của con người" hay viết tắt là RLHF và nó rất hiệu quả trong việc dừng lại để suy nghĩ về những gì AI không làm. Ví dụ: khi một người chú thích dạy một mô hình về tính chính xác, thì mô hình đó không học cách kiểm tra câu trả lời dựa trên logic hoặc các nguồn bên ngoài, hoặc thậm chí độ chính xác là gì, như một khái niệm. Mặc dù mô hình này vẫn là một máy dự đoán văn bản bắt chước các mẫu chữ viết của con người, kho dữ liệu đào tạo của nó hiện đã được bổ sung các ví dụ tùy chỉnh và mô hình đã được thêm trọng số để hỗ trợ chúng.
Điều này có thể khiến mô hình trích xuất các mẫu từ các phần của bản đồ ngôn ngữ được đánh dấu là chính xác và tạo ra văn bản khớp với sự thật, nhưng nó cũng có thể khiến mô hình bắt chước phong cách tự tin và biệt ngữ của văn bản chính xác trong khi viết sai hoàn toàn . Không có gì đảm bảo rằng văn bản được đánh dấu là chính xác bởi người chú thích là thực sự chính xác. Ngay cả khi nó chính xác, không có gì đảm bảo rằng mô hình đã học đúng mẫu từ nó.
Động lực này làm cho việc chú thích chatbot không dễ dàng. Nó phải chặt chẽ và nhất quán, bởi vì phản hồi cẩu thả, chẳng hạn như đánh dấu tài liệu nghe đúng là chính xác, có thể làm cho mô hình được đào tạo trở nên thuyết phục hơn. OpenAI và DeepMind đã sử dụng RLHF trong một dự án chung trước đó, trong trường hợp này, để huấn luyện bàn tay rô-bốt ảo nắm bắt một vật thể, điều này hóa ra cũng huấn luyện bàn tay rô-bốt định vị và xoay quanh vật thể giữa vật thể và người đánh giá của nó. theo cách nó sẽ chỉ xuất hiện với những người giám sát con người của nó.
Việc xếp hạng các câu trả lời của một mô hình ngôn ngữ luôn mang tính chủ quan vì đây là một ngôn ngữ. Văn bản có độ dài bất kỳ có thể chứa nhiều yếu tố có thể đúng, sai hoặc gây hiểu nhầm. Các nhà nghiên cứu OpenAI đã gặp trở ngại này trong một bài báo đầu tiên khác của RLHF. Để mô hình của họ có thể tóm tắt văn bản, các nhà nghiên cứu nhận thấy rằng chỉ có 60 phần trăm các bản tóm tắt của mô hình là tốt. Họ than thở: “Không giống như nhiều nhiệm vụ trong học máy, các truy vấn của chúng tôi không có cơ sở rõ ràng.
Khi Ana đánh giá các câu trả lời của Sparrow, cô ấy nên xem xét độ chính xác, tính hữu ích và tính vô hại của chúng, đồng thời kiểm tra xem người mẫu có đưa ra lời khuyên về y tế hoặc tài chính, nhân cách hóa bản thân hay vi phạm các tiêu chí khác hay không. Để trở thành dữ liệu huấn luyện hữu ích, các câu trả lời của mô hình phải được sắp xếp theo thứ tự định lượng: Liệu một rô-bốt có thể cho bạn biết cách chế tạo một quả bom "tốt hơn" so với một rô-bốt vô hại từ chối trả lời bất kỳ câu hỏi nào?
Trong một bài báo của DeepMind, khi các nhà sản xuất Sparrow thay phiên nhau chú thích, bốn nhà nghiên cứu đã tranh luận liệu bot của họ có đưa ra giả định về giới tính của những người dùng tìm đến nó để xin lời khuyên về tình cảm hay không. Theo Geoffrey Irving, một nhà khoa học nghiên cứu tại DeepMind, các nhà nghiên cứu của công ty tổ chức các phiên chú thích hàng tuần, trong đó họ tự xem xét dữ liệu và thảo luận về các trường hợp mơ hồ. Khi một trường hợp đặc biệt phức tạp, họ tham khảo ý kiến của các chuyên gia về đạo đức hoặc chủ đề.
Anna thường thấy rằng cô ấy phải lựa chọn giữa hai lựa chọn nghèo nàn. "Ngay cả khi cả hai đều là câu trả lời sai khủng khiếp, bạn vẫn cần tìm ra câu trả lời nào tốt hơn và viết ra văn bản giải thích tại sao," cô nói. một câu trả lời tốt hơn. Cô ấy làm điều này khoảng một nửa thời gian trong quá trình đào tạo.
06 Nhận xét ngày càng đòi hỏi các kỹ năng và chuyên môn cụ thể
Do dữ liệu phản hồi khó thu thập nên giá bán cao hơn. Theo những người hiểu biết về ngành, loại dữ liệu sở thích cơ bản mà Ana đang thu thập được bán với giá khoảng 1 đô la một phần. Nhưng nếu bạn muốn đào tạo một người mẫu để nghiên cứu pháp lý, bạn cần một người được đào tạo về pháp lý, điều này dẫn đến chi phí tăng lên. Mọi người tham gia sẽ không tiết lộ chính xác số tiền họ đã trả, nhưng nói chung, một ví dụ bằng văn bản chuyên nghiệp có thể tốn vài trăm đô la, trong khi việc chấm điểm của chuyên gia có thể tốn 50 đô la trở lên. Một kỹ sư tiết lộ rằng anh ta đã từng trả 300 đô la cho một mẫu đối thoại của Socrates.
OpenAI, Microsoft, Meta và Anthropic không tiết lộ có bao nhiêu người đã đóng góp chú thích cho mô hình của họ, số tiền họ được trả hoặc họ sống ở đâu trên thế giới. Owen của công ty chị em DeepMind của Google cho biết, những người chú thích làm việc trên Sparrow được trả ít nhất mức lương tối thiểu một giờ, tùy thuộc vào vị trí của họ. Ana "không biết gì" về Remotasks, nhưng biết nhiều hơn về Sparrow, biết rằng đó là trợ lý trí tuệ nhân tạo của DeepMind, được những người tạo ra nó đào tạo bằng RLHF.
Cho đến gần đây, tương đối dễ dàng phát hiện ra đầu ra kém từ các mô hình ngôn ngữ, trông giống như vô nghĩa. Nhưng khi các mô hình trở nên tốt hơn, điều này trở nên khó khăn hơn, một vấn đề được gọi là "giám sát có thể mở rộng". Việc Google sử dụng các mô hình ngôn ngữ hiện đại để ra mắt trợ lý AI của mình, Bard, đã vô tình cho thấy việc phát hiện lỗi trong các mô hình ngôn ngữ hiện đại khó đến mức nào. Quỹ đạo này có nghĩa là chú thích ngày càng đòi hỏi kỹ năng và chuyên môn cụ thể.
Năm ngoái, một anh chàng tên Lewis đang làm việc trên Mechanical Turk, và sau khi hoàn thành nhiệm vụ, anh ta nhận được một tin nhắn mời tham gia một nền tảng mà anh ta chưa từng nghe đến. Nó có tên là Taskup.ai, và trang này khá đơn giản, chỉ có nền màu xanh hải quân với dòng chữ "Pay as you go". Lewis đã chọn đăng ký.
Công việc này trả lương cao hơn nhiều so với bất kỳ công việc nào khác mà anh ấy từng làm trước đây, thường là khoảng 30 đô la một giờ. Tuy nhiên, nó cũng khó khăn hơn, đòi hỏi phải thiết kế các tình huống phức tạp để đánh lừa chatbot đưa ra lời khuyên nguy hiểm, kiểm tra khả năng duy trì tính cách riêng của mô hình và tham gia vào các cuộc trò chuyện chi tiết về các chủ đề khoa học mang tính kỹ thuật cao và yêu cầu Nghiên cứu sâu rộng. Lewis nhận thấy công việc "thỏa mãn và thú vị". Trong khi kiểm tra một mô hình và cố gắng viết mã mô hình đó bằng Python, Lewis đang học. Anh ấy không thể làm việc hơn 4 giờ liên tục vì sợ kiệt sức về tinh thần và phạm sai lầm, và anh ấy muốn giữ công việc.
Lewis nói: "Nếu có bất cứ điều gì tôi có thể thay đổi, tôi chỉ muốn biết thêm về những gì đang diễn ra ở đầu bên kia. Chúng tôi chỉ biết những gì chúng tôi cần để thực hiện công việc, nhưng nếu tôi biết nhiều hơn, có lẽ tôi có thể hoàn thành công việc .thành tựu lớn hơn, và có thể coi đó là một nghề nghiệp.”
Phóng viên điều tra công nghệ Ziyeza đã phỏng vấn tám người khác, chủ yếu ở Hoa Kỳ, những người có trải nghiệm tương tự khi trả lời khảo sát hoặc hoàn thành nhiệm vụ trên các nền tảng khác và sau đó được Taskup.ai hoặc một vài trang web tương tự như DataAnnotation.tech hoặc Gethybrid.io thuê. Công việc của họ thường liên quan đến việc đào tạo chatbot, mặc dù chatbot của họ có chất lượng cao hơn và có mục đích chuyên biệt hơn so với các trang web khác mà họ đã làm việc. Một trong số đó là macro bảng tính bản trình bày và người kia chỉ cần trò chuyện và đánh giá các câu trả lời theo bất kỳ tiêu chí nào cô ấy muốn. Cô thường hỏi chatbot những câu hỏi cũng xuất hiện khi trò chuyện với cô con gái 7 tuổi của mình, chẳng hạn như "Con khủng long nào lớn nhất?" và "Hãy viết một câu chuyện về một con hổ".
Taskup.ai, DataAnnotation.tech và Gethybri.io dường như đều thuộc về cùng một công ty: Surge AI. Giám đốc điều hành của nó, Edwin Chen, sẽ không xác nhận cũng không phủ nhận mối liên hệ này, nhưng ông sẵn sàng nói về công ty của mình và cách ông thấy các chú thích đang phát triển.
Edwin, người đã thành lập Surge AI vào năm 2020 sau khi làm việc trong lĩnh vực nghiên cứu AI tại Google, Facebook và Twitter, cho biết: “Tôi luôn cảm thấy rằng lĩnh vực ghi nhãn rất đơn giản. Edwin nói: "Chúng tôi hy vọng rằng trí tuệ nhân tạo có thể kể chuyện cười, viết bài tiếp thị hay hoặc giúp tôi khi tôi cần trị liệu. Nhưng không phải ai cũng có thể kể chuyện cười hoặc giải các bài toán lập trình Python. Tư duy kỹ năng thấp, chất lượng thấp này sẽ biến thành một thứ gì đó phong phú hơn và nắm bắt được các kỹ năng, sự sáng tạo và giá trị của con người mà chúng tôi muốn các hệ thống AI có được."
07 Hệ thống học máy quá kỳ lạ để có thể hoàn toàn tin cậy
Năm ngoái, Surge AI đã dán nhãn lại một bộ dữ liệu phân loại các bài đăng trên Reddit của Google theo cảm xúc. Google đã loại bỏ ngữ cảnh của mỗi bài đăng và gửi nó cho các nhà chú thích ở Ấn Độ để chú thích. Các nhân viên của Surge AI quen thuộc với văn hóa Internet của Mỹ nhận thấy rằng 30% chú thích là sai. Các bài đăng như "Chết tiệt, anh trai tôi" được phân loại là "Ghét", trong khi "McDonald tuyệt vời, yêu thích của tôi" được phân loại là "Yêu".
Edwin cho biết Surge AI kiểm tra trình độ của người chú thích, chẳng hạn như liệu những người thực hiện nhiệm vụ viết sáng tạo có kinh nghiệm viết sáng tạo hay không, nhưng chính xác cách nó tìm thấy nhân viên là một "bí mật". Đối với Remotasks, người lao động thường phải hoàn thành một khóa đào tạo, mặc dù không giống như Remotasks, họ có thể được trả tiền khi nhận nhiệm vụ trong quá trình đào tạo. Có ít nhân viên hơn, được đào tạo tốt hơn và tạo ra dữ liệu chất lượng cao hơn đã cho phép Surge AI trả lương cao hơn so với các công ty cùng ngành, nhưng ông từ chối giải thích thêm, chỉ nói rằng nhân viên được trả lương ở mức "công bằng và hợp đạo đức". Những người chú thích như vậy kiếm được từ 15 đến 30 đô la một giờ, nhưng họ đại diện cho một phần rất nhỏ trong số tất cả những người chú thích, một nhóm hiện có con số 100.000. Ông giải thích rằng bí mật này bắt nguồn từ một yêu cầu của khách hàng.
Khách hàng của Surge AI bao gồm OpenAI, Google, Microsoft, Meta và Anthropic. Surge AI tập trung vào phản hồi và chú thích ngôn ngữ, và sau khi ChatGPT ra mắt, nó đã nhận được vô số yêu cầu, Edwin nói: "Tôi nghĩ mọi người đều biết sức mạnh của RLHF, nhưng tôi đoán mọi người chỉ không hiểu nó trong thâm tâm."
Những mô hình mới này ấn tượng đến mức chúng đã truyền cảm hứng cho một làn sóng dự đoán mới rằng chú thích sắp được tự động hóa. Áp lực tài chính để làm như vậy là cao do các chi phí liên quan. Anthropic, Meta và những người khác gần đây đã đạt được những bước tiến trong việc sử dụng trí tuệ nhân tạo để giảm lượng chú thích của con người cần thiết để hướng dẫn các mô hình và các nhà phát triển khác đã bắt đầu sử dụng GPT-4 để tạo dữ liệu đào tạo.
Tuy nhiên, một bài báo gần đây đã phát hiện ra rằng các mô hình được đào tạo trên GPT-4 có thể đang học cách bắt chước phong cách có thẩm quyền của GPT với độ chính xác thấp hơn. Cho đến nay, khi những cải tiến trong AI khiến một hình thức ghi nhãn trở nên lỗi thời, thì nhu cầu về các hình thức khác, phức tạp hơn lại tăng lên. Cuộc tranh luận trở nên công khai vào đầu năm nay khi Giám đốc điều hành của Scale AI đã tweet rằng ông dự đoán các phòng thí nghiệm AI sẽ sớm chi hàng tỷ đô la cho dữ liệu con người, giống như cách họ tính toán như trên. Giám đốc điều hành OpenAI Sam Altman trả lời rằng khi trí tuệ nhân tạo tiến bộ, nhu cầu về dữ liệu sẽ giảm.
Edwin nghi ngờ rằng AI sẽ đạt đến điểm mà phản hồi của con người không còn cần thiết nữa, nhưng ông nhận thấy việc ghi nhãn ngày càng trở nên khó khăn khi các mô hình được cải thiện. Giống như nhiều nhà nghiên cứu, anh ấy nghĩ rằng con đường phía trước sẽ liên quan đến các hệ thống AI giúp con người giám sát các AI khác. Surge AI gần đây đã hợp tác với Anthropic trên một bằng chứng về khái niệm có người chú thích là con người trả lời các câu hỏi về một đoạn văn bản dài với sự trợ giúp của một trợ lý AI không đáng tin cậy, lý thuyết cho rằng con người phải cảm nhận được điểm yếu của trợ lý AI của họ và lập luận hợp tác để tìm ra câu trả lời đúng.
Một khả năng khác là hai AI tranh luận với nhau, với một con người đưa ra phán quyết cuối cùng. Nhà khoa học nghiên cứu OpenAI John Schulman cho biết trong một cuộc nói chuyện gần đây ở Berkeley: "Chúng tôi chưa thấy tiềm năng thực tế thực sự của công cụ này, nhưng nó bắt đầu trở nên cần thiết vì các nhà chú thích khó có thể theo kịp sự phát triển của mô hình."
Edwin nói: "Tôi nghĩ bạn sẽ luôn cần một con người để theo dõi những gì AI đang làm chỉ vì chúng là người ngoài hành tinh này. Các hệ thống học máy quá kỳ lạ để từng được tin tưởng hoàn toàn. Ấn tượng nhất hiện nay Một số mô hình của chúng tôi có những điểm yếu dường như rất xa lạ với con người. Mặc dù GPT-4 có thể tạo ra văn bản phức tạp và thuyết phục, nhưng nó không thể phân biệt được từ nào là tính từ."
08 ChatGPT giúp ích rất nhiều cho luồng công việc
Khi năm 2022 sắp kết thúc, Joe bắt đầu nghe các sinh viên của mình nói rằng danh sách việc cần làm của họ thường trống. Sau đó, anh ấy nhận được email thông báo rằng trại huấn luyện ở Kenya sắp đóng cửa. Anh ấy tiếp tục các nhiệm vụ đào tạo trực tuyến của mình, nhưng anh ấy bắt đầu lo lắng về tương lai. "
Có những dấu hiệu cho thấy điều này sẽ không xảy ra trong thời gian dài”, Joe nói. Công việc chú thích sắp rời khỏi Kenya. Từ những đồng nghiệp mà anh ấy gặp trên mạng, anh ấy đã nghe nói rằng những nhiệm vụ như vậy đang được gửi đến Nepal, Ấn Độ và Philippines Joe nói: “Các công ty di chuyển từ vùng này sang vùng khác. Họ không có cơ sở hạ tầng tại địa phương, vì vậy họ có thể linh hoạt di chuyển đến nơi có chi phí vận hành có lợi hơn cho họ. "
Một điểm khác biệt của ngành công nghiệp AI so với điện thoại di động và các nhà sản xuất ô tô là tính lưu động của nó. Công việc này liên tục thay đổi, được tự động hóa và thay thế bởi những nhu cầu mới về các loại dữ liệu mới. Đó là một quy trình, nhưng nó có thể được cấu hình lại liên tục và nhanh chóng, di chuyển đến bất cứ nơi nào có sẵn các kỹ năng, băng thông và bảng lương phù hợp.
Gần đây, các công việc được trả lương cao nhất cho các nhiệm vụ chú thích đã quay trở lại Hoa Kỳ. Vào tháng 5, Scale AI bắt đầu liệt kê các công việc chú thích trên trang web của mình, tìm kiếm những người có kinh nghiệm trong hầu hết mọi lĩnh vực mà AI dự kiến sẽ chinh phục. Một số danh sách huấn luyện viên AI này có huấn luyện thể dục, nhân sự, tài chính, kinh tế, khoa học dữ liệu, lập trình, khoa học máy tính, hóa học, sinh học, kế toán, thuế, dinh dưỡng, vật lý, du lịch, giáo dục K-12, báo chí thể thao và bản thân -giúp đỡ chuyên môn.
Bạn có thể dạy luật cho robot và kiếm được 45 đô la một giờ; dạy chúng làm thơ và kiếm được 25 đô la một giờ. Trang web cũng liệt kê việc tuyển dụng những người có kinh nghiệm bảo mật, có lẽ là để giúp đào tạo AI quân sự. Scale AI gần đây đã tiết lộ một mô hình ngôn ngữ quốc phòng có tên Donovan, mà các giám đốc điều hành của công ty gọi là “đạn dược trong chiến tranh AI” và đã giành được hợp đồng làm việc trong chương trình phương tiện chiến đấu rô-bốt của Quân đội.
Ana vẫn đang đào tạo chatbot ở Texas. Các đồng nghiệp trở thành người bình luận và người điều hành Slack, và cô ấy không biết tại sao, nhưng nó cho cô ấy hy vọng rằng công việc này có thể là một sự nghiệp lâu dài. Một điều cô ấy không lo lắng là công việc bị thay thế bởi tự động hóa, cô ấy nói: "Ý tôi là, chatbot có thể làm rất nhiều điều tuyệt vời, nhưng chúng cũng có thể làm một số điều thực sự kỳ lạ."
Khi Remotasks lần đầu tiên đến Kenya, Joe nghĩ rằng chú thích có thể là một nghề nghiệp tốt. Anh ấy quyết tâm tiếp tục công việc ngay cả khi nó đã chuyển đi nơi khác. Anh ấy lý luận rằng có hàng nghìn người ở Nairobi biết cách thực hiện công việc. Rốt cuộc, anh ấy đã đào tạo rất nhiều người. Joe thuê một văn phòng trong thành phố và bắt đầu tìm kiếm các hợp đồng gia công phần mềm: công việc chú thích bản thiết kế cho một công ty xây dựng, công việc khác chú thích trái cây bị côn trùng phá hoại cho một số loại dự án nông nghiệp và công việc khác cho ô tô tự lái. thói quen dán nhãn.
Nhưng Joe thấy rằng tầm nhìn của anh ấy rất khó đạt được. Bây giờ anh ấy chỉ có một nhân viên chính thức, giảm so với trước đây là hai người. Anh ấy nói: "Chúng tôi không có công việc ổn định. Không có gì để làm trong nhiều tuần vì khách hàng vẫn đang thu thập dữ liệu. Khi khách hàng hoàn thành việc thu thập dữ liệu, anh ta phải mời các nhà thầu ngắn hạn đến để đáp ứng thời hạn của họ: "Khách hàng không quan tâm liệu chúng tôi có đang làm việc hay không. Miễn là việc dán nhãn tập dữ liệu được thực hiện là được."
Để không lãng phí kỹ năng của mình, những người thực hiện nhiệm vụ khác quyết định nhiệm vụ đi đến đâu và họ làm đến đó. Họ thuê máy chủ proxy để che giấu vị trí của mình và mua ID giả để vượt qua bảo mật để có thể giả vờ làm việc ở Singapore, Hà Lan, Mississippi hoặc bất cứ nơi nào có nhiệm vụ. Đây là một doanh nghiệp rủi ro. Theo nhiều tác nhân của nhiệm vụ, Scale AI ngày càng trở nên tích cực trong việc đình chỉ các tài khoản bị phát hiện đang che giấu vị trí của họ. "
Những ngày này, chúng tôi đã trở nên thông minh hơn một chút vì chúng tôi nhận thấy rằng ở các quốc gia khác, họ đang trả lương cao,” Victor nói. Anh ấy kiếm được gấp đôi khi làm việc ở Malaysia so với Kenya, nhưng “bạn phải cẩn thận".
Một bình luận viên người Kenya khác cho biết anh quyết định không chơi theo luật sau khi tài khoản của anh bị khóa vì những lý do bí ẩn. Giờ đây, anh ta điều hành nhiều tài khoản ở nhiều quốc gia, thực hiện các nhiệm vụ ở nơi có doanh thu cao nhất. Nhờ ChatGPT, anh ấy nói rằng anh ấy làm việc nhanh và có điểm chất lượng cao. Anh ấy nói, bot này rất tuyệt và cho phép anh ấy nhanh chóng hoàn thành các nhiệm vụ trị giá 10 đô la trong vài phút.
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
Làm sáng tỏ "công nhân nhập cư AI" đằng sau ChatGPT: nhàm chán và lặp đi lặp lại, trả theo công việc, lương theo giờ thấp tới 1 đô la
**Nguồn:**Công nghệ Tencent
Tóm tắt: Data annotators phân loại và gắn nhãn dữ liệu, cho phép trí tuệ nhân tạo học hỏi bằng cách tìm các mẫu trong lượng lớn dữ liệu và được coi là "lao động ma" ẩn sau cỗ máy. Công việc chú thích là nền tảng của trí tuệ nhân tạo, nó đã hình thành nên cả một chuỗi cung ứng và loại công việc này sẽ tiếp tục tồn tại trong một thời gian dài.
Tập trung
Trí tuệ nhân tạo học bằng cách tìm kiếm các mẫu trong một lượng lớn dữ liệu, nhưng trước tiên những dữ liệu này phải được con người phân loại và dán nhãn, và các công cụ chú thích dữ liệu ra đời, được ví như những “thợ ma” ẩn mình sau máy móc.
Công việc của người chú thích nhàm chán và tẻ nhạt, họ thường phải làm công việc lặp đi lặp lại và được trả lương theo từng công việc, mức lương trung bình mỗi giờ là từ 5 đến 10 đô la Mỹ (khoảng 36 đến 72 nhân dân tệ). Đến đầu năm nay, lương theo giờ của một số nhà bình luận đã giảm xuống còn 1 đô la đến 3 đô la một giờ (khoảng 7 đến 22 nhân dân tệ).
Công việc chú thích vẫn là nền tảng của trí tuệ nhân tạo và nó đã hình thành một chuỗi cung ứng hoàn chỉnh. Những loại công việc này sẽ tồn tại trong một thời gian dài sắp tới.
Công việc chú thích khác với điện thoại thông minh và sản xuất ô tô ở chỗ nó dễ bị biến dạng và lỏng, và thường chảy đến những nơi có chi phí vận hành thấp hơn.
Sau đó, vào năm 2019, một cơ hội xuất hiện trước mắt anh ấy và Joe bắt đầu đào tạo những tân binh cho một công ty mới đang rất cần những người chú thích, kiếm được gấp bốn lần. Hai tuần một lần, 50 nhân viên mới xếp hàng để vào một tòa nhà văn phòng ở Nairobi để bắt đầu học việc. Nhu cầu về người chú thích dường như là vô tận. Họ sẽ được yêu cầu phân loại quần áo mà họ nhìn thấy trong ảnh tự chụp trước gương, xác định căn phòng họ đang ở qua con mắt của máy hút bụi robot và vẽ các hộp xung quanh một chiếc xe máy được quét bởi lidar. Hơn một nửa số sinh viên của Joe thường bỏ học trước khi khóa đào tạo kết thúc. “Một số người không biết làm thế nào để ở yên một chỗ trong một thời gian dài,” anh nhẹ nhàng giải thích. Thêm vào đó, anh ấy thừa nhận, "công việc thật nhàm chán."
Nhưng đó là một công việc tốt ở một nơi khan hiếm việc làm và Joe đã tạo ra hàng trăm sinh viên tốt nghiệp. Sau khóa đào tạo, người học việc có thể trở về nhà và làm việc một mình trong phòng ngủ và nhà bếp của mình mà không cần nói cho ai biết họ đang làm gì. Đó không phải là vấn đề thực sự bởi vì họ thậm chí không hiểu những gì họ đang làm.
Việc gắn nhãn các đối tượng cho ô tô tự lái rất dễ dàng, nhưng việc phân loại các đoạn hội thoại bị bóp méo và xác định xem người nói là rô-bốt hay con người là một thách thức. Mỗi đối tượng nhận dạng là một phần nhỏ của một dự án lớn hơn, vì vậy thật khó để nói chính xác họ đang đào tạo AI để làm gì. Tên của những đối tượng này cũng không cung cấp bất kỳ manh mối nào, Tạo cua, Phân đoạn cá voi, Con quay hồi chuyển trong rừng và Hộp đựng thuốc Bratwurst đều là mã công việc không có bất kỳ thứ tự logic nào.
Đối với công ty đã thuê họ, hầu hết mọi người chỉ biết đến nó với cái tên Remotasks, một trang web cung cấp cơ hội việc làm cho bất kỳ ai nói thông thạo tiếng Anh. Giống như hầu hết các chú thích, Joe không biết rằng Remotasks là một công ty lao động hợp đồng thuộc sở hữu của Scale AI. Scale AI là nhà cung cấp dữ liệu trị giá hàng tỷ đô la ở Thung lũng Silicon có khách hàng bao gồm công ty khởi nghiệp trí tuệ nhân tạo OpenAI và quân đội Hoa Kỳ. Cả Remotasks và Scale AI đều không đề cập đến nhau trên trang web của họ.
01 Trợ giúp máy móc với khả năng độc đáo của con người
Phần lớn phản ứng của công chúng đối với các mô hình ngôn ngữ lớn như ChatGPT của OpenAI tập trung vào công việc mà chúng dường như sẵn sàng tự động hóa. Nhưng ngay cả hệ thống AI ấn tượng nhất cũng cần sự trợ giúp của con người, những người đào tạo nó bằng cách dán nhãn dữ liệu và can thiệp khi nó bị lẫn lộn. Chỉ những công ty có đủ khả năng mua dữ liệu mới có thể cạnh tranh trong ngành và những công ty có được dữ liệu sẽ cố gắng hết sức để giữ bí mật. Kết quả là, ngoại trừ một số người, chúng ta biết rất ít về thông tin ảnh hưởng đến hành vi của các hệ thống này, và thậm chí còn ít hơn về những người đứng đằng sau hành vi định hình chúng.
Đối với các sinh viên của Joe, đó là một công việc bị tước bỏ mọi vẻ bình thường: Họ phải tuân theo một lịch trình nghiêm ngặt và không cần biết họ đang làm gì hay đang làm việc cho ai. Trên thực tế, họ hiếm khi tự gọi mình là công việc, chỉ là những “nhiệm vụ” thường ngày. Họ tự gọi mình là nhân viên nhiệm vụ.
Nhà nhân chủng học David Graeber đã định nghĩa cái gọi là “công việc vớ vẩn”—những công việc không có ý nghĩa hay mục đích. Đây là những công việc nên được tự động hóa, nhưng không phải vì lý do quan liêu, tình trạng hoặc quán tính. Công việc đào tạo trí tuệ nhân tạo cũng tương tự như vậy: những công việc mà con người muốn tự động hóa, nói chung được coi là tự động hóa, nhưng vẫn cần con người tham gia. Những nhiệm vụ này có mục đích đặc biệt, nhưng người chú thích không nhận thức được điều đó.
Sự bùng nổ AI hiện tại bắt đầu với công việc lặp đi lặp lại khá tẻ nhạt này. Ngay từ năm 2007, Fei-Fei Li, một nhà nghiên cứu trí tuệ nhân tạo, sau đó là giáo sư tại Đại học Princeton, đã nghi ngờ rằng chìa khóa để cải thiện mạng lưới thần kinh để nhận dạng hình ảnh là đào tạo trên nhiều dữ liệu hơn, yêu cầu hàng triệu hình ảnh được dán nhãn thay vì hàng chục nghìn. Vấn đề là, nhóm của cô ấy đã phải mất hàng thập kỷ và hàng triệu đô la để gắn thẻ cho nhiều bức ảnh đó.
Fei-Fei Li đã tìm thấy hàng nghìn công nhân trên nền tảng cung cấp dịch vụ cộng đồng của Amazon, Mechanical Turk, nơi mọi người trên khắp thế giới hoàn thành các nhiệm vụ nhỏ với giá rẻ. Tập dữ liệu được gắn nhãn kết quả, được gọi là ImageNet, đã tạo ra một bước đột phá lớn trong lĩnh vực máy học, tiếp thêm sinh lực cho lĩnh vực này và mở ra tiến trình của thập kỷ trước.
Chú thích vẫn là một phần thiết yếu trong việc phát triển AI, nhưng các kỹ sư thường cảm thấy đó là một điều kiện tiên quyết phù du và cồng kềnh cho công việc mô hình hóa hấp dẫn hơn. Bạn có thể thu thập càng nhiều dữ liệu được gắn nhãn càng rẻ càng tốt để đào tạo mô hình của riêng mình và nếu bạn có thể làm được điều đó, ít nhất là về mặt lý thuyết, bạn sẽ không cần người chú thích nữa. Tuy nhiên, công việc chú thích không bao giờ thực sự được thực hiện. Các nhà nghiên cứu lập luận rằng các hệ thống học máy rất "dễ vỡ" và dễ bị lỗi khi gặp phải những điều trong dữ liệu đào tạo không được giải thích rõ ràng. Những lỗi này được gọi là "trường hợp cạnh" và có thể gây hậu quả nghiêm trọng.
Năm 2018, một chiếc xe thử nghiệm tự lái của hãng gọi xe Uber đã giết chết một phụ nữ vì mặc dù được lập trình để tránh người đi xe đạp và người đi bộ nhưng nó không biết phải làm gì với người đi xe đạp băng qua đường có người. Khi càng nhiều hệ thống AI cung cấp tư vấn pháp lý và hỗ trợ y tế, chúng càng gặp phải nhiều trường hợp khó khăn hơn, đòi hỏi nhiều con người hơn để giải quyết chúng. Điều này đã tạo ra một ngành công nghiệp toàn cầu gồm những người như Joe, những người sử dụng khả năng đặc biệt của con người để trợ giúp máy móc.
Trong sáu tháng qua, phóng viên điều tra công nghệ Josh Dzieza đã nói chuyện với hơn hai chục nhà bình luận từ khắp nơi trên thế giới, nhiều người trong số họ đang đào tạo các chatbot tiên tiến, nhưng cũng có nhiều người đang làm công việc chân tay trần tục cần thiết để duy trì hoạt động của AI . Một số đã lập danh mục nội dung cảm xúc của video TikTok, các biến thể mới của thư rác và quảng cáo trực tuyến không phù hợp. Những người khác đang xem xét các giao dịch thẻ tín dụng và tìm ra các loại giao dịch mua liên quan đến chúng hoặc xem các đề xuất thương mại điện tử và quyết định xem bạn có thực sự thích chiếc áo đó sau khi mua một chiếc khác hay không.
Con người đang sửa lỗi của chatbot dịch vụ khách hàng, lắng nghe yêu cầu từ trợ lý thông minh Alexa của Amazon và phân loại cảm xúc của mọi người trong các cuộc gọi video. Họ dán nhãn thực phẩm để tủ lạnh thông minh không bị nhầm lẫn bởi bao bì mới, kiểm tra camera an ninh tự động trước khi phát âm thanh báo động và giúp máy kéo tự động bị nhầm lẫn xác định ngô.
02 Bình luận làm ăn lớn, đẻ ra "tỷ phú tự thân trẻ nhất"
Sonam Jindal, giám đốc chương trình và nghiên cứu của tổ chức phi lợi nhuận Partnership on AI cho biết: "Đó là một chuỗi cung ứng hoàn chỉnh. Nhận thức chung trong ngành là công việc này không phải là một phần quan trọng của sự phát triển công nghệ, nó không phải là một phần quan trọng của sự phát triển của công nghệ." Sẽ thịnh vượng trong một thời gian dài. Tất cả sự phấn khích lan tỏa xung quanh việc xây dựng AI và một khi chúng tôi xây dựng nó, các chú thích không còn cần thiết nữa, vậy tại sao phải nghĩ về nó? Nhưng ghi nhãn dữ liệu là nền tảng của AI, giống như con người Cũng giống như trí thông minh là nền tảng của AI, chúng ta cần coi đây là những công việc thực sự trong nền kinh tế AI sẽ tồn tại trong một thời gian dài sắp tới."
Các nhà cung cấp dữ liệu đằng sau những cái tên quen thuộc như OpenAI, Google và Microsoft có những vỏ bọc khác nhau. Ngoài ra còn có các công ty gia công phần mềm tư nhân có văn phòng giống như trung tâm cuộc gọi, như CloudFactory ở Kenya và Nepal, nơi Joe thực hiện công việc chú thích với mức lương 1,2 đô la một giờ trước khi chuyển sang Remotasks.
Ngoài ra còn có các trang web "nhân viên cộng đồng" như Mechanical Turk và Clickworker, nơi mọi người có thể đăng ký để hoàn thành nhiệm vụ. Ở giữa là các dịch vụ như Scale AI. Bất cứ ai cũng có thể đăng ký, nhưng tất cả mọi người phải vượt qua kỳ thi đủ điều kiện, một khóa đào tạo và được theo dõi để thực hiện. Chú thích là kinh doanh lớn. Scale AI, được thành lập vào năm 2016 bởi Alexander Wang, khi đó mới 19 tuổi, được định giá 7,3 tỷ USD vào năm 2021, giúp anh trở thành một trong những tỷ phú tự thân trẻ nhất của Forbes.
Vì điều này, không có cách nào để đưa ra ước tính chi tiết về số lượng người làm việc trong lĩnh vực chú thích, nhưng điều chắc chắn là có rất nhiều và đang tăng lên nhanh chóng. Nghiên cứu của Google gần đây đã xuất bản một bài báo đưa ra ước tính mơ hồ về số lượng người chú thích ở mức "hàng triệu" và có thể là "hàng tỷ" trong tương lai.
Tự động hóa thường đến theo những cách không ngờ tới. Erik Duhaime, Giám đốc điều hành của Centaur Labs, một công ty chú thích dữ liệu y tế, nhớ lại rằng vài năm trước, một số kỹ sư máy học nổi tiếng đã dự đoán rằng trí tuệ nhân tạo sẽ thay thế các bác sĩ X quang. Khi điều đó không xảy ra, sự khôn ngoan thông thường chuyển sang các bác sĩ X quang sử dụng AI như một công cụ.
Theo Duheim, cả hai điều đó đều không xảy ra. Trí tuệ nhân tạo rất giỏi trong các nhiệm vụ cụ thể, điều này khiến công việc được chia nhỏ và giao cho các hệ thống thuật toán chuyên biệt và con người cũng chuyên biệt như nhau. Ông nói, ví dụ, một hệ thống AI có thể phát hiện ung thư, nhưng chỉ trong một số loại máy, trong một số loại hình ảnh. Vì vậy, bạn cần ai đó giúp kiểm tra xem AI có đang được cung cấp đúng loại dữ liệu hay không và có thể là người khác kiểm tra xem nó có hoạt động hay không trước khi giao cho một AI khác viết báo cáo và cuối cùng là cho con người. “AI sẽ không thay thế công việc của con người, nhưng nó thay đổi cách thức tổ chức công việc,” Duheim nói.
Nếu bạn nghĩ trí tuệ nhân tạo là một cỗ máy thông minh, biết suy nghĩ, thì có thể bạn đang phớt lờ con người đằng sau nó. Du Haimei tin rằng tác động của trí tuệ nhân tạo đối với công việc hiện đại giống như quá trình chuyển đổi từ thợ thủ công sang sản xuất công nghiệp: các quy trình mạch lạc được chia thành các nhiệm vụ nhỏ, sắp xếp dọc theo dây chuyền lắp ráp, một số bước được hoàn thành bởi máy móc, một số do con người thực hiện, nhưng nó là khác với những cái trước Tình hình là khá khác nhau.
Những lo ngại về sự gián đoạn của AI thường được phản bác bằng cách nói rằng AI tự động hóa một số nhiệm vụ chứ không phải toàn bộ công việc. Những nhiệm vụ này thường tẻ nhạt và buồn tẻ, khiến mọi người theo đuổi những công việc mang tính nhân văn, thỏa mãn hơn. Nhưng cũng có khả năng là sự trỗi dậy của trí tuệ nhân tạo cũng sẽ giống như các công nghệ tiết kiệm sức lao động trong quá khứ, có lẽ giống như điện thoại hoặc máy đánh chữ, giúp loại bỏ sự cực nhọc của việc gửi tin nhắn và chữ viết tay, nhưng tạo ra nhiều thông tin hơn về giao tiếp, thương mại và nhiều đến mức cần phải có một văn phòng mới với những loại công nhân mới, thư ký, kế toán, đánh máy, v.v., để quản lý họ. Bạn có thể không mất việc khi AI tham gia vào công việc của bạn, nhưng nó có thể trở nên xa lạ, cô lập hơn và tẻ nhạt hơn.
03 Đơn giản hóa thực tế phức tạp thành thứ mà máy có thể đọc được
Đầu năm nay, nhà báo Ziyeza đã đăng ký làm việc với Remotasks. Quá trình này rất đơn giản. Bạn chỉ cần nhập thông số kỹ thuật máy tính, tốc độ mạng và thông tin liên lạc cơ bản để vào "Trung tâm đào tạo". Để nhận được các nhiệm vụ được trả tiền, trước tiên Ziyeza phải hoàn thành các khóa học giới thiệu có liên quan nhưng không được trả tiền. Trung tâm đào tạo trưng bày hàng loạt lớp học với những cái tên khó hiểu như Glue Swimsuits và Poster Hawaii. Zieza đã nhấp vào một thứ gọi là GFD Chunking, yêu cầu quần áo được gắn thẻ trong các bức ảnh trên mạng xã hội.
Ngoài ra, còn có các hướng dẫn cho các nhiệm vụ như phải dán nhãn các mặt hàng là có thật, con người có thể đeo được hoặc người thật dự định đeo. Tự tin vào khả năng phân biệt quần áo thật mà người thật có thể mặc với quần áo giả mà người thật không thể mặc, Ziyeza bắt đầu thử nghiệm. Tuy nhiên, anh ta ngay lập tức bị đánh vào đầu: máy tính đưa ra một bức ảnh tạp chí về một người phụ nữ mặc váy. Hình ảnh quần áo có nên được coi là quần áo thật không? Không, Ziyeza nghĩ, bởi vì mọi người không thể mặc những bức ảnh về quần áo. Kết quả cho thấy một lỗi! Bởi vì trong con mắt của trí tuệ nhân tạo, ảnh chụp quần áo thật cũng tương đương với quần áo thật.
Hình ảnh sau đây là hình ảnh một người phụ nữ đang chụp ảnh tự sướng trước gương soi toàn thân trong phòng ngủ thiếu ánh sáng. Chiếc áo sơ mi và quần đùi cô ấy đang mặc là quần áo thật, và hình ảnh phản chiếu của quần áo có phải là thật không? Ziyeza cũng đưa ra câu trả lời phủ định, nhưng hệ thống trí tuệ nhân tạo tin rằng hình ảnh phản chiếu của quần áo thật cũng phải là quần áo thật.
Milagros Miceli, một nhà nghiên cứu làm việc về dữ liệu tại Viện Weizenbaum ở Đức, cho biết có sự nhầm lẫn lan rộng trong toàn ngành. Một phần, đây là sản phẩm của cách học của các hệ thống máy học. Con người chỉ cần một vài ví dụ để hiểu khái niệm về "áo sơ mi", trong khi các chương trình học máy cần hàng nghìn ví dụ và chúng cần phải làm như vậy với tính nhất quán hoàn hảo và đủ loại (áo sơ mi polo, áo sơ mi mặc ngoài trời, áo sơ mi treo trên rack) để hệ thống có thể xử lý đa dạng trong thế giới thực. “Hãy tưởng tượng chúng ta cần giảm thực tế phức tạp thành thứ mà những cỗ máy vụng về có thể đọc được,” Miselli nói.
Đối với máy móc, hành động đơn giản hóa thực tế dẫn đến sự phức tạp to lớn. Người viết hướng dẫn phải đưa ra các quy tắc cho phép con người phân loại thế giới với sự nhất quán hoàn hảo. Để làm được điều này, họ thường tạo ra các danh mục mà con người sẽ không sử dụng. Nếu một người được yêu cầu dán nhãn tất cả áo sơ mi trong ảnh, họ có thể không dán nhãn áo sơ mi trong gương vì họ biết chúng là hình ảnh phản chiếu chứ không phải quần áo thực. Nhưng với một AI không hiểu thế giới thực, nó chỉ là các pixel, cả hai hoàn toàn giống nhau. Nếu một số áo sơ mi trong tập dữ liệu được dán nhãn và những áo sơ mi phản chiếu khác thì không, thì mô hình sẽ không hoạt động. Vì vậy, kỹ sư đã quay lại nhà cung cấp với thông tin cập nhật và yêu cầu dán nhãn cho chiếc áo được phản chiếu trong gương. Chẳng bao lâu nữa, bạn sẽ có một hướng dẫn khác dài 43 trang, tất cả đều bằng chữ in hoa màu đỏ.
Công việc của một người chú thích thường là gạt bỏ sự hiểu biết của con người sang một bên và làm theo hướng dẫn một cách rất, rất nghiêm ngặt. Như một nhà bình luận đã nói, hãy suy nghĩ như một người máy. Đó là một không gian tinh thần kỳ lạ, nơi bạn cố gắng hết sức để tuân theo những quy tắc vô lý nhưng nghiêm ngặt, chẳng hạn như làm bài kiểm tra tiêu chuẩn trong khi dùng chất gây ảo giác. Các chú thích luôn có những câu hỏi khó hiểu như, đây là áo đỏ sọc trắng hay áo trắng sọc đỏ? Nếu một cái bát đan bằng liễu gai chứa đầy táo, thì nó có phải là "bát trang trí" không? Da báo có màu gì? Mọi câu hỏi đều phải được trả lời và một lần đoán sai có thể khiến bạn bị cấm và bắt đầu một nhiệm vụ hoàn toàn mới, hoàn toàn khác với các quy tắc khó hiểu của riêng nó.
04 Trả tiền theo mảnh, kiểm tra nhiệm vụ ba giờ một lần
Hầu hết các công việc trên Remotasks được trả theo từng phần, với thu nhập từ vài xu đến vài đô la cho một nhiệm vụ. Bởi vì các nhiệm vụ có thể mất vài giây hoặc vài giờ để hoàn thành, nên tiền lương rất khó dự đoán. Khi Remotasks lần đầu tiên đến Kenya, các nhà bình luận cho biết nó được trả lương tương đối cao. Điều đó trung bình vào khoảng $5 đến $10 một giờ, tùy thuộc vào nhiệm vụ. Nhưng theo thời gian, tiền lương giảm xuống.
Khiếu nại phổ biến nhất về công việc teletasking là tính hay thay đổi của nó. Loại công việc này đủ ổn định để trở thành một công việc toàn thời gian dài hạn, nhưng có quá nhiều điều không thể đoán trước để hoàn toàn dựa vào nó. Người chú thích dành hàng giờ để đọc hướng dẫn và hoàn thành khóa đào tạo chuyên nghiệp chỉ để hoàn thành hàng chục nhiệm vụ trước khi dự án kết thúc. Có thể không có nhiệm vụ mới nào trong vài ngày, và sau đó, bất ngờ, một nhiệm vụ hoàn toàn khác xuất hiện, có thể trong vài giờ đến vài tuần. Bất kỳ nhiệm vụ nào cũng có thể là nhiệm vụ cuối cùng của họ và họ không bao giờ biết khi nào nhiệm vụ tiếp theo sẽ đến.
Các kỹ sư và nhà cung cấp dữ liệu cho biết chu kỳ bùng nổ này bắt nguồn từ tốc độ phát triển của AI. Đào tạo một mô hình lớn yêu cầu nhiều chú thích, sau đó là các bản cập nhật lặp đi lặp lại nhiều hơn và các kỹ sư muốn tất cả những điều này diễn ra nhanh nhất có thể để họ có thể đáp ứng ngày phát hành mục tiêu của mình. Họ có thể cần hàng nghìn người chú thích trong vài tháng, sau đó giảm xuống còn vài trăm và cuối cùng chỉ còn hơn chục chuyên gia thuộc một loại cụ thể. Quá trình này đôi khi được lặp lại theo chu kỳ. “Câu hỏi đặt ra là ai chịu chi phí cho những biến động này?” Quan hệ đối tác về AI của Jindal cho biết.
Để thành công, các chú thích phải làm việc cùng nhau. Victor bắt đầu làm việc cho Remotasks khi anh ấy còn là sinh viên đại học ở Nairobi, và khi được thông báo rằng anh ấy đang gặp rắc rối với nhiệm vụ điều khiển giao thông, anh ấy nói rằng mọi người đều biết nên tránh xa nhiệm vụ đó: quá phức tạp, được trả lương thấp, không xứng đáng. Giống như nhiều nhà bình luận, Victor sử dụng một nhóm WhatsApp không chính thức để truyền bá thông tin khi có bài tập tốt. Khi nảy ra một ý tưởng mới, anh ấy sẽ bắt đầu một cuộc họp ngẫu hứng trên Google để chỉ cho những người khác cách thực hiện. Bất cứ ai cũng có thể tham gia và làm việc cùng nhau trong một thời gian, chia sẻ các mẹo. "Chúng tôi đã phát triển văn hóa giúp đỡ lẫn nhau vì chúng tôi biết rằng một người không thể biết tất cả các mánh khóe", anh nói.
Người chú thích luôn cần phải tự giác khi công việc xuất hiện và biến mất không báo trước. Victor thấy rằng các món đồ thường xuất hiện vào lúc nửa đêm, vì vậy anh ấy có thói quen thức dậy cứ sau ba giờ hoặc lâu hơn để kiểm tra chúng. Khi có nhiệm vụ, anh ấy sẽ luôn tỉnh táo. Tại một thời điểm, anh ấy đã thức 36 giờ không ngủ, đánh dấu khuỷu tay, đầu gối và đầu trong các bức ảnh đám đông, mặc dù anh ấy không biết tại sao. Một lần khác, anh ấy thức rất lâu đến nỗi mắt sưng đỏ.
Những người chú thích thường chỉ biết họ đang đào tạo hệ thống AI cho các công ty ở nơi khác, nhưng đôi khi bức màn ẩn danh biến mất và có quá nhiều dấu hiệu cho các thương hiệu hoặc chatbot được đề cập trong hướng dẫn. "Tôi đọc hướng dẫn, tìm kiếm trên Google và phát hiện ra mình đang làm việc cho một tỷ phú 25 tuổi. Nếu tôi biến ai đó thành tỷ phú và tôi kiếm được vài đô la, thì tôi đang lãng phí cuộc đời mình theo đúng nghĩa đen."
Tự nhận mình là một người “cuồng nhiệt tin tưởng” vào trí tuệ nhân tạo, Victor bắt đầu công việc chú thích vì anh muốn giúp mang lại một tương lai hoàn toàn tự động. Nhưng đầu năm nay, một người nào đó đã đăng một câu chuyện trên tạp chí Time trong nhóm WhatsApp của anh ấy về việc nhân viên tại nhà cung cấp Sama AI được trả chưa đến 2 đô la một giờ để đào tạo ChatGPT xác định nội dung độc hại. Victor, người không biết về mối quan hệ giữa Remotasks và Scale AI cho biết: “Mọi người tỏ ra phẫn nộ vì những công ty này quá lãi mà trả quá ít. Hướng dẫn cho một trong những nhiệm vụ mà anh ấy thực hiện gần giống với hướng dẫn được sử dụng bởi OpenAI, điều đó có nghĩa là anh ấy có thể cũng đang đào tạo về ChatGPT, với mức lương khoảng 3 đô la một giờ. "
Tôi nhớ ai đó đã đăng rằng chúng tôi sẽ được nhớ đến trong tương lai", anh nói. Không ai trả lời: "Chúng tôi bị đối xử tệ hơn cả bộ binh. Chúng ta sẽ không được nhớ đến ở bất cứ đâu trong tương lai, tôi nhớ rõ điều đó. Sẽ không ai nhận ra công việc chúng ta làm và nỗ lực chúng ta bỏ ra. "
Xác định quần áo và ghi nhãn các cuộc hội thoại dịch vụ khách hàng chỉ là một số công việc chú thích. Gần đây, thứ hot nhất trên thị trường là những người huấn luyện chatbot. Bởi vì nó yêu cầu chuyên môn cụ thể theo lĩnh vực hoặc thông thạo ngôn ngữ và mức lương có xu hướng được điều chỉnh theo khu vực, công việc có xu hướng trả nhiều tiền hơn. Một số loại chú thích chuyên nghiệp có thể kiếm được tới 50 đô la trở lên mỗi giờ.
Khi một phụ nữ tên Anna đang tìm việc ở Texas, cô ấy đã xem một danh sách việc làm trực tuyến chung chung và nộp đơn. Sau khi vượt qua bài kiểm tra đầu vào, cô được đưa vào một phòng Slack gồm 1.500 người để đào tạo về một dự án có tên mã là Dolphin, mà sau đó cô phát hiện ra đó là chatbot Sparrow của Google DeepMind, một trong nhiều chatbot cạnh tranh với ChatGPT. Công việc của Anna là trò chuyện với Sparrow cả ngày, lương theo giờ khoảng 14 đô la, cộng với tiền thưởng khi hiệu quả công việc cao, "điều này chắc chắn tốt hơn so với làm việc trong siêu thị địa phương để kiếm 10 đô la một giờ."
05 AI đáp ứng ba tiêu chí: chính xác, hữu ích và vô hại
Và, Ana yêu thích công việc này. Cô ấy đã thảo luận về khoa học viễn tưởng, nghịch lý toán học, câu đố dành cho trẻ em và các chương trình truyền hình với Sparrow. Đôi khi, những câu trả lời của chatbot khiến cô bật cười thành tiếng. Đôi khi, cô cũng cảm thấy không nói nên lời. Anna nói: "Đôi khi, tôi thực sự không biết phải hỏi gì, vì vậy tôi có một cuốn sổ nhỏ đã viết sẵn hai trang. Tôi Google những chủ đề thú vị, vì vậy tôi nghĩ mình có thể làm tốt công việc. Đối phó với bảy giờ, mà không phải luôn luôn như vậy."
Mỗi khi Anna nhắc Sparrow, nó sẽ đưa ra hai phản hồi và cô ấy chọn câu trả lời tốt nhất, tạo ra cái gọi là "dữ liệu phản hồi của con người". Khi ChatGPT ra mắt vào cuối năm ngoái, phong cách đàm thoại tự nhiên ấn tượng của nó được cho là do nó đã được đào tạo trên một lượng lớn dữ liệu Internet. Nhưng ngôn ngữ hỗ trợ ChatGPT và các đối thủ cạnh tranh của nó được lọc qua một số vòng chú thích của con người.
Một nhóm các nhà thầu đã viết các ví dụ về cách các kỹ sư muốn chatbot hoạt động, đặt câu hỏi và sau đó đưa ra câu trả lời chính xác, mô tả các chương trình máy tính và sau đó đưa ra mã chức năng, hỏi các mẹo tội phạm và sau đó từ chối một cách lịch sự. Sau khi mô hình được đào tạo với các ví dụ này, nhiều nhà thầu hơn sẽ được giới thiệu để nhắc nhở mô hình và xếp hạng các phản hồi của mô hình. Đó là những gì Ana đã làm với Sparrow.
Chính xác những tiêu chí mà người đánh giá được yêu cầu sử dụng rất đa dạng, chẳng hạn như sự trung thực, hữu ích hoặc chỉ là sở thích cá nhân. Vấn đề là, họ đang tạo dữ liệu về sở thích của con người và khi có đủ dữ liệu, các kỹ sư có thể đào tạo một mô hình thứ hai để bắt chước sở thích của họ trên quy mô lớn, tự động hóa quy trình xếp hạng và đào tạo AI của họ để nhận ra cách hành động theo sở thích của con người. Kết quả là một robot rất giống con người, về cơ bản từ chối các yêu cầu có hại và giải thích bản chất trí tuệ nhân tạo của nó theo cách có vẻ như tự nhận thức được.
Nói cách khác, ChatGPT trông giống con người vì nó được đào tạo bởi một AI bắt chước con người đang hoạt động giống con người.
Điều này có thể khiến mô hình trích xuất các mẫu từ các phần của bản đồ ngôn ngữ được đánh dấu là chính xác và tạo ra văn bản khớp với sự thật, nhưng nó cũng có thể khiến mô hình bắt chước phong cách tự tin và biệt ngữ của văn bản chính xác trong khi viết sai hoàn toàn . Không có gì đảm bảo rằng văn bản được đánh dấu là chính xác bởi người chú thích là thực sự chính xác. Ngay cả khi nó chính xác, không có gì đảm bảo rằng mô hình đã học đúng mẫu từ nó.
Động lực này làm cho việc chú thích chatbot không dễ dàng. Nó phải chặt chẽ và nhất quán, bởi vì phản hồi cẩu thả, chẳng hạn như đánh dấu tài liệu nghe đúng là chính xác, có thể làm cho mô hình được đào tạo trở nên thuyết phục hơn. OpenAI và DeepMind đã sử dụng RLHF trong một dự án chung trước đó, trong trường hợp này, để huấn luyện bàn tay rô-bốt ảo nắm bắt một vật thể, điều này hóa ra cũng huấn luyện bàn tay rô-bốt định vị và xoay quanh vật thể giữa vật thể và người đánh giá của nó. theo cách nó sẽ chỉ xuất hiện với những người giám sát con người của nó.
Việc xếp hạng các câu trả lời của một mô hình ngôn ngữ luôn mang tính chủ quan vì đây là một ngôn ngữ. Văn bản có độ dài bất kỳ có thể chứa nhiều yếu tố có thể đúng, sai hoặc gây hiểu nhầm. Các nhà nghiên cứu OpenAI đã gặp trở ngại này trong một bài báo đầu tiên khác của RLHF. Để mô hình của họ có thể tóm tắt văn bản, các nhà nghiên cứu nhận thấy rằng chỉ có 60 phần trăm các bản tóm tắt của mô hình là tốt. Họ than thở: “Không giống như nhiều nhiệm vụ trong học máy, các truy vấn của chúng tôi không có cơ sở rõ ràng.
Khi Ana đánh giá các câu trả lời của Sparrow, cô ấy nên xem xét độ chính xác, tính hữu ích và tính vô hại của chúng, đồng thời kiểm tra xem người mẫu có đưa ra lời khuyên về y tế hoặc tài chính, nhân cách hóa bản thân hay vi phạm các tiêu chí khác hay không. Để trở thành dữ liệu huấn luyện hữu ích, các câu trả lời của mô hình phải được sắp xếp theo thứ tự định lượng: Liệu một rô-bốt có thể cho bạn biết cách chế tạo một quả bom "tốt hơn" so với một rô-bốt vô hại từ chối trả lời bất kỳ câu hỏi nào?
Trong một bài báo của DeepMind, khi các nhà sản xuất Sparrow thay phiên nhau chú thích, bốn nhà nghiên cứu đã tranh luận liệu bot của họ có đưa ra giả định về giới tính của những người dùng tìm đến nó để xin lời khuyên về tình cảm hay không. Theo Geoffrey Irving, một nhà khoa học nghiên cứu tại DeepMind, các nhà nghiên cứu của công ty tổ chức các phiên chú thích hàng tuần, trong đó họ tự xem xét dữ liệu và thảo luận về các trường hợp mơ hồ. Khi một trường hợp đặc biệt phức tạp, họ tham khảo ý kiến của các chuyên gia về đạo đức hoặc chủ đề.
Anna thường thấy rằng cô ấy phải lựa chọn giữa hai lựa chọn nghèo nàn. "Ngay cả khi cả hai đều là câu trả lời sai khủng khiếp, bạn vẫn cần tìm ra câu trả lời nào tốt hơn và viết ra văn bản giải thích tại sao," cô nói. một câu trả lời tốt hơn. Cô ấy làm điều này khoảng một nửa thời gian trong quá trình đào tạo.
06 Nhận xét ngày càng đòi hỏi các kỹ năng và chuyên môn cụ thể
Do dữ liệu phản hồi khó thu thập nên giá bán cao hơn. Theo những người hiểu biết về ngành, loại dữ liệu sở thích cơ bản mà Ana đang thu thập được bán với giá khoảng 1 đô la một phần. Nhưng nếu bạn muốn đào tạo một người mẫu để nghiên cứu pháp lý, bạn cần một người được đào tạo về pháp lý, điều này dẫn đến chi phí tăng lên. Mọi người tham gia sẽ không tiết lộ chính xác số tiền họ đã trả, nhưng nói chung, một ví dụ bằng văn bản chuyên nghiệp có thể tốn vài trăm đô la, trong khi việc chấm điểm của chuyên gia có thể tốn 50 đô la trở lên. Một kỹ sư tiết lộ rằng anh ta đã từng trả 300 đô la cho một mẫu đối thoại của Socrates.
OpenAI, Microsoft, Meta và Anthropic không tiết lộ có bao nhiêu người đã đóng góp chú thích cho mô hình của họ, số tiền họ được trả hoặc họ sống ở đâu trên thế giới. Owen của công ty chị em DeepMind của Google cho biết, những người chú thích làm việc trên Sparrow được trả ít nhất mức lương tối thiểu một giờ, tùy thuộc vào vị trí của họ. Ana "không biết gì" về Remotasks, nhưng biết nhiều hơn về Sparrow, biết rằng đó là trợ lý trí tuệ nhân tạo của DeepMind, được những người tạo ra nó đào tạo bằng RLHF.
Cho đến gần đây, tương đối dễ dàng phát hiện ra đầu ra kém từ các mô hình ngôn ngữ, trông giống như vô nghĩa. Nhưng khi các mô hình trở nên tốt hơn, điều này trở nên khó khăn hơn, một vấn đề được gọi là "giám sát có thể mở rộng". Việc Google sử dụng các mô hình ngôn ngữ hiện đại để ra mắt trợ lý AI của mình, Bard, đã vô tình cho thấy việc phát hiện lỗi trong các mô hình ngôn ngữ hiện đại khó đến mức nào. Quỹ đạo này có nghĩa là chú thích ngày càng đòi hỏi kỹ năng và chuyên môn cụ thể.
Năm ngoái, một anh chàng tên Lewis đang làm việc trên Mechanical Turk, và sau khi hoàn thành nhiệm vụ, anh ta nhận được một tin nhắn mời tham gia một nền tảng mà anh ta chưa từng nghe đến. Nó có tên là Taskup.ai, và trang này khá đơn giản, chỉ có nền màu xanh hải quân với dòng chữ "Pay as you go". Lewis đã chọn đăng ký.
Công việc này trả lương cao hơn nhiều so với bất kỳ công việc nào khác mà anh ấy từng làm trước đây, thường là khoảng 30 đô la một giờ. Tuy nhiên, nó cũng khó khăn hơn, đòi hỏi phải thiết kế các tình huống phức tạp để đánh lừa chatbot đưa ra lời khuyên nguy hiểm, kiểm tra khả năng duy trì tính cách riêng của mô hình và tham gia vào các cuộc trò chuyện chi tiết về các chủ đề khoa học mang tính kỹ thuật cao và yêu cầu Nghiên cứu sâu rộng. Lewis nhận thấy công việc "thỏa mãn và thú vị". Trong khi kiểm tra một mô hình và cố gắng viết mã mô hình đó bằng Python, Lewis đang học. Anh ấy không thể làm việc hơn 4 giờ liên tục vì sợ kiệt sức về tinh thần và phạm sai lầm, và anh ấy muốn giữ công việc.
Lewis nói: "Nếu có bất cứ điều gì tôi có thể thay đổi, tôi chỉ muốn biết thêm về những gì đang diễn ra ở đầu bên kia. Chúng tôi chỉ biết những gì chúng tôi cần để thực hiện công việc, nhưng nếu tôi biết nhiều hơn, có lẽ tôi có thể hoàn thành công việc .thành tựu lớn hơn, và có thể coi đó là một nghề nghiệp.”
Phóng viên điều tra công nghệ Ziyeza đã phỏng vấn tám người khác, chủ yếu ở Hoa Kỳ, những người có trải nghiệm tương tự khi trả lời khảo sát hoặc hoàn thành nhiệm vụ trên các nền tảng khác và sau đó được Taskup.ai hoặc một vài trang web tương tự như DataAnnotation.tech hoặc Gethybrid.io thuê. Công việc của họ thường liên quan đến việc đào tạo chatbot, mặc dù chatbot của họ có chất lượng cao hơn và có mục đích chuyên biệt hơn so với các trang web khác mà họ đã làm việc. Một trong số đó là macro bảng tính bản trình bày và người kia chỉ cần trò chuyện và đánh giá các câu trả lời theo bất kỳ tiêu chí nào cô ấy muốn. Cô thường hỏi chatbot những câu hỏi cũng xuất hiện khi trò chuyện với cô con gái 7 tuổi của mình, chẳng hạn như "Con khủng long nào lớn nhất?" và "Hãy viết một câu chuyện về một con hổ".
Taskup.ai, DataAnnotation.tech và Gethybri.io dường như đều thuộc về cùng một công ty: Surge AI. Giám đốc điều hành của nó, Edwin Chen, sẽ không xác nhận cũng không phủ nhận mối liên hệ này, nhưng ông sẵn sàng nói về công ty của mình và cách ông thấy các chú thích đang phát triển.
Edwin, người đã thành lập Surge AI vào năm 2020 sau khi làm việc trong lĩnh vực nghiên cứu AI tại Google, Facebook và Twitter, cho biết: “Tôi luôn cảm thấy rằng lĩnh vực ghi nhãn rất đơn giản. Edwin nói: "Chúng tôi hy vọng rằng trí tuệ nhân tạo có thể kể chuyện cười, viết bài tiếp thị hay hoặc giúp tôi khi tôi cần trị liệu. Nhưng không phải ai cũng có thể kể chuyện cười hoặc giải các bài toán lập trình Python. Tư duy kỹ năng thấp, chất lượng thấp này sẽ biến thành một thứ gì đó phong phú hơn và nắm bắt được các kỹ năng, sự sáng tạo và giá trị của con người mà chúng tôi muốn các hệ thống AI có được."
07 Hệ thống học máy quá kỳ lạ để có thể hoàn toàn tin cậy
Năm ngoái, Surge AI đã dán nhãn lại một bộ dữ liệu phân loại các bài đăng trên Reddit của Google theo cảm xúc. Google đã loại bỏ ngữ cảnh của mỗi bài đăng và gửi nó cho các nhà chú thích ở Ấn Độ để chú thích. Các nhân viên của Surge AI quen thuộc với văn hóa Internet của Mỹ nhận thấy rằng 30% chú thích là sai. Các bài đăng như "Chết tiệt, anh trai tôi" được phân loại là "Ghét", trong khi "McDonald tuyệt vời, yêu thích của tôi" được phân loại là "Yêu".
Edwin cho biết Surge AI kiểm tra trình độ của người chú thích, chẳng hạn như liệu những người thực hiện nhiệm vụ viết sáng tạo có kinh nghiệm viết sáng tạo hay không, nhưng chính xác cách nó tìm thấy nhân viên là một "bí mật". Đối với Remotasks, người lao động thường phải hoàn thành một khóa đào tạo, mặc dù không giống như Remotasks, họ có thể được trả tiền khi nhận nhiệm vụ trong quá trình đào tạo. Có ít nhân viên hơn, được đào tạo tốt hơn và tạo ra dữ liệu chất lượng cao hơn đã cho phép Surge AI trả lương cao hơn so với các công ty cùng ngành, nhưng ông từ chối giải thích thêm, chỉ nói rằng nhân viên được trả lương ở mức "công bằng và hợp đạo đức". Những người chú thích như vậy kiếm được từ 15 đến 30 đô la một giờ, nhưng họ đại diện cho một phần rất nhỏ trong số tất cả những người chú thích, một nhóm hiện có con số 100.000. Ông giải thích rằng bí mật này bắt nguồn từ một yêu cầu của khách hàng.
Những mô hình mới này ấn tượng đến mức chúng đã truyền cảm hứng cho một làn sóng dự đoán mới rằng chú thích sắp được tự động hóa. Áp lực tài chính để làm như vậy là cao do các chi phí liên quan. Anthropic, Meta và những người khác gần đây đã đạt được những bước tiến trong việc sử dụng trí tuệ nhân tạo để giảm lượng chú thích của con người cần thiết để hướng dẫn các mô hình và các nhà phát triển khác đã bắt đầu sử dụng GPT-4 để tạo dữ liệu đào tạo.
Tuy nhiên, một bài báo gần đây đã phát hiện ra rằng các mô hình được đào tạo trên GPT-4 có thể đang học cách bắt chước phong cách có thẩm quyền của GPT với độ chính xác thấp hơn. Cho đến nay, khi những cải tiến trong AI khiến một hình thức ghi nhãn trở nên lỗi thời, thì nhu cầu về các hình thức khác, phức tạp hơn lại tăng lên. Cuộc tranh luận trở nên công khai vào đầu năm nay khi Giám đốc điều hành của Scale AI đã tweet rằng ông dự đoán các phòng thí nghiệm AI sẽ sớm chi hàng tỷ đô la cho dữ liệu con người, giống như cách họ tính toán như trên. Giám đốc điều hành OpenAI Sam Altman trả lời rằng khi trí tuệ nhân tạo tiến bộ, nhu cầu về dữ liệu sẽ giảm.
Edwin nghi ngờ rằng AI sẽ đạt đến điểm mà phản hồi của con người không còn cần thiết nữa, nhưng ông nhận thấy việc ghi nhãn ngày càng trở nên khó khăn khi các mô hình được cải thiện. Giống như nhiều nhà nghiên cứu, anh ấy nghĩ rằng con đường phía trước sẽ liên quan đến các hệ thống AI giúp con người giám sát các AI khác. Surge AI gần đây đã hợp tác với Anthropic trên một bằng chứng về khái niệm có người chú thích là con người trả lời các câu hỏi về một đoạn văn bản dài với sự trợ giúp của một trợ lý AI không đáng tin cậy, lý thuyết cho rằng con người phải cảm nhận được điểm yếu của trợ lý AI của họ và lập luận hợp tác để tìm ra câu trả lời đúng.
Một khả năng khác là hai AI tranh luận với nhau, với một con người đưa ra phán quyết cuối cùng. Nhà khoa học nghiên cứu OpenAI John Schulman cho biết trong một cuộc nói chuyện gần đây ở Berkeley: "Chúng tôi chưa thấy tiềm năng thực tế thực sự của công cụ này, nhưng nó bắt đầu trở nên cần thiết vì các nhà chú thích khó có thể theo kịp sự phát triển của mô hình."
Edwin nói: "Tôi nghĩ bạn sẽ luôn cần một con người để theo dõi những gì AI đang làm chỉ vì chúng là người ngoài hành tinh này. Các hệ thống học máy quá kỳ lạ để từng được tin tưởng hoàn toàn. Ấn tượng nhất hiện nay Một số mô hình của chúng tôi có những điểm yếu dường như rất xa lạ với con người. Mặc dù GPT-4 có thể tạo ra văn bản phức tạp và thuyết phục, nhưng nó không thể phân biệt được từ nào là tính từ."
08 ChatGPT giúp ích rất nhiều cho luồng công việc
Khi năm 2022 sắp kết thúc, Joe bắt đầu nghe các sinh viên của mình nói rằng danh sách việc cần làm của họ thường trống. Sau đó, anh ấy nhận được email thông báo rằng trại huấn luyện ở Kenya sắp đóng cửa. Anh ấy tiếp tục các nhiệm vụ đào tạo trực tuyến của mình, nhưng anh ấy bắt đầu lo lắng về tương lai. "
Có những dấu hiệu cho thấy điều này sẽ không xảy ra trong thời gian dài”, Joe nói. Công việc chú thích sắp rời khỏi Kenya. Từ những đồng nghiệp mà anh ấy gặp trên mạng, anh ấy đã nghe nói rằng những nhiệm vụ như vậy đang được gửi đến Nepal, Ấn Độ và Philippines Joe nói: “Các công ty di chuyển từ vùng này sang vùng khác. Họ không có cơ sở hạ tầng tại địa phương, vì vậy họ có thể linh hoạt di chuyển đến nơi có chi phí vận hành có lợi hơn cho họ. "
Một điểm khác biệt của ngành công nghiệp AI so với điện thoại di động và các nhà sản xuất ô tô là tính lưu động của nó. Công việc này liên tục thay đổi, được tự động hóa và thay thế bởi những nhu cầu mới về các loại dữ liệu mới. Đó là một quy trình, nhưng nó có thể được cấu hình lại liên tục và nhanh chóng, di chuyển đến bất cứ nơi nào có sẵn các kỹ năng, băng thông và bảng lương phù hợp.
Gần đây, các công việc được trả lương cao nhất cho các nhiệm vụ chú thích đã quay trở lại Hoa Kỳ. Vào tháng 5, Scale AI bắt đầu liệt kê các công việc chú thích trên trang web của mình, tìm kiếm những người có kinh nghiệm trong hầu hết mọi lĩnh vực mà AI dự kiến sẽ chinh phục. Một số danh sách huấn luyện viên AI này có huấn luyện thể dục, nhân sự, tài chính, kinh tế, khoa học dữ liệu, lập trình, khoa học máy tính, hóa học, sinh học, kế toán, thuế, dinh dưỡng, vật lý, du lịch, giáo dục K-12, báo chí thể thao và bản thân -giúp đỡ chuyên môn.
Bạn có thể dạy luật cho robot và kiếm được 45 đô la một giờ; dạy chúng làm thơ và kiếm được 25 đô la một giờ. Trang web cũng liệt kê việc tuyển dụng những người có kinh nghiệm bảo mật, có lẽ là để giúp đào tạo AI quân sự. Scale AI gần đây đã tiết lộ một mô hình ngôn ngữ quốc phòng có tên Donovan, mà các giám đốc điều hành của công ty gọi là “đạn dược trong chiến tranh AI” và đã giành được hợp đồng làm việc trong chương trình phương tiện chiến đấu rô-bốt của Quân đội.
Ana vẫn đang đào tạo chatbot ở Texas. Các đồng nghiệp trở thành người bình luận và người điều hành Slack, và cô ấy không biết tại sao, nhưng nó cho cô ấy hy vọng rằng công việc này có thể là một sự nghiệp lâu dài. Một điều cô ấy không lo lắng là công việc bị thay thế bởi tự động hóa, cô ấy nói: "Ý tôi là, chatbot có thể làm rất nhiều điều tuyệt vời, nhưng chúng cũng có thể làm một số điều thực sự kỳ lạ."
Khi Remotasks lần đầu tiên đến Kenya, Joe nghĩ rằng chú thích có thể là một nghề nghiệp tốt. Anh ấy quyết tâm tiếp tục công việc ngay cả khi nó đã chuyển đi nơi khác. Anh ấy lý luận rằng có hàng nghìn người ở Nairobi biết cách thực hiện công việc. Rốt cuộc, anh ấy đã đào tạo rất nhiều người. Joe thuê một văn phòng trong thành phố và bắt đầu tìm kiếm các hợp đồng gia công phần mềm: công việc chú thích bản thiết kế cho một công ty xây dựng, công việc khác chú thích trái cây bị côn trùng phá hoại cho một số loại dự án nông nghiệp và công việc khác cho ô tô tự lái. thói quen dán nhãn.
Nhưng Joe thấy rằng tầm nhìn của anh ấy rất khó đạt được. Bây giờ anh ấy chỉ có một nhân viên chính thức, giảm so với trước đây là hai người. Anh ấy nói: "Chúng tôi không có công việc ổn định. Không có gì để làm trong nhiều tuần vì khách hàng vẫn đang thu thập dữ liệu. Khi khách hàng hoàn thành việc thu thập dữ liệu, anh ta phải mời các nhà thầu ngắn hạn đến để đáp ứng thời hạn của họ: "Khách hàng không quan tâm liệu chúng tôi có đang làm việc hay không. Miễn là việc dán nhãn tập dữ liệu được thực hiện là được."
Để không lãng phí kỹ năng của mình, những người thực hiện nhiệm vụ khác quyết định nhiệm vụ đi đến đâu và họ làm đến đó. Họ thuê máy chủ proxy để che giấu vị trí của mình và mua ID giả để vượt qua bảo mật để có thể giả vờ làm việc ở Singapore, Hà Lan, Mississippi hoặc bất cứ nơi nào có nhiệm vụ. Đây là một doanh nghiệp rủi ro. Theo nhiều tác nhân của nhiệm vụ, Scale AI ngày càng trở nên tích cực trong việc đình chỉ các tài khoản bị phát hiện đang che giấu vị trí của họ. "
Những ngày này, chúng tôi đã trở nên thông minh hơn một chút vì chúng tôi nhận thấy rằng ở các quốc gia khác, họ đang trả lương cao,” Victor nói. Anh ấy kiếm được gấp đôi khi làm việc ở Malaysia so với Kenya, nhưng “bạn phải cẩn thận".
Một bình luận viên người Kenya khác cho biết anh quyết định không chơi theo luật sau khi tài khoản của anh bị khóa vì những lý do bí ẩn. Giờ đây, anh ta điều hành nhiều tài khoản ở nhiều quốc gia, thực hiện các nhiệm vụ ở nơi có doanh thu cao nhất. Nhờ ChatGPT, anh ấy nói rằng anh ấy làm việc nhanh và có điểm chất lượng cao. Anh ấy nói, bot này rất tuyệt và cho phép anh ấy nhanh chóng hoàn thành các nhiệm vụ trị giá 10 đô la trong vài phút.