Nguyễn Tiến Dũng
Bạn hãy thử hình dung luôn có bên mình một trợ lý siêu việt, đọc thông viết thạo hàng trăm thứ tiếng, chỉ dẫn và làm phiên dịch cho bạn ở mọi chỗ mọi nơi, sàng lọc tin tức quan trọng cho bạn, đọc thư và soạn thảo mọi văn bản giúp bạn, nhắc việc và gợi ý cho bạn, dạy bạn đủ thứ, hỏi gì trả lời đó một cách chính xác và hóm hỉnh, bằng một giọng mà bạn ưa thích nhất, động viên bạn hàng ngày, v.v.
Một trợ lý như vậy, nếu bằng da bằng thịt thì chắc không thể có, nhưng nếu là trợ lý nhân tạo thì đó không còn là một chuyện viễn tưởng xa xôi nữa, mà là một thực tế đang hình thành trước mắt chúng ta, ngay trong thập kỷ này, nhờ vào cuộc cách mạng trí tuệ nhân tạo.
Nếu như chỉ cách đây ít lâu, bạn và tôi còn không nghĩ tới hay còn rất hoài nghi về chuyện này, thì sự xuất hiện của ChatGPT và các phần mềm trí tuệ nhân tạo tương tự đã tạo nên cú sốc, xóa bỏ đi sự hoài nghi đó.
ChatGPT là gì?
Đó là một phần mềm trợ lý ảo “hỏi gì trả lời đó” do công ty Open AI công bố vào cuối năm 2022 (xem https://chat.openai.com/ hoặc có thể tải ứng dụng cho điện thoại), và đang gây một làn sóng lớn trên thế giới, báo chí hàng ngày tốn không biết bao nhiêu giấy mực để viết về nó. Chỉ sau hai tháng kể từ khi công bố, ChatGPT đã cán mốc 100 triệu người dùng, là một kỷ lục từ trước đến nay cho các dịch vụ phần mềm.
Nguyên tắc sử dụng ChatGPT rất đơn giản: sau khi đăng nhập, bạn có thể viết bất cứ một câu hỏi hay bình luận gì, bằng tiếng Việt hay tiếng Anh hay bất kỳ thứ tiếng thông dụng nào khác, ChatGPT sẽ đưa ra câu trả lời bằng thứ tiếng mà bạn sử dụng.
Trong rất nhiều trường hợp, câu trả lời do ChatGPT đưa ra khá là hợp lý, có ích. Có ích đến mức mà các lập trình viên khi cần viết một đoạn code nhỏ nào đó cũng có thể hỏi GPT viết hộ, các bác sĩ cũng nhờ ChatGPT viết giải thích về các căn bệnh, v.v. Thậm chí đã có nhiều sinh viên gian lận trong thi cử bằng cách dùng ChatGPT để làm những bài luận mà đáng nhẽ họ phải tự làm, dẫn đến việc các trường đại học phải thiết lập các biện pháp phát hiện chuyện này. Sẽ không ngạc nhiên lắm nếu như sẽ có cả những luận án tiến sĩ được viết bằng ChatGPT hoặc những trợ lý ảo tương tự!
Tuy nhiên, bạn phải rất thận trọng khi dùng ChatGPT và những trợ lý ảo tương tự, bởi chúng có thể bịa đặt, đưa ra những câu trả lời “tưởng như đúng rồi” nhưng thực ra là nói nhảm. Ví dụ, khi được hỏi “hãy cho danh sách các bài báo khoa học của tác giả xyz”, ChatGPT liền đưa ra những tên bài báo … hoàn toàn bịa đặt. Đó là bởi vì, thực ra ChatGPT không hề có tên các bài báo đó trong trí nhớ của nó, nó chỉ từng được xem các tên bài báo đó trong quá trình huấn luyện, và nhớ không phải là đầy đủ các tên mà chỉ là các cụm từ, rồi lấy “râu ông nọ cắm cằm bà kia”, xáo trộn các cụm từ đó vào với nhau thành các tên bịa mà trông qua cử tưởng như thật!
Một ví dụ khác, khi được hỏi về một chỉ số đo độ nặng của một loại bệnh da, ChatGPT trả lời là người ta tính nó bằng cách đo độ nặng của bệnh trên 4 phần của cơ thể là đầu, thân, chân tay, và móng, rồi cộng lại với nhau. Đây là câu trả lời bịa (nhưng những ai không biết thì sẽ có thể tin là thật), vì chuyện đo trên 4 phần khác nhau là có thật, nhưng 4 phần đó là đầu, thân, chi trên (tay) và chi dưới (chân) chứ không có móng. Trợ ý ảo đã vơ cả móng vào trong công thức, có lẽ bởi nó đã được nhai đi nhai lại nhiều lần rằng móng cũng có liên quan đến bệnh da này.
Theo đánh giá của Microsoft, công ty đầu tư hàng tỷ đô la vào Open AI, thì tỷ lệ trả lời có nghĩa của ChatGPT hiện mới đạt khoảng 70%. Ông Jean-Noel Barrot, bộ trưởng về truyền thông và chuyển đổi số ở Pháp, không phải vô cớ khi nói rằng ChatGPT “chẳng qua là một con vẹt”. Tuy nhiên, những “con vẹt” này cũng rất đáng gờm, bởi chúng có khả năng học rất nhanh những cấu trúc và thông tin mới, càng ngày càng tinh tế và thông minh lên. Từ GPT-2 (thế hệ 2 của ChatGPT xuất hiện năm 2019) cho đến GPT-3 (thế hệ hiện tại của ChatGPT) đã là một bước tiến rất lớn, các câu trả lời có nghĩa lên rất nhiều, và sắp tới GPT-4 ra đời sẽ còn giỏi hơn nhiều lần nữa.
Một chút lịch sử
Có thể coi lịch sử của trợ lý ảo bắt đầu từ những năm 1960, khi giáo sư Weizenbaum ở đại học MIT nghĩ ra một chatbot (phần mềm đối thoại người với máy), đặt tên là ELIZA. Thuật toán ELIZA chỉ biết làm một số động tác đơn giản, ví dụ như lặp lại mấy từ mà người dùng đưa vào, thêm vào đó mấy cấu trúc câu mà nó có sẵn trong bộ nhớ, còn tất nhiên là không hiểu gì về nội dung. Thế đã đủ tạo ra những “cuộc nói chuyện rất riêng tư” giữa ELIZA và cô thư ký của Weizenbaum.
Từ đó đến nay, cuộc cách mạng về học máy (machine learning), đi kèm với cuộc cách mạng về hiệu suất tính toán, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên, đã làm thay đổi hoàn toàn bộ mặt của các trợ lý ảo.
Một bước tiến quan trọng trong việc xử lý ngôn ngữ tự nhiên (natural language processing) bằng trí tuệ nhân tạo là phương pháp Word2vec xuất hiện vào năm 2013 cho phép chuyển các từ ngữ thành các vec-tơ (các bộ số có độ dài cho trước, hay có thể hiểu như là các điểm trong không gian Euclid nhiều chiều). Bởi vì máy tính làm việc với các bộ số thì tiện hơn nhiều so với làm với với các từ ngữ. Hơn nữa, vị trí tương đối giữa các vec-tơ với nhau phản ánh quan hệ giữa các từ tương ứng với nhau, ví dụ như (đàn ông) - (đàn bà)
cho ra vec-tơ tương tự như (hoàng tử) - (công chúa), nên khi tính toán với các vec-tơ ta nhận được luôn quan hệ giữa các từ trong câu.
Từ trước đó, vào thập kỷ 1980 đã xuất hiện một loại mạng thần kinh nhân tạo gọi là RNN (recurrent neural netwoork = mạng thần kinh có lặp?) có thể học xử lý ngôn ngữ tự nhiên, do nhà khoa học Hopfield và nhà tâm lý học Rumelhart ở Mỹ đề xuất. Ta hình dung một văn bản hay một đoạn âm thanh như một chuỗi thời gian trong đó các từ mới (âm thanh mới) xuất hiện dần dần. Mạng RNN sẽ xử lý lần lượt (kiểu “lặp đi lặp lại”) từng từ (từng âm thanh) một khi nó xuất hiện, và có giữ một chút trí nhớ về những từ vừa xử lý trước đó.
Vào năm 1997, hai giáo sư người Đức tên là Hochreiter và Schmidhuber đưa ra một cải tiến quan trọng của RNN, gọi là LSTM (long short-term memory = trí nhớ ngắn hạn kéo dài?), không những chỉ nhớ một cụm từ phía trước mà còn nhớ được “dư âm” của những từ xuất hiện từ trước đó lâu hơn trong văn bản. Phương pháp Word2vec kết hợp với LSTM đã cho ra những công cụ xử lý ngôn ngữ tự nhiên (chatbot, máy dịch tự động văn bản, v.v.) tốt nhất trong thập kỷ 2010.
Transformer cho trợ lý ảo
Vào năm 2017, các nhà nghiên cứu ở Google và ở đại học Toronto công bố một cấu trúc mạng thần kinh nhân tạo mới, gọi là Transformer (cấu trúc biến đổi?). (Xem bài báo: https://arxiv.org/pdf/1706.03762.pdf) Nói chung tất cả các công nghệ xử lý ngôn ngữ tự nhiên thế hệ mới, từ BERT rồi BARD của Google cho đến GPT của Open AI (công nghệ nền tảng của ChatGPT) cho đến BART của Facebook v.v. đều dựa trên cấu trúc Transformer này.
Bản thân GPT trong ChatGPT là viết tắt của cụm từ Generative Pretrained Transformer. (Generative có nghĩa là có chức năng sinh sôi sáng tạo, còn Pretrained có nghĩa là nó đã được học trên một tập dữ liệu khổng lồ để ghi nhớ được nhiều khái niệm hay cấu trúc quan trọng trước khi huấn luyện sâu thêm cho lĩnh vực cụ thể nào đó).
Cấu trúc Transformer khác biệt RNN và LSTM ở những điểm nào mà “gây bão” đến vậy?
Có thể kể ra hai điểm khác biệt chính như sau:
Điểm thứ nhất liên quan đến một nhược điểm rất lớn của RNN và LSTM, đó là chúng xử lý các văn bản một cách lần lượt (sequential) từng từ một, và quá trình học của nó cũng theo kiểu lần lượt như vậy. Nhưng ngày nay không cần phải là chuyên gia tin học cũng có thể biết rằng muốn xử lý nhanh thì phải theo kiểu song song (parallel, rất nhiều thứ cùng một lúc) chứ không lần lượt. Các bộ vi xử lý hình ảnh hiện đại trong máy tính hay điện thoại đều là xử lý song song. Transformer đã biến đổi thông tin ngôn ngữ tự nhiên thành dạng có thể xứ lý song song thay vì lần lượt, và điều này khiến nó học được rất nhanh rất nhiều hơn so với các công nghệ trước.
Điểm thứ hai là Transformer tính toán các hệ số attention và self-attention (tính xem từ nào thì quan trọng hơn đối với từ nào trong ngữ cảnh của đoạn văn), điều mà RNN/LSTM không làm. Các hệ số attention đó cho phép mô tả chính xác hơn cấu trúc ngữ pháp, quan hệ giữa các từ, và do đó “hiểu” chính xác hơn, dịch chính xác hơn.
Với những điểm mới này, các trợ lý ảo dựa trên Transformer không những học được cách trả lời cho đúng, mà còn dễ học được cả cách cá nhân hóa (personalization), có thể đóng vai người làm nghề này hay nghề khác (bác sĩ nói năng một kiểu, nghệ sĩ nói năng kiểu khác), và đóng vai trạng thái cảm xúc này hay cảm xúc khác (AI cũng biết giả vờ vui, buồn, giân dỗi, vv), vv
Tuy mới đầu được thiết lập để xử lý ngôn ngữ tự nhiên, nhưng ý tưởng Transformer, đặc biệt là ý tưởng về attention, cũng được dùng để xử lý ảnh và các loại thông tin, tín hiệu khác một cách hiệu quả.
Có thể xem một danh sách khá đầy đủ các phần mềm AI sử dụng transformer ở đây: https://huggingface.co/docs/transformers/index)
Cuộc chạy đua AI mới
Theo giáo sư Oder Netzer phó trưởng khoa ở Columbia Bisuness School, thì “thế giới không còn như trước nữa” sau khi ChatGPT xuất hiện. Rất nhiều doanh nghiệp và ngành nghề “tụt hậu về trí tuệ nhân tạo” bị đe sọa xóa sổ trong tương lai gần, và ngược lại rất nhiều cơ hội làm giàu mới xuất hiện, với tổng giá trị lên tới hàng nghìn tỷ đô la. Ngay cả những “gã khổng lồ” như Google cũng cảm thấy mối đe dọa chiếm lĩnh thị trường tra cứu thông tin (search engine) từ ChatGPT, đến mức phải cấp bách thay đổi chiến lược, tập trung đầu tư vào những giải pháp cạnh tranh.
Công ty Open AI, tác giả của ChatAI, là một công ty mới được thành lập từ năm 2015, nhưng được đầu tư cả tỷ đô la ngày từ đầu, và có Elon Musk (tỷ phú công nghệ giàu nhất nhì thế giới) trong danh sách các nhà sáng lập. Chính Musk là người đặt tên Open (có nghĩa là “mở”) cho công ty này, và mục đích ban đầu của công ty là tạo ra các phần mềm AI mã nguồn mở phục vụ cả nhân loại. Ngoài ChatGPT, Open AI còn có các dự án AI rất nổi tiếng khác, ví dụ như DALL-E-2 cho phép sáng tác các bức tranh ứng với các câu văn mà người dùng đưa vào. Tuy nhiên, chính theo lời của Musk, Microsoft đang càng ngày càng thâu tóm Open AI để phục vụ cho việc thống lĩnh thị trường và làm tiền của họ, xa rời ý tưởng “phần mềm mở” ban đầu.
Về cơ bản, ý tưởng thuật toán của GPT và những phần mềm xử lý ngôn ngữ tự nhiên tượng tự không khó, ai cũng có thể copy về máy của mình, xào xáo một chút, cho nó học trên bộ dữ liệu của mình, để tạo ra một trợ lý ảo chuyên về lĩnh vực nào đó hoặc là trợ lý ảo vạn năng. Cái khó ở đây là làm sao đạt được quy mô lớn và hiệu quả cao. Các mô hình mạng thần kinh nhân tạo xử lý ngôn ngữ tự nhiên quy mô lớn (LLM - large language model) hiện tại có đến hàng trăm tỷ biến số (learnable parameters), và những mô hình sắp tới của các “đại gia” AI sẽ có đến hàng nghìn tỷ biến số. Để so sánh, các mô hình AI xử lý ảnh thông dụng hiện tại có lượng biến số chưa bằng 1/1000 như vậy.
Ước tính hiện tại cần đầu tư ít nhất 50 triệu đô la tiền máy tính mới đủ sức tính toán cho việc học máy để tạo ra phần mềm như ChatGPT. Tuy nhiên, con số 50 triệu đô la đó không phải là rào cản đối với các công ty lớn và các quốc gia, và sẽ có sẽ có rất nhiều công ty và quốc gia tham dự cuộc chạy đua trợ lý ảo AI. Bởi vì ai kiểm soát thông tin, người đó nắm quyền lực. Nếu một quốc gia nào đó không kiểm soát được trợ lý ảo nào, thì thậm chí lịch sử của quốc gia đó có thể bị kẻ khác viết lại thông qua các trợ lý ảo của họ được thế giới dùng.
Nguyễn Tiến Dũng
02/2023
Nguồn. Bài đã đăng trên Tia Sáng số 4, ra ngày 20.02.2023 với tiêu đề "ChatGPT hay mặt trái tấm huy chương". Trên đây là bản gốc tác giả gửi Diễn Đàn.