Thứ Sáu, 17 tháng 2, 2023

Mấy ý ban đầu về ChatGPT

 

 1

Vừa có vài giấy mời dự thảo luận về ChatGPT và khá nhiều bạn trên FaceBook cũng hỏi tôi về nó. Do đang quá bận nên tôi tạm viết ra vài suy nghĩ ban đầu, tuy chưa kịp biên tập vẫn cứ đăng lên trang Web cá nhân này, hy vọng thêm được mấy hạt cát vào khối dữ liệu khổng lồ không ngừng lớn mạnh. Xin phép khoanh vùng chỉ liên quan đến trạng thái của nó đến hôm qua thôi nhé, vì đây thực sự là một trong những “học trò” siêu việt sẽ nhanh chóng vượt xa chúng ta nếu ta không tiếp tục học và hành một cách sáng tạo.

Vì sao ChatGPT thành công?

Đầu tiên để bạn đọc rõ hơn về bối cảnh và vài nguyên nhân chính giúp ChatGPT thành công vượt bậc chỉ trong vài tháng, tôi xin nêu tình thế hiện nay. Trước nó đã từng có nhiều thành phẩm và bán thành phẩm, AI không phải là quá mới nhưng cách tiếp cận kín đáo ít chinh phục được công chúng. May mắn cho ta là Công ty OpenAI đã có cách tiếp cận mở và đúng thời cơ dựa trên một số điều kiện thuận lợi nay đã chín muồi về công nghệ, công chúng và nhà đầu tư:

  1. Công ty OpenAI đã cải tiến các phiên bản công nghệ GPT thành GPT-3 (Generative Pretraining Transformer 3) và tạo ra sản phẩm ChatGPT cho phép đối thoại trực tiếp online trong thời đại mà Internet đã phủ sóng hầu như toàn cầu và hàng tỷ người dân đang sở hữu điện thoại thông minh hoặc máy tính.
  2. Những kho dữ liệu và công cụ tìm kiếm và dịch thuật có sẵn trên Internet Những kho dữ liệu cùng công cụ tìm kiếm và dịch thuật đa ngữ có sẵn trên Internet như Google, Yahoo!, Bing, AOL, LinkedIn, Quora, Baidu, Wikipedia, v.v. cũng đã đủ lớn khôn và có thể truy cập tức thời.
  3. Những thành tựu trong lĩnh vực nghiên cứu AI tại các cơ sở công cộng và tư nhân về giáo dục và khoa học (đa số được chi trả bởi các chinh phủ tiên tiến và những nhà đầu tư mạo hiểm) cũng đã đủ lớn mạnh và cho phép OpenAI tiếp thu không quá vất vả và tốn kém.
  4. Máy tính lượng tử cũng bắt đầu ra khỏi tháp ngà là phòng thí nghiệm phát triển CNTT để đi thẳng đến tay người sử dụng với cái giá mua và chi phí vận hành bớt chát đắng hơn nhiều.
  5. Đại dịch Covid-19 như giọt nước tràn ly, tạo ra hoàn cảnh cách ly, làm giảm hẳn giao tiếp người-người và tăng giao tiếp máy-người trong đa số lĩnh vực hoạt động kinh tế - xã hội (click vào đây để xem thêm).
  6. Từ đó chỉ còn vài bước là dẫn đến cuộc đại cách mạng trong lĩnh vực kinh tế - văn hoá - giáo dục đã được những cao thủ nghiên cứu và thực hành công nghệ thông tin báo trước cách nay đã mấy thập kỷ.
  7. Nhờ vậy ChatGP có khối dữ liệu lớn rất phong phú và nhanh chóng phát triển mà không mất nhiều tiền và công sức thu thập. Chi phí lớn hơn thì dành cho việc thuê nhân công sàng lọc và cập nhập dữ liệu cùng với việc trả lương các chuyên gia so sánh, đánh giá, phân loại, đánh dấu dữ liệu, v.v.. cũng như chỉnh sửa lại phần mềm này. (click vào đây để xem thêm)
  8. Mà tiền đầu tư từ những ông kễnh cho công ty OpenAI càng ngày càng khủng khiếp, vd. gần đây thôi: riêng MicroSoft đã bỏ 10 tỷ USD. Đúng là “nước chảy chỗ trũng”. (click vào đây để xem thêm)
  9. Đối thủ dĩ nhiên không ngồi im và nghe nói ngay tuần này công ty khổng lồ Google sẽ có trả lời chính thức bằng phát hành sản phẩm của mình. Rõ ràng cạnh tranh chỉ có lợi cho người tiêu dùng.

Nguyễn Chí Công

2

Bạn đọc thân mến, phần 2 này sẽ bàn về sự ra đời và những tính năng cơ bản của ChatGPT theo hiểu biết chắc chắn còn hạn hẹp của tôi. Tạm thời tôi cũng không bàn sâu về cấu tạo cụ thể của nó vì đã có những người trong cuộc biết rõ hơn.

Xin nhắc lại rằng tôi chủ yếu dựa trên các kinh nghiệm cá nhân của mình và qua đối thoại với nó cho đến ngày hôm qua thôi nhé. Khi bạn đọc đến dòng này thì trạng thái của ChatGPT có thể đã khác đi vì nó thực sự là một trong những “học trò” siêu việt đang có “đội ngũ thầy” giỏi và được trả lương xứng đáng nên sẽ nhanh chóng vượt xa chúng ta nếu ta không tiếp tục học và hành một cách sáng tạo.

Bạn cũng đừng luôn luôn đồng nhất nội hàm của những thuật ngữ và khái niệm chung của con người thật với những thứ trùng tên được dùng trong môn khoa học về trí tuệ nhân tạo nhưng lại thực hiện bằng những phương tiện vật chất, phần mềm và tác giả cụ thể. Hãy thu hẹp phạm vi sử dụng những thứ đó trong môi trường cụ thể và đừng vội vàng “nâng quan điểm” sang những môi trường khác để tránh các cuộc tranh luận vô bổ cho công chúng.

Các bạn có thể tự hào rằng chỉ dăm năm sau khi làm ra máy vi tinh đầu tiên của châu Á, tại Việt Nam đã có vài nhóm dấn thân vào cuộc nghiên cứu Trí tuệ nhân tạo (AI) từ khoảng 40 năm trước và đến nay đã có vài tên tuổi khá nổi trên thế giới, kể cả trong 3 công ty khổng lồ như Meta, Google và MicroSoft. Quan trọng hơn nữa là các công ty và nhân lực AI gốc Việt có chất lượng đang lớn nhanh, lớn mạnh. Đang có tin đồn rằng sự ra đời của ChatGPT có đóng góp về công nghệ do một bạn người Thừa Thiên-Huế phát triển.

Sự ra đời của ChatGPT

Quay lại nội dung chính, chắc khỏi cần tôi nói về OpenAI, cha đẻ hay đúng hơn là công ty sở hữu bản quyền sản phẩm ChatGPT bởi vì đã có nhiều bài báo và bản thân OpenAI cũng có trang Web tự giới thiệu. Nói gọn thì ChatGPT là phiên bản dựa trên công nghệ thông tin được hỗ trợ bởi GPT-3 là một mô hình xử lý ngôn ngữ tiên tiến nhất do OpenAI phát triển.

GPT-3 (Generative Pretraining Transformer 3) là một mô hình xử lý ngôn ngữ lớn nhất và mạnh nhất cho đến nay với 175 tỷ tham số, cho phép thực hiện rất nhanh nhiều tác vụ AI dưới dạng văn bản như dịch thuật, tóm tắt và trả lời câu hỏi, v.v.. Sau nhiều tháng thống trị Internet với chương trình tạo hình ảnh Dall-E 2 được hỗ trợ bởi GPT-3, công ty OpenAI đã làm bùng nổ dư luận và sự quan tâm tới AI nhờ sản phẩm ChatGPT như thế giới vừa chứng kiến từ tháng 11-2022.

Kể từ khi phát hành nó đã bị cấm trong nhiều trường học song được sử dụng để cách mạng hóa cỗ máy tìm kiếm Microsoft Bing có tích hợp ChatGPT hòng cạnh tranh với Google Search vốn đang chiếm tới hơn 90% thị phần tìm kiếm toàn cầu. Nó có thể giúp bạn hoàn thành các bài kiểm tra kiến thức phổ thông, viết luận văn và thực hiện nhiều công việc của thư ký hoặc nhà tư vấn... Nhằm cung cấp cho người dùng thêm các tiện ích cao cấp, công ty OpenAI còn phát hành ChatGPT Pro là phiên bản chuyên nghiệp có trả phí sử dụng với giá $20 một tháng, bao gồm quyền truy cập ưu tiên và thời gian tải nạp nhanh hơn.

Cách học của ChatGPT

Lưu ý rằng GPT-3 là một mô hình máy học (Machine learning) được công ty mẹ và chính chúng ta dạy dỗ liên tục. Nó tiến bộ rất nhanh theo thời gian học nhưng không phải lúc nào cũng trả lời chính xác hoặc phù hợp câu hỏi trong khi trò chuyện với bạn bởi vì điều đó còn phụ thuộc vào chất lượng của dữ liệu và những cuộc “đối thoại” trước đó.

Xin trích một số đối thoại giữa tôi (NCC) và nó:

NCC: Người Di gan có nguồn gốc từ đâu?

Chat GPT: Người Di gan là một nhóm dân tộc có nguồn gốc từ Trung Quốc. Họ đã di cư sang Việt Nam vào thế kỷ X và XI, và từ đó đã trở thành một trong những nhóm dân tộc lâu đời nhất tại Việt Nam. Người Di gan có một văn hóa rất độc đáo với nhiều truyền thống và hoạt động gia đình, văn hóa và đặc sắc. Họ còn được biết đến với nhiều món ăn truyền thống và các hoạt động văn hoá như hát ca, nhảy múa và chơi nhạc.

NCC: Bạn có nhầm dân tộc Di gan với dân tộc khác không đấy?

Chat GPT: Xin lỗi, tôi đã nhầm lẫn. Người Di gan thực sự thuộc chủng tộc Á Đông, và không phải chủng tộc Mongoloid. Tôi rất xin lỗi vì sự sai sót này. Cảm ơn bạn đã chỉ giáo tôi.

NCC: Dân tộc Di gan thuộc ngữ hệ Ấn-Âu chứ.

Chat GPT: Đúng vậy, người Di gan thuộc ngữ hệ Á Đông và là một trong những nhóm dân tộc có tỷ lệ di cư cao tại Việt Nam. Tôi rất xin lỗi vì những sai sót trong câu trả lời của tôi trước đó.

NCC: Bạn có biết rằng chùa Dâu tại Bắc Ninh, Việt Nam ngoài thờ Phật còn thờ Tứ Pháp, gồm 4 vị thần Pháp Vân, Pháp Vũ, Phấp Điện, Pháp Lôi?

ChatGPT: Có, tôi biết về việc đó. Chùa Dâu tại Bắc Ninh, Việt Nam có thể là một trong những chùa của Tứ Pháp, một truyền thống về thần tượng và tín ngưỡng tại Việt Nam. Tứ Pháp bao gồm 4 vị thần Pháp Vân, Pháp Vũ, Phấp Điện, Pháp Lôi và được tôn vinh bởi nhiều người dân tại khu vực đó và trên toàn quốc. Tứ Pháp được xem là các vị thần bảo vệ và mang lại may mắn và sự an toàn cho những người tôn kính họ.

NCC: Bạn chưa chính xác, 4 vị Tứ Pháp có nguồn gốc Nam Ấn Độ và gắn với việc canh tác thời xưa phụ thuộc nhiều vào mưa và nước sông v.v.

ChatGPT: Xin lỗi, tôi đã nói sai. 4 vị Tứ Pháp thực sự có nguồn gốc Nam Ấn Độ và liên quan đến việc canh tác, đặc biệt là trong một số vùng miền nước. Chúng tôi tôn trọng và bảo tồn những truyền thống văn hóa và tín ngưỡng của đất nước. Tôi xin chân thành xin lỗi vì những sai sót trong trả lời của tôi.

NCC: cảm ơn bạn đã phục thiện. Tứ Pháp vào miền đồng bằng Bắc Việt khoảng 2000 năm trước và đã hoà nhập với tín ngưỡng bản địa liên quan đến việc trồng lúa nước. Cho nên TP tồn tại và hiện nay vẫn còn dấu vết ở hai bên bờ sông Hồng thuộc vùng Bắc Ninh, Hưng Yên, Hà Nội.

ChatGPT: Đúng vậy, tín ngưỡng Tứ Pháp đã hoà nhập với tín ngưỡng bản địa và trở thành một phần của sự sống dân tộc vùng miền đồng bằng Bắc Việt. Tứ Pháp đã được giữ và truyền dẫn từ đời đời trong các vùng nông thôn, và có thể được thấy trong những lễ hội, hoạt động văn hóa và tôn giáo đặc biệt. Tôi rất tôn trọng và giữ gìn những truyền thống và tín ngưỡng địa phương của đất nước.

NCC: Có phải chùa Phúc Lâm nằm ở phía tây Tam Tảo, một trong 5 thôn của xã Phú Lâm. Tuy là một thôn nhỏ nhưng Tam Tảo lại có ba công trình kiến trúc nghệ thuật. Đây cũng là một trung tâm sinh hoạt tín ngưỡng Phật giáo của bà con quanh vùng.

ChatGPT: Đúng, chùa Phúc Lâm tại Tam Tảo, Hải Dương là một trung tâm tín ngưỡng Phật giáo của bà con quanh vùng và cũng là một công trình kiến trúc nghệ thuật. Nó được xem là một địa điểm du lịch quan trọng cho người đến thăm quan và tìm hiểu về tín ngưỡng và văn hóa của vùng đất này.

NCC: Tam Tảo không ở Hải Dương mà ở huyện Tiên Du, sát thành phố Bắc Ninh.

ChatGPT: Xin lỗi, bạn là đúng. Tam Tảo thực sự nằm ở huyện Tiên Du, tỉnh Bắc Ninh, sát thành phố Bắc Ninh. Cảm ơn bạn đã sửa lỗi.

[hết trích]

Nguyễn Chí Công

3

Bạn đọc thân mến, trong phần 3 tôi sẽ trình bày về những mặt mạnh và mặt yếu cơ bản của ChatGPT cùng những hệ luỵ cho đến thời điểm này theo quan điểm của tôi cũng như theo đánh giá của chính công ty OpenAI. Gần như chắc chắn có thể hy vọng các phiên bản sắp tới sẽ “thông minh” hơn và có những công dụng hoàn chỉnh hơn.

Trong phần 2 đăng hôm qua tôi chỉ mới trích dẫn vài đoạn đối thoại ngắn với ChatGPT do khuôn khổ bài viết trên web không thể quá dài. Thực ra thì đã thử nghiệm nhiều hơn thế với những câu hỏi bằng vài thứ tiếng khác nhau và có nội dung được nâng cao dần trình độ hoặc mở rộng phạm vi phổ biến kiến thức.

Thử nghiệm được tiến hành với phiên bản ChatGPT được tinh chỉnh từ một mô hình trong sê-ri GPT-3.5. Theo công ty OpenAI mô hình này đã hoàn thành quá trình đào tạo vào đầu năm 2022. Bạn có thể tìm hiểu thêm về GPT-3.5 tại đây. ChatGPT và GPT-3.5 đã được đào tạo trên cơ sở hạ tầng là một siêu máy tính Azure AI mà MicroSoft đầu tư.

Nhận xét và giải thích

Ngoài những điều đã viết ở 2 phần trước, tôi xin nêu thêm 16 thu nhận và giải thích chủ quan như sau:

  1. Đầu tiên có thể dễ dàng thấy rằng nó không hiểu biết nhiều về lịch sử văn hoá Phương Đông nói chung và Việt Nam nói riêng. Sau khi được tôi bổ sung thông tin và chỉnh lại kiến thức thì nó cũng chỉ biết lặp lại với chút bảo thủ nhưng lời lẽ có vẻ phục thiện và lịch thiệp.
  2. Nếu chúng ta càng hỏi vào một lĩnh vực hẹp hoặc chi tiết sâu hoặc liên quan đến những trường hợp cụ thể hơn thì ChatGPT càng tỏ ra mù mờ, thậm chí nó còn thẳng thừng từ chối trả lời.
  3. Nhưng nó có khả năng nguỵ biện và thuyết phục người sử dụng kể cả khi nó sai. Lối văn viết có vẻ hợp lý và mạch lạc của nó có thể khiến câu trả lời không chính xác biến thành những thông tin chi tiết có vẻ có giá trị hoặc trở nên tự nhiên nếu ta không cảnh giác kiểm tra lại. Điều này có thể khiến một số thông tin sai lệch len lỏi vào kho tri thức theo những cách phức tạp tôi chưa rõ.
  4. Có vẻ ChatGPT đang dùng kho dữ liệu riêng để tăng tốc độ xử lý hoặc chưa sử dụng được tức thời các công cụ của Google hoặc Wikipedia v.v. cho nên câu trả lời còn hay sai về chi tiết, chẳng hạn trong lĩnh vực địa lý và dân tộc học.
  5. Văn phong tiếng Việt của nó khá ổn tuy đôi khi ngô nghê. Nếu ta dùng một số từ ngữ tiếng Việt ít phổ biến, quá mới hoặc đã cũ và gài vào trong câu hỏi thì nó dễ trả lời sai, trong trường hợp tốt hơn thì nó xin ta bổ sung thông tin.
  6. Nhưng nếu ta dùng tiếng Anh để hỏi nó thì nội dung, cú pháp và ngữ nghĩa trong câu trả lời thường tốt. Rõ ràng kho dữ liệu tiếng Anh của nó rất phong phú và được cập nhật mới mẻ hơn. (Theo OpenAI là có 175 tỷ tham số).
  7. ChatGPT không thể trả lời kèm theo các đoạn thông tin hấp dẫn dưới dạng video, âm thanh hay hình ảnh như phần mềm Dall-E 2 (cũng của OpenAI), hiện nay nó có khả năng hiểu khá sâu về các văn bản trong cả hai dạng ngôn ngữ nói và ngôn ngữ viết.
  8. Nó có khả năng viết các email lừa đảo, hoặc các đoạn mã chương trình máy tính, thậm chí một phần mềm hoàn chỉnh và cả loại mã độc. Nhưng người thật cũng có thể hành xử như vậy. Vấn đề là chủ đầu tư và lập trình viên phải biết sử dụng trí tuệ nhân tạo chỉ để làm cho nó trở nên hiệu quả chứ không làm hại người khác.
  9. Trong một số trường hợp câu trả lời của nó có thể giúp người thật vi phạm luật pháp hoặc lách luật. Điều này càng đòi hỏi các nhà làm luật phải thích ứng nhanh chóng, tạo ra những điều luật cụ thể và chi tiết hơn.
  10. Ví dụ mới đây Sở Giáo dục thành phố New York đã quyết định cấm sử dụng công cụ ChatGPT trên tất cả các thiết bị và mạng máy tính tại các trường công lập ở New York với hai lý do chính được nêu ra. Đầu tiên, mô hình trò chuyện đã được chứng minh là hay mắc lỗi và không phải lúc nào cũng chính xác. Thứ hai, thực sự có những sinh viên đã nhờ ChatGPT viết bài thay cho họ, có thể tạo ra nguy cơ và thói quen đạo văn.
  11. Ngược lại, một số chuyên gia về giáo dục đã phản biện rằng phần mềm này hoàn toàn có thể giúp tăng cường việc học tập nhanh chóng và có hiệu quả. Ngoài việc biết lập trình theo yêu cầu của người sử dụng, nó còn giúp họ giảng dạy, làm thơ, sản xuất câu đố, viết văn gây cười hoặc triết lý nghiêm túc, v.v..
  12. Tuy vậy phiên bản lưu hành hiện tại của ChatGPT rất hay tránh né các vấn đề nhạy cảm, nhất là khi liên quan đến giới tính, tình dục, bạo lực, hoặc đạo đức, tôn giáo, chủng tộc, chính quyền, thời sự chính trị, v.v..
  13. Có lẽ sau những phản ứng rất mạnh mẽ của công chúng về cung cách trả lời thiếu tế nhị hoặc thậm chí thiếu đạo lý khoan dung, có thành kiến về chủng tộc, tôn giáo hoặc giới tính... của phiên bản đầu tiên thì công ty OpenAI đã cho bộ lọc “kiểm duyệt” mạnh mẽ hơn khi phân tích câu hỏi.
  14. (Theo tôi bởi vì nó là “máy học” và các thầy giáo của nó có thể là người thật nhưng kém tế nhị hoặc thiếu hiểu biết về những nền văn hoá khác văn hoá của họ. Mặt khác cần hiểu rằng cá nhân mỗi người có thể có quyền suy nghĩ riêng về đạo đức, niềm tin, quan điểm của mình, nhưng trong bất kỳ xã hội nào cũng tồn tại các chuẩn mực chung và quy tắc bất thành văn về những hành vi phù hợp và không phù hợp mà ta nên tuân theo khi giao tiếp).
  15. Đã có nhiều cư dân mạng than phiền rằng AI dần dà thực hiện vai trò thay người thật và tạo ra sự gia tăng nạn thất nghiệp, thậm chí đe dọa xoá sổ một số ngành nghề khác. Ví dụ từ năm 2020, Microsoft đã bắt đầu loại bỏ dần các nhân viên để thay bằng các trợ lý ảo. Công cụ AI tiên tiến ChatGPT nay lại càng có thể thúc đẩy tình trạng này đi xa hơn một bước.
  16. Một trong các câu trả lời có tính chất rào đón và thanh minh của ChatGPT là: "As a language model trained by OpenAI, I am not capable of forming opinions or making judgments about humans or any other aspect of the world. My purpose is to assist users in generating human-like text based on the input provided to me. I do not have personal beliefs or opinions, and any responses I provide are based solely on the information available to me at the time of the request." (Tạm dịch: Vốn là một mô hình ngôn ngữ do OpenAI huấn luyện, tôi không có khả năng hình thành quan điểm hoặc đưa ra đánh giá về con người hoặc bất kỳ khía cạnh nào khác của thế giới. Mục đích của tôi là hỗ trợ người dùng tạo ra văn bản giống như của con người dựa trên thông tin đầu vào được cung cấp cho tôi. Tôi không có niềm tin hay quan điểm cá nhân nào và bất kỳ câu trả lời nào do tôi cung cấp cũng chỉ dựa trên thông tin sẵn có cho tôi tại thời điểm yêu cầu.).

Nguyễn Chí Công
(xem phần trước)