Home Thế giới Facebook phát triển hệ thống dịch cho 100 ngôn ngữ khác nhau

Facebook phát triển hệ thống dịch cho 100 ngôn ngữ khác nhau

by Phạm Thư




Facebook has developed the first machine learning model that can translate between any two of 100 languages without going into English first.

Facebook đã phát triển một mô hình học máy có thể dịch giữa 2 trong số 100 ngôn ngữ mà không cần dịch sang tiếng Anh trước đó.

Facebook says the new multilingual machine translation model was created to help its more than two billion users worldwide. The company is still testing the translation system – which it calls M2M-100 – and hopes to add it to different products in the future.

Facebook cho biết mô hình máy dịch đa ngôn ngữ này được tạo ra nhằm hỗ trợ hơn 2 tỷ người dùng của mình trên toàn thế giới. Công ty vẫn đang thử nghiệm hệ thống dịch – có tên gọi là M2M-100 – và mong rằng có thể thêm hệ thống này vào các sản phẩm của công ty trong thời gian tới.

The social media service says it has made the system open source — meaning its computer code will be freely available for others to copy or change.

Dịch vụ truyền thông xã hội này cho biết mình đã chuyển đổi hệ thống này thành nguồn mở – có nghĩa rằng mã code của hệ thống sẽ xuất hiện miễn phí cho việc sao chép và thay đổi.

Angela Fan, a research assistant at Facebook, explained the new machine translation model this week on one of the company’s websites. She said its development represented a “milestone” in progress after years of “foundational work in machine translation.”

Angela Fan, một trợ lý nghiên cứu tại Facebook, phân tích về mô hình máy dịch này trong tuần nay trên một trong số các website của công ty. Bà cho biết sự phát triển của công ty cho thấy một “cột mốc” trong quá trình mà sau hàng nhiều năm làm việc với “nền tảng của dự án máy dịch.”

Fan said the model produces better results than other machine learning systems that depend on English to help in the translation process. The other systems use it as an intermediate step — like a bridge — to translate between two non-English languages.

Fan cho biết mô hình này cho ra kết quả chuẩn xác hơn các hệ thống máy học khác dựa dẫm vào tiếng Anh để hỗ trợ cho quá trình dịch. Các hệ thống khác sử dụng tiếng Anh với vai trò là một bước trung gian – như một cây cầu – để dịch gữa hai thứ tiếng không phải là tiếng Anh.

One example would be a translation from Chinese to French. Fan noted that many machine translation models begin by translating from Chinese to English first, and then from English to French. This is done “because English training data is the most widely available,” she said. But such a method can lead to mistakes in translation.

Có thể kể đến ví dụ như dịch từ tiếng Trung sang tiếng Pháp. Fan nhấn mạnh rằng nhiều mô hình máy dịch bắt đầu bằng cách dịch tiếng Trung sang tiếng Anh trước, sau đó từ tiếng Anh sang tiếng Pháp. Theo bà, điều này là bởi “dữ liệu đào tạo tiếng Anh thường có sẵn phổ biến nhất.” Nhưng cách thức như vậy có thể dẫn đến những sai sót trong việc dịch.

“Our model directly trains on Chinese to French data to better preserve meaning,” Fan said. Facebook said the system outperformed English-centered systems in a widely used system that uses data to measure the quality of machine translations.

“Mô hình của chúng tôi chuyển dữ liệu tiếng Trung sang tiếng Pháp một cách trực tiếp để giữ lại nghĩa tốt hơn,” Fan cho biết. Facebook chia sẻ rằng hệ thống này vượt trội hơn các hệ thống lấy trung tâm là tiếng Anh thông qua một hệ thống đã thường được sử dụng để lấy dữ liệu đánh giá chất lượng của các bản dịch máy.

Facebook says about two-thirds of its users communicate in a language other than English. The company already carries out an average of 20 billion translations every day on Facebook’s News Feed. But it faces a huge test with many users publishing massive amounts of content in more than 160 languages.

Facebook cho biết khoảng 2/3 số người dùng giao tiếp bằng ngôn ngữ không phải là tiếng Anh. Công ty đã thực hiện trung bình 20 tỷ bản dịch hàng ngày trên News Feed của Facebook. Nhưng công ty sẽ phải đối mặt với một cuộc thử nghiệm lớn với nhiều người dùng đăng tải một lượng nội dung khổng lồ trong hơn 160 ngôn ngữ khác nhau.

The development team trained, or directed, the new model on a data set of 7.5 billion sentence pairs for 100 languages. In addition, the system was trained on a total of 2,200 language directions. Facebook said this is 10 times the number on the best machine translation models in the past.

Nhóm phát triển đã huấn luyện, hay chỉ đạo, mô hình mới dựa trên kho dữ liệu 7.5 triệu câu tương ứng với 100 ngôn ngữ. Bên cạnh đó, hệ thống đã được đào tạo trên tổng cộng 2,200 câu lệnh ngôn ngữ. Facebook cho biết con số này gấp 10 lần các mẫu máy dịch tốt nhất trong quá khứ.

One difficulty the team faced was trying to develop an effective machine translation system for language combinations that are not widely used. Facebook calls these “low-resource languages.” The data used to create the new model was collected from content available on the internet. But there is limited internet data on low-resource languages.

Một khó khăn mà nhóm phải đối mặt là phát triển hệ thống máy dịch hiệu quả cho các sự kết hợp ngôn ngữ mà không thường được sử dụng. Facebook gọ đó là “các ngôn ngữ tài nguyên thấp.” Dữ liệu sử dụng để tạo ra một hệ thống mới này được thu thập từ nội dung có trên internet. Nhưng số lượng dữ liệu internet của ngôn ngữ tài nguyên thấp này là hạn chế.

To deal with this problem, Facebook said it used a method called back-translation. This method can create “synthetic translations” to increase the amount of data used to train on low-resource languages.

Để giải quyết vấn đề này, Facebook cho biết mình sử dụng một phương pháp gọi là dịch sau. Phương pháp này có thể tạo ra những lời “dịch tổng hợp” để tăng lượng dữ liệu sử dụng để huấn luyện các ngôn ngữ tài nguyên thấp.

For now, the company says, it plans to continue exploring new language research methods while working to improve the new model. No date has been set for launching the translation system on Facebook.

Theo công ty, cho đến nay, công ty đã lên kế hoạch tiếp tục khám phá thêm các phương thức nghiên cứu ngôn ngữ mới trong khi tiếp tục nghiên cứu mô hình mới. Chưa có ngày ra mắt hệ thống dịch trên Facebook.

But Angela Fan said the new system marks an important step for Facebook, especially for the times we live in. “Breaking language barriers through machine language translation is one of the most important ways to bring people together, provide authoritative information on COVID-19, and keep them safe from harmful content,” she said.

Angela cho biết hệ thống mới đánh dấu một bước quan trọng đối với Facebook, đặc biệt trong thời đại chúng ta đang sinh sống. “Phá bỏ các rào cản ngôn ngữ dựa trên máy dịch ngôn ngữ là một trong số các cách quan trọng nhất để đem mọi người lại gần nhau, cung cấp các thông tin chính xác về COVID-19, và giúp mọi người tránh khỏi các nội dung có hại,” bà cho biết.

Nguồn: VOA

machine learning /məˌʃiːn ˈlɜː.nɪŋ/ – n. máy học

Ex: His research helped shape the field of machine learning, bringing computers closer to the realm of human thought. – Nghiên cứu của ông đã giúp định hình lĩnh vực máy học, đem máy tính tới gần hơn với cảnh giới tư tưởng của con người.

multilingual /ˌmʌl.tiˈlɪŋ.ɡwəl/ – adj. đa ngôn ngữ

Ex: They are extremely interested in supporting a multilingual presence of the site. – Họ đang cực kỳ hứng thú với việc thúc đẩy phiên bản đa ngôn ngữ của trang web.

represent  /ˌrep.rɪˈzent/ – v. đại diện, thay mặt cho

Ex: They chose a famous barrister to represent them in court. – Họ đã chọn một vị luật sư nổi tiếng để đại diện cho họ trước tòa.

intermediate /ˌɪn.təˈmiː.di.ət/ – adj. trung gian, trung bình

Ex: There are three levels of difficulty in this game: low, intermediate, and high. – Có 3 mức khó trong trò chơi này: thấp, trung bình và cao.

preserve /prɪˈzɜːv/ – v. bảo quản, giữ gìn, bảo tồn

Ex: We want to preserve the character of the town while improving the facilities. – Chúng tôi muốn bảo tồn nét đặc trưng của thị trấn trong khi cải thiện cơ sở vật chất.

authoritative /ɔːˈθɒr.ɪ.tə.tɪv/ – adj. có tính chính xác và hoàn thiện (thông tin)

Ex: The book is an authoritative account of the Second World War. – Cuốn sách là một bản tường thuật chính xác của Chiến tranh Thế giới II.

launch /lɔːntʃ/ – v. ra mắt, phát hành

Ex: The programme was launched a year ago. – Chương trình này đã được phát hành một năm trước.

foundational /faʊnˈdeɪ.ʃən.əl/ – adj. mang tính nền tảng

Ex: This set of results modifies the assertion that oral language is foundational to early reading. – Bộ kết quả này đã thay đổi khẳng định rằng ngôn ngữ nói là nền tảng cho khả năng đọc sớm.

massive /ˈmæs.ɪv/ – adj. lớn, khổng lồ

Ex: She died after taking a massive overdose of drugs. – Cô ấy qua đời sau khi dùng một lượng quá liều ma túy.

Luyện Tập+

You may also like

Leave a Comment