Các nhà nghiên cứu của Facebook sử dụng toán học để dịch tốt hơn

Facebook thuật toán mới

Facebook thuật toán mới

Các nhà thiết kế các công cụ dịch máy vẫn chủ yếu dựa vào từ điển để làm cho một ngôn ngữ nước ngoài trở nên dễ hiểu.
Nhưng bây giờ có một cách mới: số.

Các nhà nghiên cứu của Facebook cho biết việc biến các từ thành hình và khai thác sự tương đồng toán học giữa các ngôn ngữ là một con đường đầy hứa hẹn – ngay cả khi một người giao tiếp phổ quát, la Star Trek vẫn là một giấc mơ xa vời.
Dịch tự động mạnh mẽ là một ưu tiên lớn cho các đại gia internet. Cho phép càng nhiều người càng tốt trên toàn thế giới để giao tiếp không chỉ là mục tiêu vị tha, mà còn là việc kinh doanh tốt.
Facebook, Google và Microsoft cũng như Yandex của Nga, Trung Quốc và những người khác không ngừng tìm cách cải thiện các công cụ dịch thuật của họ.
Facebook có các chuyên gia trí tuệ nhân tạo trong công việc tại một trong những phòng thí nghiệm nghiên cứu của mình ở Paris.
Có tới 200 ngôn ngữ hiện đang được sử dụng trên Facebook, Antoine Bordes, đồng giám đốc nghiên cứu AI cơ bản của mạng xã hội cho biết.
Dịch tự động hiện đang dựa trên việc có cơ sở dữ liệu lớn các văn bản giống hệt nhau ở cả hai ngôn ngữ để làm việc. Nhưng đối với nhiều cặp ngôn ngữ thì không có đủ các văn bản song song như vậy.
Đó là lý do tại sao các nhà nghiên cứu đã tìm kiếm một phương pháp khác, như hệ thống do Facebook phát triển, tạo ra một biểu diễn toán học cho các từ.
Mỗi từ trở thành một “vectơ” trong một không gian vài trăm chiều. Các từ có liên kết chặt chẽ trong ngôn ngữ nói cũng thấy chúng gần nhau trong không gian vectơ này.
– Từ xứ Basque đến vùng Amazon? –
“Ví dụ, nếu bạn lấy các từ ‘mèo’ và ‘chó’, về mặt ngữ nghĩa, chúng là những từ mô tả một điều tương tự, vì vậy chúng sẽ cực kỳ gần nhau về mặt vật lý” trong không gian vectơ, Guillaume Lample, một trong những hệ thống cho biết nhà thiết kế.
“Nếu bạn lấy những từ như Madrid, London, Paris, những thành phố thủ đô của châu Âu, thì đó là ý tưởng tương tự.”
Các bản đồ ngôn ngữ này sau đó có thể được liên kết với nhau bằng thuật toán – lúc đầu đại khái, nhưng cuối cùng trở nên tinh tế hơn, cho đến khi toàn bộ cụm từ có thể được khớp mà không có quá nhiều lỗi.
Lample cho biết kết quả đã hứa hẹn.
Đối với cặp ngôn ngữ tiếng Anh-Rumani, hệ thống dịch máy hiện tại của Facebook là “bằng hoặc có thể tệ hơn một chút” so với hệ thống vectơ từ, Lample nói.
Nhưng đối với cặp ngôn ngữ hiếm hơn tiếng Anh-Urdu, nơi hệ thống truyền thống của Facebook không có nhiều văn bản song ngữ để tham khảo, hệ thống vectơ từ đã vượt trội hơn, ông nói.
Nhưng phương pháp này có thể cho phép dịch từ tiếng Basque sang ngôn ngữ của một bộ lạc vùng Amazon không?
Về lý thuyết, vâng, Lample nói, nhưng trong thực tế, cần có một khối lượng lớn các văn bản bằng văn bản để lập bản đồ ngôn ngữ, một thứ thiếu trong các ngôn ngữ của bộ lạc vùng Amazon.
“Nếu bạn chỉ có hàng chục ngàn cụm từ, nó sẽ không hoạt động. Bạn cần vài trăm nghìn cụm từ”, ông nói.
– ‘Chen Thanh’ –
Các chuyên gia tại trung tâm khoa học quốc gia CNRS của Pháp cho biết phương pháp mà Lample đã thực hiện cho Facebook có thể tạo ra kết quả hữu ích, ngay cả khi nó không mang lại kết quả hoàn hảo.
Thierry Poibeau thuộc phòng thí nghiệm Lattice của CNRS, cũng nghiên cứu về dịch máy, gọi phương pháp vectơ từ là “một cuộc cách mạng khái niệm”.
Ông nói “dịch mà không có dữ liệu song song” – từ điển hoặc phiên bản của cùng một tài liệu bằng cả hai ngôn ngữ – “là một cái gì đó của Chén Thánh” của bản dịch máy.
“Nhưng câu hỏi là mức độ hiệu suất có thể được mong đợi” từ phương pháp vectơ từ, Poibeau nói.
Phương pháp “có thể đưa ra ý tưởng về văn bản gốc” nhưng khả năng dịch thuật tốt mỗi lần vẫn chưa được chứng minh.
Francois Yvon, một nhà nghiên cứu tại Phòng thí nghiệm Khoa học Máy tính cho Khoa học Cơ khí và Kỹ thuật của CNRS, cho biết “việc liên kết các ngôn ngữ khó khăn hơn nhiều” khi chúng cách xa nhau.
“Cách biểu thị các khái niệm trong tiếng Trung hoàn toàn khác với tiếng Pháp”, ông nói thêm.
Tuy nhiên, ngay cả những bản dịch không hoàn hảo cũng có thể hữu ích, Yvon nói và có thể chứng minh đủ để theo dõi ngôn từ kích động thù địch, một ưu tiên chính của Facebook.

Share
  • 124
    Shares

Hãy bình luận đầu tiên

Để lại một phản hồi

Thư điện tử của bạn sẽ không được hiện thị công khai.


*