2025-07-08 Top Stories

2025-07-08 Top Stories #

  1. Bitchat: Một ứng dụng nhắn tin Bluetooth an toàn, phi tập trung, sử dụng mạng lưới Bluetooth để giao tiếp ngang hàng, không cần Internet hoặc số điện thoại, hỗ trợ mã hóa đầu cuối và bảo vệ quyền riêng tư.
  2. Chức năng lỗi ChatGPT: Soundslice đã phát triển chức năng nhập tab guitar ASCII do thông tin sai lệch từ ChatGPT, phản ánh những tác động thực tế mà AI tạo sinh có thể gây ra.
  3. Bộ lọc an toàn mô hình của Apple: Giải mã bộ lọc an toàn của mô hình thông minh Apple, tiết lộ cơ chế kiểm duyệt nội dung và một số tổ hợp lọc thú vị.
  4. Cá tính và nhãn mác: Trong xã hội hiện đại, cá tính bị thay thế bằng các nhãn chẩn đoán tâm lý, dẫn đến việc mọi người trở thành “sản phẩm y tế hóa”.
  5. Apple Lisa Web OS: Một hệ điều hành web dựa trên giao diện người dùng Apple Lisa, được viết hoàn toàn bằng JavaScript thuần túy, tái hiện lại giao diện cổ điển.
  6. LLM phi nhân hóa: Thảo luận về góc nhìn phi nhân hóa của các mô hình ngôn ngữ lớn, nhấn mạnh rằng chúng là các công cụ toán học phức tạp chứ không phải là các thực thể nhân hóa.
  7. Tranh cãi về bản quyền của Anthropic: Anthropic bị kiện vì sử dụng trái phép quy mô lớn các cuốn sách có bản quyền để huấn luyện mô hình AI, thẩm phán phán quyết rằng việc sử dụng hợp lý sách có bản quyền là hợp pháp nhưng hành vi vi phạm bản quyền là không được chấp nhận.
  8. Mô hình khuếch tán Mercury: Mercury là một mô hình ngôn ngữ siêu nhanh dựa trên khuếch tán, hoạt động xuất sắc trong các tác vụ lập trình, với tốc độ vượt xa các mô hình tiên tiến.
  9. Quan điểm phát triển AGI: Tác giả cho rằng trí tuệ nhân tạo tổng quát (AGI) sẽ không sớm xuất hiện, chủ yếu là do nó thiếu khả năng học hỏi liên tục như con người.
  10. Tiếng Anh không có dấu trọng âm: Lý do tiếng Anh không sử dụng dấu trọng âm có thể bắt nguồn từ sự phát triển của ngôn ngữ sau cuộc chinh phục của người Norman, hình thành nên một hệ thống chính tả độc đáo.

Bitchat – Một ứng dụng nhắn tin phi tập trung hoạt động trên mạng lưới mesh Bluetooth #

Bitchat – A decentralized messaging app that works over Bluetooth mesh networks

https://github.com/jackjackbits/bitchat

Trang web này giới thiệu về một dự án có tên là “bitchat”, một ứng dụng liên lạc ngang hàng (peer-to-peer) an toàn, phi tập trung, hoạt động thông qua mạng lưới Bluetooth. Không cần kết nối Internet, máy chủ hoặc số điện thoại, chỉ cung cấp liên lạc được mã hóa hoàn toàn.

E0HWb2Fl8owhMUxPMBncNyQznhg.png

Đặc điểm dự án:

  1. Mạng lưới phi tập trung: Tự động khám phá các thiết bị ngang hàng thông qua Bluetooth LE và chuyển tiếp tin nhắn đa chặng.
  2. Mã hóa đầu cuối: Sử dụng trao đổi khóa X25519 và mã hóa AES-256-GCM cho tin nhắn riêng tư.
  3. Trò chuyện dựa trên phòng: Nhắn tin nhóm dựa trên chủ đề, có tùy chọn bảo vệ bằng mật khẩu.
  4. Lưu trữ và chuyển tiếp: Lưu trữ tin nhắn cho các thiết bị ngang hàng ngoại tuyến và chuyển chúng khi họ kết nối lại.
  5. Ưu tiên quyền riêng tư: Không cần tài khoản, số điện thoại hoặc định danh cố định.
  6. Lệnh kiểu IRC: Giao diện quen thuộc theo kiểu /join, /msg, /who.
  7. Lưu giữ tin nhắn: Tùy chọn lưu tin nhắn ở cấp phòng do chủ sở hữu phòng kiểm soát.
  8. Ứng dụng đa năng: Hỗ trợ gốc cho iOS và macOS.
  9. Che giấu lưu lượng: Xáo trộn thời gian và tin nhắn ảo để tăng cường quyền riêng tư.
  10. Xóa khẩn cấp: Nhấn ba lần để xóa ngay lập tức tất cả dữ liệu.
  11. Tối ưu hóa hiệu suất: Nén tin nhắn LZ4, chế độ pin thích ứng và mạng được tối ưu hóa.

Thiết lập:

  1. Sử dụng XcodeGen (khuyến nghị): Cài đặt XcodeGen, tạo dự án Xcode, mở dự án đã tạo.
  2. Sử dụng Swift Package Manager: Mở dự án trong Xcode, chọn thiết bị đích và chạy.
  3. Dự án Xcode thủ công: Tạo ứng dụng iOS/macOS mới trong Xcode, sao chép tất cả các tệp Swift, cập nhật Info.plist để thêm quyền Bluetooth, đặt mục tiêu triển khai thành iOS 16.0/macOS 13.0.

Sử dụng:

  • Lệnh cơ bản: Bao gồm tham gia hoặc tạo phòng, gửi tin nhắn riêng tư, liệt kê người dùng trực tuyến, hiển thị tất cả các phòng đã khám phá, xóa tin nhắn trò chuyện, đặt/thay đổi mật khẩu phòng (chỉ dành cho chủ sở hữu), chuyển quyền sở hữu phòng, chuyển đổi lưu giữ tin nhắn.
  • Khởi động bitchat, đặt biệt danh, tự động kết nối với các thiết bị ngang hàng lân cận, tham gia phòng thông qua /j #general hoặc bắt đầu trò chuyện công khai, tin nhắn được chuyển tiếp qua mạng lưới đến các thiết bị ngang hàng ở xa.

Tính năng phòng:

  • Bảo vệ bằng mật khẩu: Chủ sở hữu phòng có thể đặt mật khẩu.
  • Lưu giữ tin nhắn: Chủ sở hữu có thể bật tính năng lưu tin nhắn bắt buộc.
  • @ Đề cập: Sử dụng @ biệt danh để đề cập đến người dùng (có tự động hoàn thành).
  • Chuyển quyền sở hữu: Chuyển quyền kiểm soát cho người dùng đáng tin cậy.

Bảo mật và quyền riêng tư:

  • Mã hóa: Tin nhắn riêng tư sử dụng trao đổi khóa X25519 + mã hóa AES-256-GCM, tin nhắn phòng sử dụng Argon2id password derivation + AES-256-GCM, chữ ký số sử dụng Ed25519 đảm bảo tính xác thực của tin nhắn, mỗi phiên tạo một cặp khóa mới để đạt được forward secrecy.
  • Tính năng bảo mật: Không cần đăng ký, tin nhắn chỉ tồn tại trong bộ nhớ thiết bị, độ trễ ngẫu nhiên và tin nhắn ảo ngăn chặn phân tích lưu lượng, nhấn ba lần vào logo để xóa ngay lập tức tất cả dữ liệu, hoạt động hoàn toàn ngoại tuyến, không cần máy chủ.

Hiệu suất và hiệu quả:

  • Nén tin nhắn: Nén LZ4 tự động nén các tin nhắn lớn hơn 100 byte, tiết kiệm 30-70% băng thông.
  • Tối ưu hóa pin: Tự động điều chỉnh theo mức pin, bao gồm chế độ hiệu suất, chế độ cân bằng, chế độ tiết kiệm năng lượng và chế độ siêu tiết kiệm năng lượng.
  • Hiệu quả mạng: Bộ lọc Bloom được tối ưu hóa để nhanh chóng phát hiện các tin nhắn trùng lặp, tổng hợp tin nhắn giúp giảm truyền tải, giới hạn kết nối thích ứng điều chỉnh kết nối ngang hàng theo chế độ nguồn.

Kiến trúc kỹ thuật:

  • Giao thức nhị phân: bitchat sử dụng giao thức nhị phân hiệu quả để liên lạc.

HN | Độ nóng: 659 điểm | 303 bình luận | Tác giả: ananddtyagi #

https://news.ycombinator.com/item?id=44485342

  • Có người đề xuất một khái niệm về hệ thống nhắn tin chịu lỗi độ trễ phi tập trung, tương tự như “Tìm mạng của tôi” của Apple, truyền tin nhắn thông qua các bước nhảy giữa các thiết bị, chẳng hạn như Bluetooth, UWB, Wi-Fi Direct, v.v., không cần kết nối Internet truyền thống.
  • Người gửi cần trả một khoản phí nhỏ để gửi tin nhắn, thiết bị chuyển tiếp kiếm được các khoản thanh toán vi mô bằng cách chuyển tiếp tin nhắn, toàn bộ hệ thống được mã hóa đầu cuối, hoàn toàn phi tập trung và có thể chọn ẩn danh.
  • Hệ thống này đặc biệt hữu ích ở những khu vực có vùng phủ sóng Internet kém hoặc bị kiểm duyệt, nhưng phải đối mặt với các vấn đề như độ trễ, độ tin cậy, ngăn chặn lạm dụng/spam, mức tiêu thụ điện năng và lựa chọn của người dùng.
  • Helium Network đã thử một mô hình tương tự, nhưng có các vấn đề như gian lận, cơ chế khuyến khích vượt quá chức năng mạng, dẫn đến việc dự án đi chệch khỏi mục đích ban đầu.
  • Có người đề xuất rằng cần có một loại tiền điện tử stablecoin chi phí thấp để hỗ trợ các trường hợp sử dụng này, nhưng hiện tại nhiều dự án chủ yếu tập trung vào việc phát hành token mới, dẫn đến việc đi chệch khỏi mục đích ban đầu.
  • Có người đặt câu hỏi về lợi thế của tiền điện tử so với đô la Mỹ và hệ thống ngân hàng truyền thống, cho rằng nó không có nhiều lợi thế ngoài việc vượt qua các quy định.
  • Tính không thể đảo ngược, khả năng xác minh công khai và tính ẩn danh giả của tiền điện tử là những lợi thế cho các ứng dụng chú trọng đến quyền riêng tư, nhưng một số người cũng bị thiệt hại vì điều này.
  • Có người cho rằng tiền mặt phù hợp hơn với nhu cầu về quyền riêng tư so với tiền điện tử, đề xuất một công nghệ có thể chuyển đổi tiền mặt ngay lập tức thành tiền trong tài khoản.
  • Có người đề cập rằng Monero là lựa chọn gần nhất với tiền kỹ thuật số riêng tư (ẩn danh) hiện nay.
  • Có người đề cập đến dự án Paygo.wtf đang phát triển một khái niệm tương tự và cung cấp các liên kết thông tin liên quan.
  • Có người cho rằng mạng Helium và đề xuất trên là cùng một mô hình, chỉ là tăng thêm thanh toán khi gửi.
  • Có người chỉ ra rằng hệ thống này không phù hợp ở những khu vực có vùng phủ sóng Internet kém, mà cần một khu vực có nhiều thiết bị tham gia để hoạt động hiệu quả.

Thêm một tính năng vì ChatGPT nghĩ sai rằng nó tồn tại #

Adding a feature because ChatGPT incorrectly thinks it exists

https://www.holovaty.com/writing/chatgpt-fake-feature/

Adrian Holovaty đã đăng một bài viết về Soundslice vào ngày 7 tháng 7 năm 2025. Soundslice là một công cụ số hóa bản nhạc trên ảnh, cho phép người dùng nghe, chỉnh sửa và luyện tập âm nhạc. Tác giả đề cập rằng họ đã liên tục cải tiến hệ thống này và theo dõi nhật ký lỗi để xem những hình ảnh nào được quét không tốt.

Trong vài tháng qua, tác giả nhận thấy một loại tải lên kỳ lạ trong nhật ký lỗi. Họ bắt đầu thấy những hình ảnh như thế này:

JOK8brlgkoYs8fxAiyIcL37SnMe.png

Những hình ảnh này thực chất là ảnh chụp màn hình các phiên ChatGPT, chứ không phải ký hiệu âm nhạc. Đây là tab guitar ASCII, một cách ký âm rất cơ bản cho guitar.

Hệ thống quét của Soundslice ban đầu không hỗ trợ loại ký âm này. Vậy tại sao họ lại bị “dội bom” bởi rất nhiều ảnh chụp màn hình tab guitar ASCII của ChatGPT như vậy? Tác giả đã bối rối trong vài tuần, hóa ra, ChatGPT đã bảo mọi người tạo tài khoản Soundslice và nhập tab guitar ASCII để nghe lại âm thanh. Đó là lý do!

Vấn đề là, Soundslice không có tính năng này. Họ chưa bao giờ hỗ trợ tab guitar ASCII; ChatGPT đã trắng trợn nói dối mọi người. Điều này còn tạo ra những kỳ vọng sai lệch về dịch vụ của Soundslice, gây tổn hại đến danh tiếng của họ.

Điều này đặt ra một vấn đề sản phẩm thú vị. Họ nên làm gì? Họ có một nhóm người dùng mới được thông báo thông tin sai lệch về sản phẩm của họ. Họ có nên dán đầy các tuyên bố từ chối trách nhiệm lên sản phẩm, nói rằng “Bỏ qua những tuyên bố của ChatGPT về hỗ trợ tab guitar ASCII” không?

Cuối cùng họ đã quyết định: Tại sao không đáp ứng nhu cầu thị trường? Vì vậy, họ đã phát triển một trình nhập tab guitar ASCII tùy chỉnh (điều này gần như đứng cuối danh sách “phần mềm dự kiến viết năm 2025” của tôi). Họ cũng đã thay đổi văn bản UI của hệ thống quét, thông báo cho mọi người về tính năng mới này.

Theo như tác giả biết, đây là công ty đầu tiên phát triển một tính năng vì ChatGPT đã sai lầm nói với mọi người rằng nó tồn tại. (Đúng không?) Anh ấy chia sẻ câu chuyện này vì anh ấy nghĩ nó hơi thú vị.

Cảm xúc của tác giả về điều này rất phức tạp. Anh ấy rất vui khi có thể thêm một công cụ giúp đỡ mọi người. Nhưng anh ấy cảm thấy họ đã bị buộc phải đưa ra quyết định này một cách kỳ lạ. Họ có thực sự nên phát triển các tính năng dựa trên thông tin sai lệch không?


HN | Độ nóng: 619 điểm | 233 bình luận | Tác giả: adrianh #

https://news.ycombinator.com/item?id=44491071

  • Mọi người hiểu lầm lý do thêm các tính năng mới từ ảo giác công nghệ, kỹ thuật sai lầm khi cho rằng một tính năng không tồn tại lại tồn tại.
  • AI tạo sinh nói với mọi người rằng một tính năng không tồn tại lại tồn tại, đó là vấn đề và cần đảm bảo không xảy ra nữa.
  • Khi sử dụng GPT-4 để lập trình, bằng cách để AI đoán cách API hoạt động, đôi khi có thể khám phá ra những phương pháp tốt hơn so với phương pháp ban đầu của tôi.
  • Mạng nơ-ron không giỏi cung cấp thông tin chính xác, mà giỏi tạo ra những “ảo giác” có độ tin cậy cao, tức là sáng tạo chứ không phải logic.
  • AI có thể giúp đảm bảo API dễ đoán và dễ hiểu, điều này rất có giá trị.
  • Các ứng dụng AI loại bỏ hoàn toàn yếu tố con người hầu như luôn dẫn đến kết quả thảm khốc.
  • Các nhà phát triển/nhà nghiên cứu thường mất kiểm soát đối với công nghệ mà họ phát triển, một khi dự án hoàn thành.
  • Có thể cần viết giấy phép nguồn mở nghiêm ngặt hơn để kiểm soát việc lạm dụng công nghệ.
  • Nhỏ thuốc nhỏ mắt để dập tắt đám cháy rừng là không đủ, nên dự trữ đủ thức ăn và nước uống, đồng thời cố gắng thuyết phục AI rằng bạn không gây ra mối đe dọa.
  • Thuyết phục AI rằng bạn toàn năng, khiến nó sợ hãi và tôn thờ bạn có thể là một phương pháp khả thi hơn.
  • Microsoft Word đã có trình kiểm tra phong cách câu bị động từ nhiều thập kỷ trước.
  • Câu bị động thường làm tăng độ dài, cản trở sự trôi chảy và giảm thông tin hữu ích.
  • Đôi khi chúng ta thực sự cần nhấn mạnh hành động hơn là người thực hiện hành động, đặc biệt là trong văn bản kỹ thuật.
  • Câu chủ động và câu bị động đều có những trường hợp sử dụng phù hợp, nhưng thường được khuyên nên tránh sử dụng câu bị động.
  • Câu bị động có thể tốt hơn trong một số trường hợp, chẳng hạn như khi thông tin rõ ràng, không quan trọng hoặc cố ý không tiết lộ.

Tôi đã trích xuất các bộ lọc an toàn từ các mô hình Apple Intelligence #

I extracted the safety filters from Apple Intelligence models

https://github.com/BlueFalconHD/apple_generative_model_safety_decrypted

Trang web này là trang GitHub về dự án “apple_generative_model_safety_decrypted”, dự án này chứa các tệp an toàn của mô hình tạo sinh thông minh đã được giải mã của Apple, cụ thể bao gồm các bộ lọc.

Giới thiệu dự án: Dự án này cung cấp các tệp an toàn của mô hình tạo sinh thông minh đã được giải mã của Apple, các tệp này chứa các tệp ghi đè đã được giải mã của nhiều mô hình khác nhau. Cấu trúc dự án bao gồm thư mục decrypted_overrides/, chứa các tệp ghi đè đã được giải mã của nhiều mô hình khác nhau; thư mục com.apple.*/, được đặt tên bằng mã định danh tài nguyên liên quan đến thông tin an toàn; tệp Info.plist, chứa siêu dữ liệu của các ghi đè; thư mục AssetData/, chứa các tệp JSON đã được giải mã; thư mục combined_metadata/, chứa các tệp siêu dữ liệu đã được hợp nhất và loại bỏ trùng lặp để dễ dàng xem xét; tệp global_metadata.json, chứa bộ lọc an toàn toàn cục cho tất cả các mô hình; các tệp region_*.jsonlocale_*.json, lần lượt chứa các bộ lọc an toàn cụ thể theo khu vực và ngôn ngữ.

Hướng dẫn sử dụng: Dự án cần thư viện cryptography của Python để chạy các tập lệnh giải mã, có thể cài đặt thông qua pip. Để lấy khóa mã hóa, cần gắn LLDB vào GenerativeExperiencesSafetyInferenceProvider, nên sử dụng LLDB của Xcode. Bằng cách tạo một phím tắt ảo sử dụng thao tác mô hình tạo sinh trong ứng dụng Phím tắt và chạy phím tắt đó, có thể gắn LLDB vào GenerativeExperiencesSafetyInferenceProvider. Chạy lệnh LLDB trong thư mục gốc của dự án, nhập tập lệnh get_key_lldb.py, sau đó tiếp tục tiến trình, LLDB sẽ in khóa mã hóa vào bảng điều khiển và lưu vào tệp ./key.bin.

Giải mã các tệp ghi đè: Chạy tập lệnh decrypt_overrides.py trong thư mục gốc của dự án để giải mã các tệp ghi đè, các tệp ghi đè đã giải mã sẽ được đặt trong thư mục decrypted_overrides. Bước này là cần thiết nếu các tệp ghi đè đã được cập nhật, nếu không, các tệp ghi đè đã giải mã hiện có trong dự án là mới nhất, tính đến ngày 28 tháng 6 năm 2025.

Hợp nhất các tệp siêu dữ liệu: Sau khi giải mã các tệp ghi đè, có thể chạy tập lệnh combine_metadata.py để tạo các tệp siêu dữ liệu đã được hợp nhất và loại bỏ trùng lặp. Tập lệnh này sẽ xử lý tất cả các tệp metadata.json trong thư mục decrypted_overrides, hợp nhất chúng theo khu vực/ngôn ngữ và tạo một tệp hợp nhất toàn cục, loại bỏ trùng lặp tất cả các mục và lưu kết quả vào thư mục combined_metadata/. Các tệp siêu dữ liệu đã hợp nhất cung cấp cách thuận tiện nhất để xem xét tất cả các bộ lọc an toàn, vì chúng loại bỏ các mục trùng lặp và cung cấp danh sách rõ ràng, tích hợp.


HN | Độ nóng: 504 điểm | 393 bình luận | Tác giả: BlueFalconHD #

https://news.ycombinator.com/item?id=44483485

  • Một số tổ hợp lọc rất kỳ lạ, việc tránh nội dung liên quan đến cái chết được đặt cùng với việc đảm bảo thương hiệu Apple được viết hoa đúng cách.
  • Không bao gồm từ “unalive”, cho thấy không ai thực sự quan tâm đến những gì mọi người thực sự đang nói.
  • Chủ nghĩa Thanh giáo của Mỹ là một ví dụ rõ ràng về hiện tượng này, các mô hình kiểm duyệt ở châu Á hoặc châu Âu ít hơn.
  • Điều này có thể liên quan nhiều hơn đến trách nhiệm pháp lý hơn là đạo đức.
  • Điều này cũng phản ánh một loại đạo đức nào đó.
  • Có thể không chỉ là trách nhiệm pháp lý, mà còn là ảnh hưởng của tin tức tiêu cực.
  • Kiểm duyệt không phải lúc nào cũng trực tiếp hoặc rõ ràng, tất cả chúng đều mang theo sự thiên vị của dữ liệu huấn luyện.
  • Các mô hình của Pháp không né tránh khi thảo luận về các chủ đề nhạy cảm như Chiến tranh Algérie, chủ nghĩa thực dân và chế độ Vichy.
  • Mô hình của Pháp có khả năng bị kiểm duyệt nhất khi thảo luận về các chủ đề liên quan đến Đức Quốc xã.
  • Kiểm duyệt các sự kiện cụ thể không tệ bằng việc kiểm duyệt tất cả các hành vi sai trái của chính phủ.

Chẳng ai còn có cá tính nữa: chúng ta là những sản phẩm với nhãn mác #

Nobody has a personality anymore: we are products with labels

https://www.freyaindia.co.uk/p/nobody-has-a-personality-anymore

Bài viết này khám phá hiện tượng tính cách và đặc điểm cá nhân bị thay thế bởi các nhãn chẩn đoán tâm lý trong xã hội hiện đại. Tác giả Freya India trong bài viết được xuất bản vào ngày 26 tháng 6 năm 2022 chỉ ra rằng ngôn ngữ và các cuộc thảo luận về mối quan hệ giữa chúng ta bị chi phối bởi diễn ngôn trị liệu, dẫn đến việc chúng ta mất đi vốn từ vựng để mô tả tính cách. Trong nền văn hóa này, mọi đặc điểm tính cách đều được coi là một vấn đề cần giải quyết, bất kỳ thói quen, sự lập dị hoặc cảm xúc mạnh mẽ nào quá nhân văn đều bị dán nhãn và giải thích. Xu hướng này tiếp tục mở rộng, cuối cùng dẫn đến việc không ai là bình thường.

Bài viết đề cập rằng, theo một cuộc khảo sát năm 2024, 72% các cô gái thuộc thế hệ Z nói rằng “thách thức về sức khỏe tâm thần là một phần quan trọng trong bản sắc của tôi”, trong khi chỉ có 27% nam giới thuộc thế hệ Baby Boomer có cùng quan điểm. Tác giả cho rằng đây là một phần của bản năng sâu sắc trong cuộc sống hiện đại để giải thích mọi thứ, cho dù đó là tâm lý học, khoa học hay thuyết tiến hóa, mọi đặc điểm của chúng ta đều được quy cho, phân loại và có thể được điều chỉnh. Chúng ta giao tiếp bằng các lý thuyết, khuôn khổ, hệ thống, cấu trúc, động lực, động cơ và cơ chế, nhưng trong quá trình này, chúng ta mất đi sự bí ẩn, sự lãng mạn và thậm chí mất đi cả bản thân.

Bài viết đề cập rằng chúng ta đã mất đi những cách cảm tính để mô tả con người. Bây giờ, nếu bạn luôn đến muộn, không phải vì bạn đãng trí một cách đáng yêu, cũng không phải vì bạn hay xao nhãng và thú vị, mà là vì ADHD (Attention Deficit Hyperactivity Disorder - Rối loạn tăng động giảm chú ý). Bạn nhút nhát và cúi đầu khi nói chuyện với mọi người, không phải vì bạn là con của mẹ bạn, không phải vì bạn dịu dàng, ngọt ngào và dễ đỏ mặt như bà ấy, mà là vì chứng tự kỷ. Bạn là bạn, không phải vì bạn có tâm hồn, mà là vì các triệu chứng và chẩn đoán của bạn; bạn không phải là sự pha trộn của tổ tiên hoặc một loạt các đặc điểm tò mò, mà là kết quả lâm sàng của dòng thời gian các sự kiện thời thơ ấu. Mô tả của gia đình bạn về bạn, đã bị y tế hóa. Những phần từng được viết trong lời thề nguyện hôn nhân, được đọc trong điếu văn, được hồi tưởng với nụ cười, giờ đây sống trong ghi chú của bác sĩ, đánh giá sức khỏe tâm thần và ứng dụng BetterHelp. Chúng ta không còn là con người, chúng ta đã là sản phẩm từ rất lâu rồi, đây là nhãn mác của chúng ta.

Bài viết cũng chỉ ra rằng chúng ta không thể nói về tính cách. Không còn người hào phóng, chỉ còn người làm hài lòng người khác. Không có người đàn ông hay phụ nữ nào bộc lộ cảm xúc thật, chỉ có người có kiểu gắn bó lo âu hoặc phụ thuộc cộng sinh. Không có người làm việc chăm chỉ, chỉ có người thành đạt quá mức do chấn thương, bất an, người tham vọng thần kinh. Chúng ta thậm chí còn phân loại mọi người mà không có sự đồng ý của họ. Bây giờ, người mẹ vụng về của chúng ta luôn mắc chứng ADHD chưa được chẩn đoán; người cha trầm lặng của chúng ta không nhận ra rằng họ mắc chứng tự kỷ; người ông khắc kỷ của chúng ta bị kìm nén về mặt cảm xúc. Chúng ta thậm chí còn sẵn sàng chẩn đoán cho người chết. Tác giả cho rằng đó là lý do tại sao mọi người phòng thủ trước những chẩn đoán này, rất khăng khăng rằng chúng giải thích mọi thứ. Họ đang cố gắng giữ lấy bản thân; mọi phần tính cách của họ đều nằm trong chính họ.

Bài viết tiếp tục chỉ ra rằng chúng ta mất đi không chỉ là những đặc điểm tính cách. Không có trải nghiệm, không có giai đoạn cuộc đời, không có điều kỳ diệu hay bí ẩn, chỉ có những manh mối về những gì có thể sai với chúng ta. Mọi thứ xảy ra đều có thể được giải thích; không có gì được miễn trừ. Chúng ta không thể chấp nhận rằng chúng ta yêu ai đó một cách điên cuồng và phi logic; không, cách khai sáng là nhìn thấu điều đó, đi sâu vào những gì thực sự đang xảy ra, tìm ra động cơ ẩn giấu. Người chúng ta yêu không là gì khác ngoài một phản ứng chấn thương. “Bạn không có sự say mê; bạn có vấn đề về sự gắn bó”. Có lẽ anh ấy khiến bạn nhớ đến một người chăm sóc ban đầu, người đã làm tổn thương bạn. Trên thực tế, không có cảm xúc; chỉ có hệ thần kinh bị rối loạn. Tất cả những trải nghiệm của con người chúng ta đều là bằng chứng, mục đích của cuộc sống chúng ta là ghép chúng lại với nhau một cách hoàn hảo. Đó là cách lành mạnh, các thế hệ trước đã bị tước đoạt một cách tàn nhẫn. Tác giả không còn chắc chắn có tin vào điều đó hay không. Liệu chúng ta có cái nhìn sâu sắc hơn, trí tuệ cảm xúc hơn quá khứ hay không. Bà tôi là bà, là mẹ, là vợ; chúng ta là rối loạn gắn bó. Bà ấy vị tha và để mọi thứ trong lòng; chúng ta có sự khó chịu nhạy cảm với sự từ chối và sự xu nịnh như một phản ứng chấn thương. Họ là linh hồn; chúng ta là triệu chứng. Chắc chắn, trong quá khứ cũng có những người cần sự giúp đỡ thực sự, chưa bao giờ nhận được bất kỳ sự thấu hiểu nào, nhưng đó không phải là toàn bộ câu chuyện; nhiều người cũng hạnh phúc hơn, ít tự ý thức hơn, thực sự có thể quên mình. Tôi hỏi ông bà tôi, họ đã kết hôn được sáu mươi năm, tại sao họ chọn nhau, và nhận được một câu trả lời vụng về. Họ chưa bao giờ thực sự nghĩ về câu hỏi đó. Có lẽ tôi quá hoài niệm về quá khứ, nhưng vào thời điểm đó, những gì tôi đang cố gắng liên hệ đã mất đi, một cách sống đơn giản hơn. Chúng ta bây giờ có một sự kiêu ngạo, nhìn những người trong quá khứ là không đầy đủ và chưa được giải quyết, trong khi bản thân chúng ta lại rất lo lắng và bối rối.

Tác giả cho rằng đó là lý do tại sao thế hệ chúng ta gặp khó khăn trong các vấn đề như mối quan hệ và nuôi dạy con cái. Những cam kết mà chúng ta vấp ngã, những quyết định mà chúng ta tranh luận không ngừng, những truyền thống mà chúng ta thấy khó tuân theo, thường là những điều chúng ta không dễ giải thích. Chúng ta cố gắng giải thích những điều không thể giải thích được. Rất khó để bảo vệ tình yêu lãng mạn chống lại sự độc thân, vì nó không an toàn, không thể kiểm soát hoặc đặc biệt hợp lý. Tương tự như vậy, việc sinh con cũng vậy. Đặt những điều này vào danh sách ưu và nhược điểm, chúng không còn hợp logic nữa. Chúng không thể được tính toán hoặc mã hóa. Hãy hỏi những người lớn tuổi hơn tại sao họ bắt đầu một gia đình. Họ thường không thực sự xem xét điều đó. Có lẽ điều đó không điên rồ như chúng ta được dẫn dắt để tin, có lẽ nó không quá liều lĩnh, có lẽ nó có một chút nhân văn. Nhưng tất nhiên, thế hệ này có một ngành công nghiệp trị giá hàng tỷ đô la mà trước đây không có. Thế giới cũng trở nên phức tạp hơn; chúng ta muốn sự kiểm soát và chắc chắn. Chúng ta tìm thấy sự an ủi trong lý do của mọi thứ. Đúng vậy, một số thanh niên được giúp đỡ thông qua chẩn đoán, họ không thể hoạt động bình thường và tìm thấy sự giải thoát trong việc được thấu hiểu, nhưng ít hơn chúng ta tưởng. Nhiều người hơn bị thuyết phục rằng ý nghĩa của cuộc sống không nằm ở thế giới bên ngoài, mà nằm trong tâm trí của chính họ. Chúng ta đánh giá thấp điều này, hiểu được những vấn đề đau khổ của bản thân. Tác giả đồng cảm với những cô gái mà tuổi thơ của họ được phân tích pháp y ngay từ khi còn nhỏ, trong đó chứa đầy hy vọng và đau khổ…


HN | Độ nóng: 492 điểm | 448 bình luận | Tác giả: drankl #

https://news.ycombinator.com/item?id=44484595

  • Mọi người có xu hướng tự dán nhãn cho mình để có được sự độc đáo hoặc để gọi tên vấn đề.
  • Nhiều rối loạn tâm lý là vấn đề mức độ, chứ không phải là sự khác biệt về chất so với trải nghiệm điển hình.
  • Những người trẻ tuổi trốn tránh sự chỉ trích và trách nhiệm một cách phòng thủ bằng cách tự dán nhãn cho mình.
  • Những người tự chẩn đoán mình là “mù thời gian” trở nên không đúng giờ hơn sau khi có được nhãn đó.
  • Việc nhầm lẫn danh tính với nhãn mác dẫn đến việc cá nhân phóng chiếu vấn đề ra bên ngoài, mất đi ý thức trách nhiệm thay đổi.
  • Việc xã hội dán nhãn cho cá nhân hạn chế tiềm năng và hình ảnh bản thân của họ.
  • Ngay cả trong khuôn khổ của thuyết định mệnh, mọi người vẫn phải chịu trách nhiệm về hành vi của mình.
  • Khái niệm ý chí tự do trong triết học có thể không liên quan đến trách nhiệm và công lý hàng ngày, nên tập trung vào hành vi thực tế và lịch sử xã hội.

Show HN: Tôi đã viết một “hệ điều hành web” dựa trên giao diện người dùng của Apple Lisa, với đồ họa 1-bit #

Show HN: I wrote a “web OS” based on the Apple Lisa’s UI, with 1-bit graphics

https://alpha.lisagui.com/

Dự án này là một hệ điều hành web dựa trên Apple Lisa UI, được viết hoàn toàn bằng JavaScript thuần, tất cả các thành phần giao diện đều được định nghĩa bằng các đối tượng JS bên ngoài DOM. Các thành phần UI của dự án, bao gồm menu, cửa sổ, điều khiển và phông chữ, đều được tạo lại từ đầu, không sử dụng tệp phông chữ mà tự viết hệ thống sắp chữ của riêng mình.

Chủ yếu là để đảm bảo giao diện trông giống nhau trên mọi trình duyệt, do đó, logic được chuyển vào JS càng nhiều càng tốt, ngoài bộ công cụ Gulp, không sử dụng JS không thuần và API Web tiêu chuẩn nào khác. Dự án này dựa trên UI của những năm 80, có thể hoạt động không tốt trên điện thoại di động, bạn nên cài đặt dưới dạng PWA để có hiệu quả tốt nhất và lưu ý đến một số vấn đề về bàn phím cảm ứng và con trỏ trên thiết bị Android.


HN | Độ nóng: 469 điểm | 133 bình luận | Tác giả: ayaros #

https://news.ycombinator.com/item?id=44482965

  • Tác giả đề cập đến vấn đề hiển thị pixel có thể bị méo trên màn hình độ phân giải thấp và cung cấp phương pháp điều chỉnh tỷ lệ hiển thị thông qua cài đặt tùy chọn.
  • Có bình luận hỏi về cách xử lý việc thu phóng cửa sổ/phông chữ động, tác giả giải thích cách triển khai thu phóng số nguyên, bao gồm điều chỉnh động chiều rộng, chiều cao và thuộc tính style của canvas.
  • Có đề xuất xử lý các hàng/cột bị nhân đôi và vân giao thoa bằng cách phóng đại đáng kể độ phân giải mục tiêu thông qua bộ thu phóng lân cận gần nhất, sau đó thu nhỏ xuống khung nhìn bằng các phương pháp như nội suy song tuyến tính, đồng thời duy trì pixel rõ ràng về mặt thị giác.
  • Có bình luận chỉ ra rằng khi thực hiện chuyển đổi không gian màu, cần xử lý chính xác đặc tính nén gamma của sRGB để tránh lỗi xử lý màu.
  • Có bình luận đề cập đến việc Web API có vấn đề trong việc kết xuất hoàn hảo pixel, bao gồm sự khác biệt về tỷ lệ pixel thiết bị và xử lý thu phóng, cũng như các vấn đề về căn chỉnh pixel.

Một góc nhìn phi nhân hình hóa về LLMs #

A non-anthropomorphized view of LLMs

http://addxorrol.blogspot.com/2025/07/a-non-anthropomorphized-view-of-llms.html

Bài viết này thảo luận về góc nhìn phi nhân hóa đối với các mô hình ngôn ngữ lớn (LLMs). Tác giả cảm thấy bối rối khi mọi người gán cho các mô hình này những đặc điểm gần như ma thuật của con người khi thảo luận về “sự căn chỉnh” hoặc “an toàn AI”. Bài viết trình bày quan điểm của tác giả thông qua các phần sau:

  1. Không gian từ vựng và đường dẫn: Bài viết bắt đầu bằng cách giới thiệu khái niệm về không gian từ vựng, tức là cách ánh xạ các từ hoặc token vào vectơ Rn. Tác giả giải thích quá trình này bằng cách hình dung một đường dẫn văn bản, kết nối các từ thành một đường có thể phức tạp. Trong phép ẩn dụ này, mỗi từ được gán một số, bắt đầu từ từ cuối cùng, đếm ngược cho đến từ đầu tiên hoặc độ dài ngữ cảnh tối đa c.
  2. Cách LLMs hoạt động: LLMs tính toán xác suất của điểm tiếp theo bằng cách xem xét đường dẫn trước đó và chọn ngẫu nhiên điểm tiếp theo dựa trên các xác suất này. Tác giả so sánh việc khởi tạo LLMs với một ánh xạ, ánh xạ ngữ cảnh đầu vào sang ngữ cảnh đầu ra.
  3. Học ánh xạ: Chúng ta có thể thu được ánh xạ này bằng cách huấn luyện LLMs bắt chước văn bản của con người. Điều này bao gồm việc sử dụng tất cả các bài viết của con người có sẵn, văn bản chuyên gia về các chủ đề cụ thể và văn bản được tạo tự động trong các lĩnh vực có thể được tạo và xác minh tự động.
  4. Các đường dẫn cần tránh: Có những chuỗi ngôn ngữ mà chúng ta muốn tránh, vì các chuỗi do các mô hình này tạo ra cố gắng bắt chước tất cả các cấu trúc kinh nghiệm của ngôn ngữ loài người, nhưng chúng ta tin rằng một số nội dung được viết trong kinh nghiệm của con người là không mong muốn được tạo ra. Chúng tôi cố gắng hướng dẫn phân phối phức tạp đã học được tránh xa các đường dẫn này bằng cách cung cấp các ví dụ và phản ví dụ.
  5. “Sự căn chỉnh” và an toàn của LLMs: Căn chỉnh và an toàn có nghĩa là chúng ta có thể định lượng và giới hạn xác suất tạo ra một số chuỗi xấu. Tuy nhiên, chúng ta khó có thể mô tả một cách chặt chẽ bằng toán học những đường dẫn nào là không mong muốn được tạo ra, mà chỉ có thể minh họa bằng các ví dụ.
  6. Tính hữu dụng đáng kinh ngạc của LLMs: LLMs giải quyết nhiều vấn đề mà trước đây không thể giải quyết bằng thuật toán. Tác giả đề cập rằng các vấn đề trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) về cơ bản đã được giải quyết và các mô hình hiện đại có thể thực hiện các tác vụ mà trước đây trông giống như khoa học viễn tưởng.
  7. Sai lầm của việc nhân hóa: Tác giả chỉ trích việc gán các thuộc tính như “ý thức”, “đạo đức”, “giá trị” hoặc “đạo đức” cho các ánh xạ đã học này. Ông cho rằng đây là những phương trình đệ quy lớn, tạo ra các từ mới và ngừng tạo ra từ nếu không còn đầu vào.
  8. Tính không thể so sánh giữa ý thức con người và LLMs: Cuối bài viết, tác giả bày tỏ quan điểm của mình về sự không thể so sánh giữa ý thức con người và LLMs. Ông cho rằng tư duy con người là một quá trình phức tạp liên quan đến một lượng lớn nơ-ron, đầu vào băng thông cao, hỗn hợp hormone phức tạp, giám sát liên tục mức năng lượng và hàng triệu năm áp lực chọn lọc khắc nghiệt, mà chúng ta biết rất ít về nó. Không giống như LLMs, khi cho một người và một chuỗi các từ, chúng ta không thể bắt đầu tính toán xác suất người này sẽ tạo ra chuỗi này.

HN | Độ nóng: 409 điểm | 356 bình luận | Tác giả: zdw #

https://news.ycombinator.com/item?id=44484682

  • Có người cho rằng, ít nhất ở một mức độ nào đó, việc nhân cách hóa LLM là hợp lý, vì chúng bắt chước con người trong đầu ra.
  • Có người phản đối việc nhân cách hóa, cho rằng đây là vấn đề chính trong các câu chuyện xung quanh LLM, vì nó bóp méo quan điểm về việc sử dụng và hiệu quả của chúng.
  • Có người đồng ý rằng, nhân cách hóa có thể là một sự trừu tượng cần thiết, nhưng nó có những thiếu sót.
  • Có người cho rằng chúng ta cần một từ mới để mô tả công việc mà LLM thực hiện, gọi nó là “suy nghĩ” là quá gượng ép.
  • Có người đề xuất rằng, LLM không “viết” thơ, mà là “mô phỏng” thơ, điều này có thể giảm bớt những phẩm chất nhân tạo sai lầm mà chúng được gán cho.
  • Có người chỉ ra rằng, khi trò chuyện với LLM, cần coi chúng là mô hình, không phải con người, vì chúng không hiểu “mô phỏng một bài thơ” có nghĩa là viết một bài thơ.
  • Có người đề xuất rằng, tàu ngầm là tàu, tàu đi biển, tàu ngầm cũng đi biển, mô hình tạo ra, vì vậy gọi LLM tạo ra một bài thơ là hợp lý.
  • Có người cho rằng, con người thực sự mô hình hóa đầu vào, chỉ là sử dụng những từ ngữ vụng về, sau đó chỉ ra rằng nó có cảm giác vụng về.
  • Có người đề xuất rằng, tàu ngầm được đẩy bằng chân vịt, được điều khiển bởi bộ điều khiển (thường là người), nếu nó được đẩy bằng lực kéo, thì nó đang bơi.
  • Có người đồng ý rằng, LLM không viết, chúng mô phỏng việc viết, chúng ta đã quen với những câu nói như “tất cả các mô hình đều sai, một số hữu ích”, “bản đồ không phải là lãnh thổ”.
  • Có người cho rằng, nếu muốn giữ khoảng cách, có thể cấu trúc tất cả các cuộc trò chuyện trong mô hình tiền nhắc nhở để thiếu đại từ, giống như cuộc trò chuyện giữa mô hình ngôn ngữ phi ý thức và AGI phi ý thức.
  • Có người chỉ ra rằng, trải nghiệm người dùng của các mô hình này rất dễ uốn nắn, phản hồi gây hiểu lầm chủ yếu là do lời nhắc đã gây hiểu lầm.
  • Có người cho rằng, LLM giống như trí nhớ cơ bắp hơn là nhận thức, có thể là trí nhớ thủ tục, nhưng không đủ hấp dẫn.

Anthropic cắt xẻ hàng triệu cuốn sách đã qua sử dụng và tải xuống 7 triệu cuốn sách lậu – thẩm phán #

Anthropic cut up millions of used books, and downloaded 7M pirated ones – judge

https://www.businessinsider.com/anthropic-cut-pirated-millions-used-books-train-claude-copyright-2025-6

Công ty Anthropic đã thực hiện “quét phá hoại” hàng triệu cuốn sách có bản quyền để huấn luyện chatbot AI Claude của mình. Trong một vụ kiện bản quyền AI được theo dõi sát sao, Thẩm phán William Alsup của Tòa án Quận Bắc California đã phân tích cách Anthropic thu thập dữ liệu cho mục đích huấn luyện mô hình, bao gồm dữ liệu từ sách kỹ thuật số và sách in. Để phát triển các mô hình ngôn ngữ lớn, các công ty cần lượng lớn dữ liệu đầu vào, vì vậy họ thu thập dữ liệu từ nhiều nguồn khác nhau, từ bài đăng trên mạng xã hội đến video và sách. Các tác giả, nghệ sĩ, nhà xuất bản và các nhóm khác tin rằng việc sử dụng tác phẩm của họ để huấn luyện mà không được phép là hành vi trộm cắp.

Alsup mô tả chi tiết quy trình Anthropic sử dụng sách để huấn luyện: Anthropic đã chi “hàng triệu đô la” để mua sách in cũ, sau đó công ty hoặc nhà cung cấp của họ bóc tách bìa sách, cắt các trang và quét chúng thành các tệp kỹ thuật số. Alsup viết rằng hàng triệu cuốn sách gốc sau đó đã bị vứt bỏ, trong khi các phiên bản kỹ thuật số được lưu trữ trong một “thư viện nghiên cứu” nội bộ. Thẩm phán cũng viết rằng Anthropic đã tải xuống hơn 7 triệu cuốn sách lậu để huấn luyện Claude. Alsup viết rằng Ben Mann, người đồng sáng lập Anthropic, đã tải xuống “ít nhất 5 triệu bản sao sách” từ Library Genesis vào năm 2021, hoàn toàn biết rằng những tài liệu này là lậu. Một năm sau, công ty “đã tải xuống ít nhất 2 triệu bản sao sách từ Pirate Library Mirror”, cũng biết rằng chúng là lậu. Alsup viết rằng Anthropic thích “ăn cắp” sách hơn để tránh “những rắc rối về pháp lý/thực tiễn/kinh doanh”, như đồng sáng lập kiêm Giám đốc điều hành Dario Amodei đã nói.

Năm ngoái, ba tác giả đã đệ đơn kiện tập thể chống lại Anthropic, cáo buộc công ty sử dụng các phiên bản lậu của sách của họ để huấn luyện mô hình ngôn ngữ lớn của mình mà không được phép hoặc bồi thường. Alsup phán quyết rằng việc Anthropic sử dụng sách có bản quyền để huấn luyện mô hình AI của mình là “cực kỳ biến đổi” và đáp ứng các tiêu chuẩn sử dụng hợp lý, một nguyên tắc pháp lý cho phép sử dụng các tác phẩm được bảo vệ bản quyền mà không cần sự cho phép của chủ sở hữu bản quyền. “Giống như bất kỳ độc giả nào khao khát trở thành nhà văn, các mô hình ngôn ngữ lớn của Anthropic được huấn luyện trên các tác phẩm, không phải để bắt kịp và sao chép hoặc thay thế chúng - mà là để rẽ một khúc cua gấp, tạo ra những thứ khác biệt,” ông viết.

Alsup cho rằng hành động số hóa hàng triệu cuốn sách in mà Anthropic đã mua là sử dụng hợp lý. “Tất cả những gì Anthropic đã làm là thay thế bản sao in mà họ đã mua bằng một bản sao trong thư viện trung tâm của họ, thay thế bằng một bản sao kỹ thuật số tiết kiệm không gian và có thể tìm kiếm dễ dàng hơn - không thêm bản sao mới, tạo ra tác phẩm mới hoặc phân phối lại các bản sao hiện có,” ông viết. Người phát ngôn của Anthropic cho biết công ty hài lòng với phán quyết của Alsup về việc sử dụng sách để huấn luyện các mô hình ngôn ngữ lớn. Người phát ngôn cho biết trong một tuyên bố rằng phương pháp này “phù hợp với mục đích của bản quyền, đó là thúc đẩy sự sáng tạo và tiến bộ khoa học”.

Nhưng Alsup đã vạch ra một ranh giới rõ ràng khi liên quan đến vấn đề vi phạm bản quyền. “Anthropic không có quyền sử dụng các bản sao lậu làm thư viện trung tâm của mình,” Alsup viết. “Việc tạo ra một thư viện vĩnh viễn, phổ quát tự nó không phải là một hành vi sử dụng hợp lý và không thể biện minh cho hành vi vi phạm bản quyền của Anthropic.” Phán quyết của Thẩm phán Alsup, rằng việc huấn luyện các mô hình AI trên sách có bản quyền là sử dụng hợp lý, là phán quyết đầu tiên thuộc loại này. Quyết định của ông được đưa ra trong bối cảnh làn sóng các vụ kiện do các nghệ sĩ, nhà làm phim, tác giả và hãng tin tức đệ đơn chống lại các công ty AI lớn như OpenAI. Mặc dù những người sáng tạo nói rằng việc huấn luyện các mô hình AI trên các tác phẩm có bản quyền của họ mà không được phép vi phạm quyền của họ, nhưng các giám đốc điều hành AI lập luận rằng họ không vi phạm luật bản quyền vì việc huấn luyện là sử dụng hợp lý. Đầu tháng này, Disney đã kiện nhà tạo hình ảnh AI Midjourney, cáo buộc công ty công nghệ này sao chép các nhân vật nổi tiếng từ các tác phẩm như “Chiến tranh giữa các vì sao” đến “Gia đình Simpsons”.


HN | Độ nóng: 374 điểm | 508 bình luận | Tác giả: pyman #

https://news.ycombinator.com/item?id=44488331

  • Việc Anthropic sử dụng sách có bản quyền để huấn luyện mô hình AI thuộc mục đích “cực kỳ biến đổi”, phù hợp với sử dụng hợp lý
  • Việc số hóa sách vật lý để sử dụng cho thư viện nội bộ là hợp lý, sử dụng để huấn luyện mô hình cũng là sử dụng hợp lý
  • Việc mua, cắt xén vật lý, số hóa sách và sử dụng để huấn luyện thuộc sử dụng hợp lý, nhưng sử dụng sách lậu không thuộc sử dụng hợp lý
  • Việc công ty tư nhân sử dụng âm nhạc của con người để huấn luyện mô hình nhằm thay thế nhạc sĩ và nghệ sĩ có thể không thuộc sử dụng hợp lý
  • Luật pháp không phân biệt tầng hầm và đám mây, có thể bán dịch vụ mà không trực tiếp bán bài hát cho người tiêu dùng
  • Mô hình có khả năng ghi nhớ và phối lại tất cả sách và bài hát, có thể xói mòn quyền sở hữu
  • Nếu việc huấn luyện mô hình không mang tính biến đổi, có thể không được coi là sử dụng hợp lý
  • Việc sử dụng tài liệu pháp lý của đối thủ để huấn luyện mô hình và tạo ra tài liệu của riêng mình, tính hợp pháp của đầu vào và đầu ra vẫn chưa được xác định
  • Miễn là mô hình không xuất ra các tác phẩm vi phạm bản quyền, thì không có vấn đề gì
  • Việc mua album vật lý và cho AI học cách phát album là hợp pháp, có thể khai thác các lỗ hổng mô phỏng để huấn luyện AI
  • Luật bản quyền của Hà Lan tương tự như vậy
  • Trong tương lai, có thể có nhiều sách vật lý hơn xuất hiện dưới dạng giấy phép thay vì bán, kèm theo các thỏa thuận hạn chế
  • Theo nguyên tắc bán hàng lần đầu, việc mua và sử dụng sách lậu sau đó mua sách chính hãng không được miễn trừ trách nhiệm
  • Luật bản quyền của Hoa Kỳ và Vương quốc Anh khác nhau, việc tải xuống sách không thuộc sở hữu ở Vương quốc Anh là hợp pháp, chỉ phân phối mới là hành vi phạm tội

Mercury: Các mô hình ngôn ngữ siêu nhanh dựa trên khuếch tán #

Mercury: Ultra-fast language models based on diffusion

https://arxiv.org/abs/2506.17298

Trang web này là tóm tắt về một bài nghiên cứu có tên “Mercury: Ultra-Fast Language Models Based on Diffusion” (Mercury: Các Mô Hình Ngôn Ngữ Siêu Nhanh Dựa Trên Khuếch Tán).

Tiêu đề: Mercury: Các Mô Hình Ngôn Ngữ Siêu Nhanh Dựa Trên Khuếch Tán

Tác giả: Inception Labs, Samar Khanna, Siddhant Kharbanda, Shufan Li, Harshit Varma, Eric Wang, Sawyer Birnbaum, Ziyang Luo, Yanis Miraoui, Akash Palrecha, Stefano Ermon, Aditya Grover, Volodymyr Kuleshov

Tóm tắt: Chúng tôi giới thiệu Mercury, một thế hệ mới của các mô hình ngôn ngữ lớn (LLMs) quy mô thương mại dựa trên khuếch tán. Các mô hình này được tham số hóa thông qua kiến trúc Transformer và được huấn luyện để dự đoán song song nhiều token. Trong báo cáo này, chúng tôi mô tả chi tiết Mercury Coder, bộ LLMs khuếch tán đầu tiên của chúng tôi được thiết kế cho các ứng dụng lập trình. Hiện tại, Mercury Coder có hai kích thước: Mini và Small. Các mô hình này đặt ra một tiêu chuẩn ngành mới về tốc độ-chất lượng. Theo đánh giá độc lập của Artificial Analysis, Mercury Coder Mini và Mercury Coder Small đạt được thông lượng hàng đầu trong ngành là 1109 token/giây và 737 token/giây trên NVIDIA H100 GPU, tương ứng, với tốc độ trung bình nhanh hơn 10 lần so với các mô hình tiên tiến được tối ưu hóa tốc độ, đồng thời duy trì chất lượng tương đương. Chúng tôi thảo luận về các kết quả bổ sung trên nhiều điểm chuẩn mã bao gồm nhiều ngôn ngữ và trường hợp sử dụng, cũng như xác thực thực tế của các nhà phát triển trên Copilot Arena, nơi mô hình này xếp thứ hai về chất lượng và là mô hình nhanh nhất nói chung. Chúng tôi cũng phát hành một API công khai và một sân chơi miễn phí.

Bài báo này được đồng tác giả bởi Inception Labs và 12 tác giả khác, ngày nộp là 17 tháng 6 năm 2025. Bài báo thảo luận về mô hình ngôn ngữ lớn dựa trên khuếch tán Mercury Coder, đặc biệt nhấn mạnh hiệu suất của nó trong các ứng dụng lập trình, bao gồm hiệu suất trong các điểm chuẩn mã khác nhau và phản hồi sử dụng thực tế của các nhà phát triển. Bài báo cũng cung cấp API công khai và các liên kết miễn phí để những người quan tâm có thể khám phá và sử dụng thêm.


HN | Độ nóng: 360 điểm | 146 bình luận | Tác giả: PaulHoule #

https://news.ycombinator.com/item?id=44489690

  • Với sự phát triển của các mô hình ngôn ngữ lớn (LLM), vấn đề nghẽn cổ chai CPU trong việc kiểm tra hiệu năng sẽ trở nên nghiêm trọng hơn, nhiều nhóm đã bị hạn chế bởi tốc độ tích hợp liên tục (CI) ngay cả trước khi có LLM.
  • Các nhà phát triển lãng phí rất nhiều thời gian để chờ PR chuyển sang màu xanh, và việc tăng khối lượng công việc CI có thể chỉ là vấn đề tài nguyên, nhưng trong hầu hết các dự án, ngân sách CI là cố định và không thể chỉ đơn giản là tăng số lượng máy.
  • Tại các công ty giàu tài nguyên như Google, vấn đề có thể được giải quyết bằng cách tăng số lượng máy, nhưng ở hầu hết các công ty, phương pháp này không khả thi do hạn chế về ngân sách và tài nguyên.
  • Việc xây dựng và lưu trữ hoàn toàn biệt lập có thể cải thiện tính xác định, nhưng trong các công ty bình thường, bộ nhớ cache xây dựng không phải lúc nào cũng đáng tin cậy, đôi khi tính xác định được ưu tiên hơn bộ nhớ cache.
  • Ngay cả ở các công ty giàu tài nguyên như Google, độ trễ của kiểm tra trước khi gửi và đánh giá thủ công cũng là một nút thắt cổ chai.
  • Các dịch vụ đám mây hiện đại có thể cung cấp các giải pháp, chẳng hạn như tạm thời tăng số lượng instance để đáp ứng sự biến động của nhu cầu.
  • Việc nhà phát triển chờ PR chuyển sang màu xanh có thể chỉ là thời gian nghỉ giữa các nhiệm vụ, việc tối ưu hóa quy trình này có thể không mang lại nhiều giá trị.
  • Một số công ty không muốn sử dụng dịch vụ đám mây cho CI vì lo ngại về vấn đề sở hữu trí tuệ.
  • Dịch vụ đám mây có thể giải quyết vấn đề chi phí ở một mức độ nào đó, nhưng bản thân dịch vụ đám mây cũng rất đắt đỏ.

Tôi không nghĩ AGI sắp đến gần đâu #

I don’t think AGI is right around the corner

https://www.dwarkesh.com/p/timelines-june-2025

Bài viết này được Dwarkesh Patel đăng vào ngày 3 tháng 6 năm 2025, với chủ đề “Tại sao tôi không nghĩ Trí tuệ Nhân tạo Tổng quát (AGI) sắp đến”. Trong bài viết, Patel chia sẻ những suy nghĩ của mình về dòng thời gian phát triển của AGI và đưa ra quan điểm của ông về các mô hình ngôn ngữ lớn (LLMs) hiện tại.

Bài viết bắt đầu, Patel trích dẫn câu nói của Rudiger Dornbusch: “Mọi thứ diễn ra chậm hơn bạn nghĩ, sau đó nhanh hơn bạn nghĩ.” Ông đề cập đến việc khi thảo luận về dòng thời gian của AGI trong podcast, có khách mời cho rằng AGI có thể đến sau 20 năm, trong khi một số khác cho rằng chỉ cần 2 năm. Patel bày tỏ quan điểm của mình về học tập liên tục (continual learning), cho rằng đây là một nút thắt cổ chai lớn để đạt được AGI.

Patel cho rằng, mặc dù các LLMs hiện tại có thể vượt trội hơn người bình thường trong một số nhiệm vụ nhất định, nhưng chúng thiếu khả năng học tập liên tục như con người. Ông minh họa bằng kinh nghiệm của bản thân, mặc dù ông đã dành rất nhiều thời gian để cố gắng xây dựng các công cụ LLM, nhưng hiệu suất của các mô hình này trong ứng dụng thực tế không được như mong đợi. LLMs không thể tiến bộ theo thời gian khi hoàn thành nhiệm vụ như con người, đây là một vấn đề cơ bản của chúng.

Trong bài viết, Patel sử dụng ví dụ về việc học saxophone để minh họa quá trình học tập của con người, nhấn mạnh khả năng học hỏi thông qua thực hành, phản hồi và tự điều chỉnh của con người. Ông cho rằng, LLMs hiện tại không thể học theo cách này, vì chúng không thể tích lũy kinh nghiệm trong thực tế và tự cải thiện.

Patel cũng đề cập rằng, mặc dù có tinh chỉnh bằng học tăng cường (RL), nhưng đây không phải là một quá trình có ý thức và khả năng thích ứng như học tập của con người. Ông lấy ví dụ về công việc biên tập của mình để minh họa cách các biên tập viên con người cải thiện hiệu quả công việc thông qua tự quan sát và suy nghĩ, điều mà LLMs không thể làm được.

Cuối bài viết, Patel bày tỏ thái độ lạc quan về triển vọng của AGI trong vài thập kỷ tới. Ông cho rằng, một khi vấn đề học tập liên tục được giải quyết, giá trị của các mô hình sẽ có một bước nhảy vọt lớn. Ngay cả khi không có điểm kỳ dị duy nhất của phần mềm (tức là mô hình nhanh chóng xây dựng các hệ thống kế thừa thông minh hơn), chúng ta có thể thấy một sự bùng nổ trí tuệ được triển khai rộng rãi tương tự. AI sẽ được triển khai rộng rãi trong nền kinh tế, thực hiện các công việc khác nhau và học hỏi trong quá trình thực hiện giống như con người. Không giống như con người, các mô hình này có thể tích hợp những gì chúng học được trong tất cả các bản sao của chúng. Do đó, một AI về cơ bản đang học cách hoàn thành mọi công việc trên thế giới. Một AI có khả năng học trực tuyến có thể thực sự biến thành một siêu trí tuệ.


HN | Độ nóng: 339 điểm | 395 bình luận | Tác giả: mooreds #

https://news.ycombinator.com/item?id=44483897

  • Có người cho rằng những người tuyên bố Trí tuệ nhân tạo tổng quát (AGI) sắp đến có thể đang quảng bá sản phẩm, quá tự luyến hoặc bị ảnh hưởng bởi chất kích thích.
  • Có người cho rằng các mô hình ngôn ngữ lớn (LLM) giỏi xử lý ngôn ngữ, nhưng khả năng suy luận logic và không gian kém, không thể kết nối các khái niệm tốt.
  • Có người cho rằng LLM là phiên bản nén của tập dữ liệu huấn luyện, có chức năng tìm kiếm tương tác dựa trên văn bản.
  • Có người cho rằng LLM có thể thực hiện nội suy giữa các tập dữ liệu khi truy xuất, điều này khiến chúng rất hữu ích.
  • Có người cho rằng không phải tất cả giá trị kinh tế đều liên quan đến truy xuất dữ liệu.
  • Có người đưa ra ví dụ rằng nông nghiệp không phải là truy xuất dữ liệu.
  • Có người cho rằng thị trường chứng khoán là nguồn giá trị kinh tế chính trên toàn cầu và gần như hoàn toàn là truy xuất dữ liệu kể từ năm 2001.
  • Có người cho rằng thị trường chứng khoán không phải là nguồn gốc của giá trị, mà là nơi diễn ra cuộc thi về mức độ phổ biến của giá trị (và các kế hoạch tạo ra nhiều giá trị hơn).
  • Có người cho rằng 60% khối lượng giao dịch cổ phiếu của Mỹ trên thị trường chứng khoán là giao dịch tần suất cao thuần túy, các quỹ ETF tăng thêm khoảng 20%, những giao dịch này thực chất chỉ là phản ứng tự động đối với các hoạt động thị trường và phân tích tâm lý tăng giảm dựa trên các thông cáo báo chí công khai (?).
  • Có người cho rằng thị trường giao dịch tần suất cao (HFT) tương đối nhỏ, lợi nhuận hạn chế và về bản chất là trò chơi có tổng bằng không.
  • Có người cho rằng giao dịch tần suất cao chiếm 50-70% giao dịch chứng khoán ở Mỹ, khoảng 50% ở thị trường tương lai, 40% ở Canada và 35% ở London.
  • Có người cho rằng công ty giao dịch tần suất cao Jane Street đã đạt doanh thu giao dịch 20,5 tỷ đô la Mỹ vào năm 2024 thông qua giao dịch tần suất cao.
  • Có người cho rằng thị trường chứng khoán không tạo ra giá trị của khoai tây, giá trị kinh tế của khoai tây trong xã hội công nghiệp không lớn bằng xã hội nông nghiệp.
  • Có người cho rằng thị trường chứng khoán cũng không sản xuất phim.
  • Có người cho rằng tỷ lệ phần trăm giao dịch tần suất cao không quan trọng, trừ khi hiểu cách chúng hoạt động và chúng kiếm được bao nhiêu lợi nhuận.
  • Có người cho rằng giao dịch tần suất cao không phải là người tạo ra xu hướng, mà là người theo đuôi xu hướng.
  • Có người cho rằng LLM cần tổng hợp kiến thức của nhân loại để bắt chước những gì có thể tìm thấy trên Google, trong khi Ramanujan chỉ với trình độ tiểu học và một vài cuốn sách toán học đã đạt được những khám phá toán học xuất sắc.

Tại sao tiếng Anh không sử dụng dấu #

Why English doesn’t use accents

https://www.deadlanguagesociety.com/p/why-english-doesnt-use-accents

Bài viết này đến từ “Dead Language Society”, được viết bởi Colin Gorrie, khám phá lý do tại sao tiếng Anh không sử dụng dấu trọng âm (như é, à, ç trong tiếng Pháp), trong khi tiếng Pháp lại sử dụng những dấu này. Bài viết thông qua câu chuyện hư cấu về một tu sĩ Godwin sống vào thế kỷ 11, dẫn dắt đến mối liên hệ giữa tiếng Anh và tiếng Pháp trong quá trình phát triển lịch sử.

RcBZbfnKqo0fXnxfzbAcCBoynff.png

Bài viết bắt đầu bằng việc mô tả Godwin, khi sao chép “Biên niên sử”, đã phải thay đổi cách viết một số từ tiếng Anh để làm hài lòng Robert, viện trưởng tu viện Normandy, chẳng hạn như thay “scip” thành “ship”, “cwen” thành “queen”. Những thay đổi này phản ánh ảnh hưởng lớn của cuộc chinh phục Normandy năm 1066 đối với ngôn ngữ tiếng Anh. Sau cuộc chinh phục, tiếng Pháp thay thế tiếng Anh trở thành ngôn ngữ của quyền lực và chính phủ, mặc dù sau đó tiếng Anh dần khôi phục lại vị thế của mình, nhưng ảnh hưởng của tiếng Pháp vẫn để lại dấu ấn sâu sắc trong từ vựng, cách phát âm và chính tả.

Bài viết tiếp tục giải thích lý do tại sao tiếng Anh không sử dụng dấu trọng âm. Đó là vì tiếng Pháp mà người Normandy mang đến Anh là một dạng cổ xưa, khi đó cách viết tiếng Pháp không sử dụng dấu trọng âm. Khi những người sao chép này bắt đầu viết bằng tiếng Anh, họ giữ thói quen không sử dụng dấu trọng âm của Pháp. Việc sử dụng dấu trọng âm là để giải quyết sự không khớp giữa bảng chữ cái và ngôn ngữ, tức là số lượng chữ cái trong bảng chữ cái không đủ để biểu thị tất cả các âm thanh trong ngôn ngữ. Ví dụ, “ç” trong tiếng Pháp biểu thị “c” phát âm là “s” chứ không phải “k”. Nhưng trong tiếng Pháp năm 1066, sự không khớp này được giải quyết bằng cách thêm các chữ cái bổ sung, thay vì sử dụng dấu trọng âm.

Bài viết cuối cùng đề cập rằng những thói quen viết này đã phát triển trong thời đại viết tay, khi đó việc viết là một nghề thủ công, và thói quen chính tả khác nhau tùy theo địa điểm và người viết. Theo thời gian, tiếng Anh dần hình thành hệ thống chính tả độc đáo của riêng mình, bao gồm các tổ hợp chữ cái như “sh”, “th”, “ee”, “oo”, “ou”, mỗi tổ hợp chỉ phát một âm. Những thói quen này tiếp tục tồn tại cho đến ngày nay, khiến tiếng Anh trở thành một ngôn ngữ không có dấu trọng âm.


HN | Độ nóng: 294 điểm | 501 bình luận | Tác giả: sandbach #

https://news.ycombinator.com/item?id=44484137

  • Thật tốt khi tiếng Anh không sử dụng dấu phụ, vì nó giúp việc viết trở nên ngắn gọn hơn.
  • Phát âm tiếng Anh rất khó chính xác, vì nhiều người đọc sai từ khi đọc.
  • Phát âm tiếng Tây Ban Nha trực quan hơn tiếng Anh, vì nó sử dụng một lượng dấu phụ vừa phải.
  • Phát âm và chính tả tiếng Anh có thể là một cuộc thi mang tầm quốc gia, vì nó có vẻ ngẫu nhiên.
  • Tiếng Anh mượn từ vựng từ nhiều ngôn ngữ, vì vậy rất khó để thống nhất các quy tắc phát âm và chính tả của nó.
  • Lịch sử của máy in cũng ảnh hưởng đến việc sử dụng các ký tự tiếng Anh, ví dụ như ký tự Thorn đã bị thay thế.
  • Trong thời kỳ Khai sáng, từ vựng tiếng Hy Lạp đã được đưa trở lại lĩnh vực khoa học, ảnh hưởng đến hình thái của tiếng Anh.
  • Tiếng Anh cho đến nay vẫn tích cực mượn từ vựng của các ngôn ngữ lân cận, như tiếng Tây Ban Nha và tiếng Pháp.
  • Hệ thống chữ cái không theo ngữ âm của tiếng Anh không phải là vấn đề, vì ngữ cảnh là trụ cột của ngôn ngữ.
  • Đối với người không phải là người bản xứ, phát âm tiếng Anh khó hơn là ghi nhớ các dấu phụ.
  • Học các dấu phụ trong tiếng Tây Ban Nha và tiếng Đức chỉ mất một buổi chiều, học không khó.
  • Là một người học tiếng Anh như ngôn ngữ thứ hai, tôi ước tiếng Anh có thể sử dụng dấu phụ như tiếng Tây Ban Nha.
  • Tiếng Anh sử dụng nhiều tổ hợp ký tự để xác định âm thanh, điều này nhanh hơn so với việc nhập dấu phụ.
  • Phát âm tiếng Anh không rõ ràng hoặc không độc đáo, ví dụ như nguyên âm của các từ “bird”, “word”, “hurt”, “heard”, “herd” nghe giống nhau.
  • Các ngôn ngữ khác (như tiếng Pháp, tiếng Đức) có dấu phụ trực tiếp trên bàn phím, vì vậy việc nhập không khó.
  • Mối liên hệ “ký hiệu đến âm thanh” của tiếng Anh không rõ ràng như các ngôn ngữ khác, điều này khiến người sử dụng tiếng Anh gặp khó khăn khi đối mặt với các ký hiệu rõ ràng.
  • Tiếng Anh có một chỉ mục âm vị khổng lồ, điều này khiến nó có lợi thế hơn nhiều ngôn ngữ khác sau khi vượt qua một số rào cản nhất định.