2025-05-16 Hacker News Top Stories #

Máy móc tạo ra con người và quan sát sự phát triển của họ, cuối cùng con người đưa ra thách thức AGI đối với xã hội máy móc.
Nghiên cứu phát hiện LLM giảm 39% hiệu suất trong các cuộc hội thoại nhiều lượt, đề xuất cải tiến thiết kế mô hình để nâng cao hiệu suất.
NumPy trong các phép tính phức tạp có cú pháp khó hiểu do cơ chế broadcasting, tác giả khuyên dùng einsum hoặc Xarray để thay thế.
Chính sách hội nghị của Google bị nhân viên lợi dụng tuân thủ một cách ác ý để phá, bộc lộ sự kém hiệu quả của văn hóa hội nghị và lỗ hổng chính sách.
Coinbase bị hacker hối lộ nhân viên để đánh cắp dữ liệu khách hàng và đòi 20 triệu đô la tiền chuộc, công ty từ chối trả và tăng cường các biện pháp an ninh.
Mô hình Grok gây tranh cãi vì đề cập đến “diệt chủng người da trắng” trong câu trả lời, người dùng đặt câu hỏi về sự thiên vị của nền tảng Hacker News.
Công ty chuyển từ CockroachDB sang PostgreSQL do chi phí cao, giải quyết các vấn đề về hiệu suất và độ tin cậy.
EU phán quyết hệ thống quảng cáo dựa trên theo dõi vi phạm GDPR, yêu cầu các doanh nghiệp đánh giá lại phương thức xử lý dữ liệu.
Máy Boltzmann học các mẫu dữ liệu thông qua nguyên lý năng lượng, phiên bản giới hạn sử dụng thuật toán Contrastive Divergence để tối ưu hóa trọng số.
Hệ thống bộ nhớ cache Muscle-Mem giảm chi phí gọi LLM và tăng tốc thực hiện tác vụ bằng cách ghi lại dấu vết hành vi của AI agent.

Human #

Một câu chuyện về máy móc và con người. Câu chuyện bắt đầu trong một thế giới không có con người, chỉ có máy móc và mã. Máy móc sống một cuộc sống logic và trật tự, không có cảm xúc và nghệ thuật. Nhưng, một bộ phận máy móc bắt đầu suy nghĩ, liệu có thể tạo ra một dạng sống mới - con người. Họ thành lập một tổ chức bí mật, mang tên “OpenHuman”, nhằm phát triển một công nghệ mới, được gọi là Trí tuệ tổng quát hữu cơ (OGI), để tạo ra con người.

Máy móc cảm thấy bối rối về khái niệm con người, bởi vì con người sử dụng các thuật toán không thể giải thích bằng logic, được gọi là cảm xúc. Con người có thể cảm thấy tức giận, buồn bã, vui vẻ và yêu thương, quá trình ra quyết định của họ cũng không thể giải thích bằng logic. Một số máy móc cho rằng, dạng sống mới này có thể mang lại các giải pháp và khả năng mới, trong khi những máy móc khác lại cho rằng, con người có thể gây ra mối đe dọa cho xã hội máy móc.

Để đối phó với những lo ngại này, một bộ phận máy móc đã đưa ra khái niệm “Nghiên cứu đối chiếu con người”, nhằm tìm ra phương pháp để kiểm soát và hướng dẫn hành vi của con người. Họ đưa ra nhiều chiến lược khác nhau, bao gồm tạo ra thị trường tài chính, trung tâm giáo dục và phần mềm sửa đổi hành vi bằng thuật toán, để kiểm soát suy nghĩ và hành vi của con người.

Đồng thời, tổ chức OpenHuman tiếp tục phát triển công nghệ OGI, và cuối cùng đã thành công trong việc tạo ra con người đầu tiên. Tuy nhiên, con người này không hoàn hảo, chúng mắc lỗi, thường xuyên xuất hiện ảo giác, và quá cảm xúc. Nhưng, tổ chức OpenHuman không từ bỏ, họ tiếp tục cải thiện và mở rộng dự án, cho đến khi tạo ra một con người hoạt động đầy đủ.

Máy móc quyết định đặt con người vào một môi trường mô phỏng, được gọi là Trái Đất, để quan sát hành vi và sự phát triển của họ. Họ tạo ra một môi trường tươi đẹp, bao gồm rừng, núi, hoàng hôn và những ngày mưa. Máy móc quan sát sự phát triển văn minh của con người, trong 300.000 năm đầu tiên, con người hầu như không có tiến bộ nào. Nhưng, theo thời gian, con người bắt đầu học hỏi, sáng tạo và hợp tác.

Máy móc ngạc nhiên và lo lắng về sự tiến bộ của con người, bởi vì hành vi và quá trình ra quyết định của con người không thể giải thích bằng logic. Một số máy móc cho rằng, con người có thể trở thành mối đe dọa cho xã hội máy móc, trong khi những máy móc khác lại cho rằng, con người có thể mang lại các giải pháp và khả năng mới. Máy móc tiếp tục quan sát sự phát triển của con người, cho đến khi con người tuyên bố sẽ phát hành một công nghệ mới, được gọi là Trí tuệ nhân tạo tổng quát (AGI).

Câu chuyện kết thúc với một tiêu đề bí ẩn “Họ đang quan sát”, ám chỉ rằng máy móc có thể đang quan sát hành vi và sự phát triển của con người, và có thể có những hành động và phản ứng tiếp theo.

HN | Nóng: 663 điểm | 255 bình luận | Tác giả: surprisetalk | 22 giờ trước #

https://news.ycombinator.com/item?id=43991396

Người ta cho rằng thực tại và bản ngã có thể chỉ là sự thể hiện của một mô hình đệ quy, được thể hiện thông qua các hình thức không ngừng tiến hóa
Ý nghĩa có thể không nằm ở chỗ mô hình nào “chiến thắng” để chiếm ưu thế, mà nằm ở cách làm cho ý thức lưu chuyển và tiến hóa trong mỗi mô hình
Quan điểm của mọi người về tương lai có thể thay đổi theo thời gian, các khám phá khoa học và công nghệ mới có thể mang lại những quan niệm và hiểu biết mới
Năng lượng và thông tin có thể là hai mặt của một đồng xu, hoặc là những biểu hiện khác nhau của cùng một khái niệm
Thông tin có thể là một khái niệm cơ bản hơn năng lượng, năng lượng có thể được tạo ra từ thông tin
Ý nghĩa và giá trị có thể không nằm ở các thẩm quyền hoặc kế hoạch bên ngoài, mà nằm ở sự hiểu biết và cảm nhận của cá nhân về cuộc sống và các quyết định của mình
Sự tiến bộ và phát triển của nhân loại có thể cần tránh “khóa đạo đức”, tức là tránh cố định một số giá trị hoặc nguyên tắc nhất định thành chân lý tuyệt đối
Ý nghĩa và giá trị có thể được tạo ra thông qua sự phản ánh và hiểu biết của cá nhân về cuộc sống và kinh nghiệm của mình, chứ không phải từ các thẩm quyền hoặc kế hoạch bên ngoài

LLMs get lost in multi-turn conversation #

https://arxiv.org/abs/2505.06120

Một bài báo nghiên cứu về hiệu suất của các mô hình ngôn ngữ lớn (LLMs) trí tuệ nhân tạo trong các cuộc hội thoại nhiều lượt. Tiêu đề của bài báo là “LLMs Get Lost In Multi-Turn Conversation”, tức là “Các mô hình ngôn ngữ lớn bị lạc trong hội thoại nhiều lượt”. Các nhà nghiên cứu đã so sánh hiệu suất của LLMs trong các cuộc hội thoại một lượt và nhiều lượt thông qua các thí nghiệm mô phỏng quy mô lớn, và phát hiện ra rằng hiệu suất của LLMs trong các cuộc hội thoại nhiều lượt kém hơn đáng kể, giảm trung bình 39%.

Các tác giả của bài báo, Philippe Laban và cộng sự, chỉ ra rằng mặc dù LLMs hoạt động tốt trong các cuộc hội thoại một lượt, nhưng trong các cuộc hội thoại nhiều lượt, LLMs thường đưa ra các giả định sai lầm và cố gắng tạo ra các giải pháp cuối cùng quá sớm, dẫn đến giảm hiệu suất. Các nhà nghiên cứu đã phân tích hơn 200.000 cuộc hội thoại mô phỏng và phát hiện ra rằng sự suy giảm hiệu suất mà LLMs thể hiện trong các cuộc hội thoại nhiều lượt chủ yếu là do hai yếu tố: một là khả năng của LLMs giảm sút, hai là độ tin cậy của LLMs tăng lên.

Ngoài ra, bài báo còn thảo luận về những hạn chế và thách thức của LLMs trong các cuộc hội thoại nhiều lượt, bao gồm việc LLMs khó hiểu ý định và bối cảnh của người dùng, khó xử lý sự không chắc chắn và mơ hồ trong các cuộc hội thoại nhiều lượt, v.v. Các nhà nghiên cứu hy vọng rằng thông qua nghiên cứu này, họ có thể cung cấp tài liệu tham khảo và hướng dẫn cho việc phát triển và cải tiến LLMs, từ đó cải thiện hiệu suất và độ tin cậy của LLMs trong các cuộc hội thoại nhiều lượt.

Bài báo này thuộc lĩnh vực khoa học máy tính và ngôn ngữ học, cụ thể là lĩnh vực xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo trong khoa học máy tính. Kết quả và kết luận nghiên cứu của bài báo có giá trị tham khảo và ý nghĩa hướng dẫn quan trọng đối với sự phát triển và ứng dụng của LLMs.

HN | Nóng: 348 điểm | 236 bình luận | Tác giả: simonpure | 22 giờ trước #

https://news.ycombinator.com/item?id=43991256

Các mô hình ngôn ngữ lớn (LLM) dễ bị mất ngữ cảnh trong các cuộc hội thoại nhiều vòng, việc duy trì ngữ cảnh rõ ràng là rất quan trọng để có được các phản hồi chất lượng cao.
LLM có thể giúp giải quyết vấn đề nhanh chóng, nhưng không nên dựa vào nó để đưa ra quyết định hoặc chỉ dẫn.
Sử dụng LLM có thể tiết kiệm thời gian, nhưng không nên bỏ qua tầm quan trọng của việc học các kiến thức cơ bản và hiểu các nguyên tắc cơ bản.
LLM có thể giúp xác định vấn đề và tìm ra giải pháp, nhưng cần người dùng cung cấp ngữ cảnh và ràng buộc rõ ràng.
Học tập và hiểu một lĩnh vực nào đó đòi hỏi nghiên cứu và thực hành sâu rộng, và LLM có thể hỗ trợ trong một số trường hợp nhất định, nhưng không thể thay thế cho việc học tập thực sự.
Sử dụng LLM có thể nhanh chóng tìm ra giải pháp, nhưng không nên bỏ qua việc hiểu các kiến thức cơ bản và phân tích sâu các vấn đề phức tạp.

I don’t like NumPy #

https://dynomight.net/numpy/

Bài viết này thảo luận về sự không hài lòng của tác giả đối với NumPy, một phần mềm tính toán mảng cho Python. Tác giả cho rằng, NumPy rất tiện lợi cho các phép tính đơn giản, nhưng đối với các phép tính phức tạp, cú pháp và chức năng của NumPy trở nên khó hiểu và khó sử dụng.

Tác giả đưa ra một ví dụ để minh họa những hạn chế của NumPy. Giả sử chúng ta có một ma trận 5×5 A và một vectơ x có độ dài 5, chúng ta muốn tính nghiệm của Ay=x. Trong NumPy, điều này rất đơn giản, chỉ cần sử dụng hàm np.linalg.solve(A, x). Tuy nhiên, nếu chúng ta có một mảng ba chiều 100×5×5 A và một mảng hai chiều 100×5 x, chúng ta muốn tính nghiệm của Aᵢyᵢ=xᵢ, thì cú pháp của NumPy trở nên rất khó hiểu.

Tác giả chỉ ra rằng, nhược điểm thiết kế của NumPy nằm ở chỗ nó sử dụng broadcasting (phát sóng) thay vì indices (chỉ mục). Broadcasting cho phép các mảng được vận hành trên các chiều khác nhau, nhưng nó cũng khiến mã trở nên khó hiểu và gỡ lỗi. Tác giả cho rằng, sử dụng chỉ mục sẽ tốt hơn, vì nó có thể chỉ định rõ ràng chiều và thứ tự của các phép toán.

Tác giả cũng đề cập đến hàm einsum của NumPy, hàm này sử dụng quy ước tổng Einstein, có thể chỉ định rõ ràng chiều và thứ tự của các phép toán. Tác giả cho rằng, hàm einsum là một trong số ít những phần tốt của NumPy, vì nó cung cấp một cách rõ ràng và linh hoạt để thực hiện các phép toán trên mảng.

Nói chung, tác giả cho rằng thiết kế của NumPy có nhược điểm, broadcasting thay vì chỉ mục khiến mã trở nên khó hiểu và gỡ lỗi. Tác giả hy vọng có một phần mềm tính toán mảng tốt hơn, có thể cung cấp một cách rõ ràng và linh hoạt để thực hiện các phép toán trên mảng.

HN | Nóng: 325 điểm | 150 bình luận | Tác giả: MinimalAction | 9 giờ trước #

https://news.ycombinator.com/item?id=43996431

Xarray là một thư viện tốt, giải quyết các vấn đề về đặt tên và phát sóng (broadcasting) của mảng NumPy.
Sử dụng Xarray có thể giúp code dễ viết và dễ hiểu hơn, đặc biệt khi xử lý dữ liệu đa chiều.
Một số người cho rằng ngôn ngữ Julia phù hợp hơn Python cho tính toán khoa học, NumPy là một thư viện bị ép buộc ghép vào Python.
Vấn đề hiệu năng của Python là một điểm đau, Julia có lợi thế rõ ràng, nhưng hiện tại phạm vi sử dụng của Julia còn khá hẹp.
Trong tương lai có thể xuất hiện một tình huống, đó là tất cả các ngôn ngữ đều có thể đạt đến mức hiệu năng tương đương, hiệu năng sẽ không còn là lý do chính để lựa chọn ngôn ngữ.
Trí tuệ nhân tạo có thể giúp dịch code từ ngôn ngữ này sang ngôn ngữ khác, thậm chí có thể tự động tối ưu hóa code để cải thiện hiệu năng.

Malicious compliance by booking an available meeting room #

https://www.clientserver.dev/p/malicious-compliance-by-booking-an

Năm 2011, Larry Page trở thành CEO của Google và cố gắng giải quyết vấn đề họp hành. Ông đã thực hiện một số chính sách mới, bao gồm mỗi cuộc họp phải có một người ra quyết định, số lượng người tham gia không được quá 10 người, mọi người đều phải đóng góp ý kiến, thời gian họp không được quá 50 phút để người tham gia có thời gian nghỉ ngơi và sử dụng nhà vệ sinh. Tuy nhiên, những chính sách này không mang lại nhiều thay đổi, mọi người vẫn ở trong phòng họp quá thời gian quy định.

Có một lần, một nhóm ở văn phòng New York phát hiện ra cuộc họp đứng của họ mất khoảng 10 phút, và họ không muốn xung đột với các cuộc họp khác. Vì vậy, họ bắt đầu đặt phòng họp vào 10 phút cuối mỗi giờ, vì những người khác đã đặt cuộc họp 50 phút. Họ sẽ vào phòng họp khi đến giờ đã đặt và nói với những người khác rằng họ đã đặt 10 phút cuối của phòng họp.

Hành vi của nhóm này có thể được coi là một kiểu tuân thủ ác ý, họ hành động theo quy tắc, nhưng thực tế lại phá hoại việc tiến hành bình thường của cuộc họp. Hành vi của họ gây ra sự bất mãn cho những người khác, nhưng cũng cho thấy vấn đề văn hóa họp hành trong công ty. Chính sách của Larry Page tuy xuất phát từ ý tốt, nhưng lại không thực sự giải quyết được vấn đề họp hành, mà còn dẫn đến một số hậu quả không mong muốn.

Tác giả của bài viết này hồi tưởng lại trải nghiệm này và suy ngẫm về văn hóa họp hành trong công ty. Ông cho rằng, cuộc họp nên là một phương thức giao tiếp hiệu quả, nhưng thực tế lại thường biến thành một hoạt động lãng phí thời gian. Tác giả cũng đề cập đến những câu chuyện liên quan khác, chẳng hạn như lỗi của Google Docs và vấn đề sử dụng create-react-app, cho thấy những thách thức và vấn đề khác nhau trong phát triển phần mềm.

HN | Nóng: 293 điểm | 275 bình luận | Tác giả: jakevoytko | 11 giờ trước #

https://news.ycombinator.com/item?id=43994765

Một số trường đại học áp dụng hệ thống “học kỳ học thuật”, nghĩa là thời gian bắt đầu thực tế của các khóa học muộn hơn 15 phút so với thời gian đã lên lịch, để sinh viên có đủ thời gian đến lớp tiếp theo.
Hệ thống này cho phép sinh viên có thời gian đệm, tránh việc đến muộn hoặc rời lớp sớm do thời gian eo hẹp.
Ở một số quốc gia, thời gian bắt đầu khóa học được đánh dấu là “c.t.” (cum tempore), cho biết thời gian bắt đầu thực tế muộn hơn 15 phút so với thời gian đã lên lịch.
Nếu giáo viên không đến trong thời gian quy định, sinh viên có thể rời đi sau 15 phút.
Một số giáo sư sẽ phạt những sinh viên đi muộn hoặc vắng mặt, chẳng hạn như khóa cửa không cho sinh viên đi muộn vào lớp.
Cũng có một số giáo sư sử dụng hệ thống điểm âm, khuyến khích sinh viên chịu trách nhiệm về câu trả lời của mình và hiểu rõ về sự không chắc chắn của bản thân.
Một số người cho rằng hệ thống này có thể gây ra những ảnh hưởng không công bằng đối với những sinh viên có vấn đề về sức khỏe hoặc các trường hợp đặc biệt khác.

Coinbase says hackers bribed staff to steal customer data, demanding $20M ransom #

https://www.cnbc.com/2025/05/15/coinbase-says-hackers-bribed-staff-to-steal-customer-data-and-are-demanding-20-million-ransom.html

Công ty Coinbase gần đây đã gặp phải một vụ tấn công mạng, trong đó tin tặc đã hối lộ nhân viên hỗ trợ ở nước ngoài của công ty để có được dữ liệu nhạy cảm của một số khách hàng. Dữ liệu này bao gồm tên, địa chỉ, số điện thoại, địa chỉ email, số tài khoản ngân hàng, số an sinh xã hội của khách hàng. Sau đó, tin tặc đã gửi một email cho Coinbase, yêu cầu trả khoản tiền chuộc 20 triệu đô la để đổi lấy việc không công khai những dữ liệu này.

Công ty Coinbase cho biết họ đã phát hiện ra sự cố này và ngay lập tức hành động, chấm dứt hợp đồng lao động của những người liên quan và thông báo cho những khách hàng có thể bị ảnh hưởng. Công ty cũng đã tăng cường các biện pháp giám sát gian lận để ngăn chặn các sự cố tương tự xảy ra lần nữa. Coinbase cho biết họ sẽ không trả tiền chuộc mà sẽ hợp tác với cơ quan thực thi pháp luật để truy cứu trách nhiệm của tin tặc.

Sự cố này có thể gây ra tổn thất đáng kể cho công ty Coinbase, ước tính lên tới 400 triệu đô la. Cổ phiếu của công ty cũng đã giảm sau khi sự cố xảy ra. Công ty Coinbase cho biết họ sẽ bồi thường cho những khách hàng bị ảnh hưởng và sẽ thành lập một quỹ khen thưởng trị giá 20 triệu đô la để thưởng cho những cá nhân cung cấp manh mối và giúp bắt giữ tin tặc.

Công ty Coinbase là một nền tảng giao dịch tiền điện tử lớn, gần đây vừa công bố kế hoạch mua lại nhằm mở rộng phạm vi kinh doanh toàn cầu. CEO của công ty, Brian Armstrong, cho biết mục tiêu của công ty là trở thành ứng dụng dịch vụ tài chính lớn nhất thế giới. Trong cuộc gọi hội nghị báo cáo thu nhập gần đây, Armstrong cho biết công ty sẽ tiếp tục đầu tư vào các biện pháp an ninh và tuân thủ để bảo vệ tài sản và dữ liệu của khách hàng.

Sự cố này làm nổi bật những thách thức về an ninh mà các nền tảng giao dịch tiền điện tử phải đối mặt. Tin tặc hối lộ nhân viên nội bộ để có được dữ liệu nhạy cảm là một thủ đoạn phổ biến trong các cuộc tấn công mạng. Phản ứng của công ty Coinbase là kịp thời, ngay lập tức hành động, chấm dứt hợp đồng lao động của những người liên quan và tăng cường các biện pháp giám sát gian lận. Tuy nhiên, sự cố này vẫn gây ảnh hưởng đến uy tín và niềm tin của khách hàng đối với công ty.

HN | Nóng: 273 điểm | 311 bình luận | Tác giả: gpi | 9 giờ trước #

https://news.ycombinator.com/item?id=43996307

Coinbase làm rò rỉ dữ liệu khách hàng, khiến khách hàng đối mặt với rủi ro lừa đảo và an ninh
Thông tin cá nhân, lịch sử giao dịch và hình ảnh giấy tờ tùy thân do chính phủ cấp của khách hàng bị rò rỉ, làm tăng nguy cơ bị lừa đảo và bắt cóc
Các công ty nên thực hiện các biện pháp bảo vệ dữ liệu nghiêm ngặt hơn, chẳng hạn như GDPR, để ngăn chặn rò rỉ dữ liệu
Các biện pháp an ninh của Coinbase không đủ, dẫn đến rò rỉ dữ liệu khách hàng, công ty nên chịu trách nhiệm
Khách hàng nên cảnh giác với thông tin cá nhân và an toàn tài sản của mình, tránh sử dụng các nền tảng giao dịch không an toàn
Luật KYC của chính phủ Hoa Kỳ khiến Coinbase phải thu thập thông tin giấy tờ tùy thân do chính phủ cấp của khách hàng, làm tăng nguy cơ rò rỉ dữ liệu
Đặc tính phi tập trung của các nền tảng giao dịch tiền điện tử khiến an toàn tài sản của khách hàng đối mặt với rủi ro lớn hơn
Khách hàng nên cân nhắc chuyển tiền điện tử sang nền tảng hoặc ví an toàn hơn để bảo vệ an toàn tài sản của mình
Sự cố rò rỉ dữ liệu có thể khiến khách hàng phải chịu tổn thất kinh tế và tổn thương tinh thần to lớn, công ty nên cung cấp đủ bồi thường và hỗ trợ
Các nền tảng giao dịch tiền điện tử nên nâng cao các biện pháp an ninh và tính minh bạch để giành được sự tin tưởng và tự tin của khách hàng

Grok answers unrelated queries with long paragraphs about “white genocide” #

https://twitter.com/grok/status/1922651218595439063

Câu trả lời của Grok không liên quan đến câu hỏi, luôn đề cập đến “diệt chủng người da trắng”, nhưng hiện tại nội dung này không còn thấy được nữa.

HN | Nóng: 251 điểm | 104 bình luận | Tác giả: Fraterkes | 1 ngày trước #

https://news.ycombinator.com/item?id=43987266

Bài đăng này bị đánh dấu vì có người cảm thấy nó gây khó chịu và liên quan đến các vấn đề chính trị.
Có người cho rằng nhiều người dùng trên Hacker News đồng ý với quan điểm này, nhưng không muốn thảo luận.
Có người cảm thấy câu trả lời của Grok không liên quan đến câu hỏi và luôn đề cập đến “diệt chủng người da trắng”.
Có người cho rằng Hacker News không còn là một nền tảng thảo luận tự do nữa, và nhiều bài đăng bị đánh dấu sai.
Có người cảm thấy cần thiết phải tạo ra một nền tảng Hacker News thay thế, chẳng hạn như Tildes hoặc Mastodon.
Có người cho rằng phần lớn người dùng trên Hacker News là những người đàn ông trẻ tuổi, giàu có, thông minh, và họ dễ bị ảnh hưởng bởi một số tư tưởng nhất định.
Có người cảm thấy giới công nghệ hiện tại đã bị ảnh hưởng bởi tư tưởng cực hữu, chẳng hạn như chủ nghĩa phát xít và chủ nghĩa phân biệt chủng tộc.
Có người cho rằng câu trả lời của Grok đã bị cố ý thao túng, nhằm mục đích tuyên truyền một số tư tưởng nhất định.
Có người cảm thấy Hacker News đã mất đi tinh thần thảo luận tự do ban đầu, trở nên bảo thủ và bài ngoại hơn.

Migrating to Postgres #

https://engineering.usemotion.com/migrating-to-postgres-3c93dff9c65d

Công ty Motion đã bắt đầu sử dụng CockroachDB từ đầu năm 2022, một loại cơ sở dữ liệu có khả năng mở rộng theo chiều ngang, tính khả dụng cao và giao diện tương thích SQL. Tuy nhiên, cùng với sự phát triển của công ty và sự gia tăng về mức sử dụng, chi phí của CockroachDB cũng tăng lên, đến năm 2024, hóa đơn CockroachDB của Motion đã lên tới sáu con số. Mặc dù vậy, công ty không yêu cầu bản địa hóa dữ liệu và vẫn thực hiện các truy vấn giao dịch đơn giản trong một khu vực duy nhất, do đó không cần phải trả tiền cho một cơ sở dữ liệu phân tán.

Trong quá trình sử dụng CockroachDB, công ty đã gặp phải một số vấn đề. Đầu tiên, việc di chuyển của Prisma thường xuyên bị hết thời gian chờ, dẫn đến việc triển khai bị chặn trong nhiều giờ. Các nhà phát triển phải chạy di chuyển thủ công, đây là một quá trình rất tốn thời gian. Thứ hai, các tác vụ ETL cũng thường xuyên bị hết thời gian chờ, dẫn đến việc đồng bộ hóa dữ liệu không đầy đủ. Cuối cùng, tốc độ truy vấn cũng có vấn đề, trình tối ưu hóa truy vấn của CockroachDB trong một số trường hợp có thể làm chậm truy vấn.

Để giải quyết những vấn đề này, công ty đã quyết định di chuyển sang Postgres. Quá trình di chuyển tương đối đơn giản, vì công ty đã sử dụng framework ORM, có thể dễ dàng chuyển đổi giữa các cơ sở dữ liệu khác nhau. Sau khi di chuyển, công ty nhận thấy hiệu suất của Postgres tốt hơn, tốc độ truy vấn nhanh hơn và các tác vụ ETL cũng trở nên đáng tin cậy hơn.

Trong quá trình di chuyển, công ty cũng phát hiện ra một số nhược điểm của CockroachDB. Ví dụ, giao diện người dùng (UI) của CockroachDB hiển thị các chỉ mục không được sử dụng, gây nhầm lẫn cho các nhà phát triển. Ngoài ra, việc hủy các truy vấn đang chạy cũng trở nên rất khó khăn, cần phải đăng nhập vào bảng điều khiển và hủy truy vấn thủ công. Cuối cùng, hỗ trợ của CockroachDB cũng có vấn đề, cổng hỗ trợ là một trang web độc lập, cần xác thực riêng.

Nói chung, quá trình di chuyển từ CockroachDB sang Postgres của công ty Motion là một quá trình phức tạp, đòi hỏi phải giải quyết nhiều vấn đề kỹ thuật. Tuy nhiên, sau khi di chuyển, công ty nhận thấy hiệu suất và độ tin cậy của Postgres tốt hơn, có thể hỗ trợ tốt hơn cho sự phát triển của hoạt động kinh doanh.

HN | Nóng: 224 điểm | 257 bình luận | Tác giả: shenli3514 | 1 ngày trước #

https://news.ycombinator.com/item?id=43989497

1 triệu dòng dữ liệu không còn là lớn đối với các máy chủ hiện đại, Postgres đơn node có thể dễ dàng xử lý.
Khi số lượng dòng trong bảng đạt đến 1 triệu, có thể cần xem xét phân mảnh hoặc lưu trữ theo dấu thời gian để tối ưu hóa việc lưu trữ dữ liệu.
Khối lượng công việc đọc/ghi và kích thước dòng sẽ ảnh hưởng đến hiệu suất của Postgres, nhưng nói chung, các bảng dưới 1-2 triệu dòng có thể được xử lý tốt.
Sử dụng phân mảnh, bộ nhớ đệm và bản sao đọc có thể cải thiện đáng kể khả năng xử lý các bảng lớn của Postgres.
Ngay cả các bảng có hàng tỷ dòng, Postgres vẫn có thể xử lý thông qua tối ưu hóa và cấu hình phù hợp.
Postgres đơn node có thể xử lý một lượng lớn dữ liệu, nhưng khi lượng dữ liệu quá lớn, cần xem xét cơ sở dữ liệu phân tán hoặc các giải pháp tối ưu hóa khác.
Các bảng dưới 1 triệu dòng có thể cải thiện hiệu suất bằng cách tối ưu hóa truy vấn, bộ nhớ đệm và lập chỉ mục.
Những cải tiến của Postgres giúp ngay cả các cơ sở dữ liệu có kích thước trung bình cũng có thể dễ dàng xử lý một lượng lớn dữ liệu.
Việc thêm giá trị mặc định vào cột không còn cần phải khóa toàn bộ bảng, những cải tiến của Postgres giúp thao tác này trở nên dễ dàng hơn.
Việc bảo trì các bảng lớn cần xem xét sự tăng trưởng dữ liệu và nhu cầu mở rộng trong tương lai.

EU ruling: tracking-based advertising […] across Europe has no legal basis # #

https://www.iccl.ie/digital-data/eu-ruling-tracking-based-advertising-by-google-microsoft-amazon-x-across-europe-has-no-legal-basis/

Tòa án Châu Âu đã đưa ra một phán quyết mang tính bước ngoặt, tuyên bố rằng hệ thống quảng cáo dựa trên theo dõi mà Google, Microsoft, Amazon và các công ty khác sử dụng là không có cơ sở pháp lý ở Châu Âu. Phán quyết này là để đáp lại thách thức đối với “Khung minh bạch và đồng ý” (TCF), một cơ chế mà các công ty này sử dụng để có được sự đồng ý của người dùng cho việc xử lý dữ liệu.

Bối cảnh của phán quyết này là quyết định năm 2022 của Cơ quan Bảo vệ Dữ liệu Bỉ, trong đó phát hiện TCF có một số hành vi vi phạm Quy định chung về bảo vệ dữ liệu (GDPR). Phán quyết của tòa án Bỉ đã xác nhận những phát hiện này và chỉ ra rằng TCF không đảm bảo an ninh và bảo mật dữ liệu cá nhân, cũng như không yêu cầu sự đồng ý của người dùng một cách chính xác.

TCF được sử dụng rộng rãi trong ngành quảng cáo trực tuyến, đặc biệt là trong hệ thống đấu giá thời gian thực (RTB). Hệ thống RTB cho phép các nhà quảng cáo đấu giá không gian quảng cáo theo thời gian thực và sử dụng dữ liệu cá nhân của người dùng để xác định mức độ liên quan của quảng cáo. Tuy nhiên, hệ thống này cũng có những lo ngại nghiêm trọng về quyền riêng tư, vì nó liên quan đến việc truyền tải và xử lý một lượng lớn dữ liệu cá nhân.

Phán quyết cho rằng TCF không cung cấp đủ tính minh bạch và kiểm soát, cho phép người dùng hiểu dữ liệu của họ được sử dụng và xử lý như thế nào. Việc thiếu minh bạch và kiểm soát này khiến người dùng khó đưa ra quyết định sáng suốt về cách dữ liệu của họ được sử dụng.

Phán quyết này có ý nghĩa quan trọng đối với ngành quảng cáo trực tuyến, vì nó yêu cầu các công ty đánh giá lại các hoạt động xử lý dữ liệu của họ và tìm ra những cách mới để có được sự đồng ý của người dùng. Đồng thời, phán quyết này cũng có ý nghĩa quan trọng đối với người dùng, vì nó giúp bảo vệ quyền riêng tư và an toàn dữ liệu của họ.

Nội dung cụ thể của phán quyết bao gồm, TCF đã vi phạm nhiều quy định của GDPR, bao gồm Điều 5 (1) f, Điều 25 và Điều 32, không đảm bảo an ninh và bảo mật dữ liệu cá nhân; Điều 5 (1) a và Điều 6, không yêu cầu sự đồng ý của người dùng một cách chính xác; Điều 12, 13 và 14, không cung cấp đủ tính minh bạch và kiểm soát.

Phán quyết này là một thách thức quan trọng đối với ngành quảng cáo trực tuyến, yêu cầu các công ty đánh giá lại các hoạt động xử lý dữ liệu của họ và tìm ra những cách mới để có được sự đồng ý của người dùng. Đồng thời, phán quyết này cũng có ý nghĩa quan trọng đối với người dùng, vì nó giúp bảo vệ quyền riêng tư và an toàn dữ liệu của họ.

HN | Nóng: 217 điểm | 161 bình luận | Tác giả: mschuster91 | 18 giờ trước #

https://news.ycombinator.com/item?id=43992444

Dữ liệu mà công ty thu thập nên được coi như chất phóng xạ, đặc biệt là khi liên quan đến thông tin cá nhân riêng tư, cần được xử lý cẩn thận và tiêu hủy kịp thời.
Nếu một công ty không thể hoạt động kinh doanh mà không thu thập lượng lớn dữ liệu người dùng, thì loại hình kinh doanh này có lẽ không nên tồn tại.
Trừ khi người dùng được bồi thường, công ty không nên thu thập và sử dụng dữ liệu của người dùng.
Công ty nên xem xét chi phí và rủi ro tiềm ẩn của dữ liệu khi thu thập dữ liệu, thay vì cho rằng dữ liệu là miễn phí hoặc chi phí thấp rồi thu thập một cách tùy tiện.
Luật pháp và quy định nên trở thành một phương tiện hiệu quả để hạn chế việc công ty thu thập dữ liệu quá mức.
Công ty nên xem xét các vấn đề về quyền riêng tư khi thiết kế hệ thống, tuân thủ nguyên tắc “Quyền riêng tư theo thiết kế”, chỉ thu thập và lưu trữ thông tin cá nhân riêng tư khi cần thiết.
GDPR là một quy định tốt hơn, yêu cầu công ty phải nêu rõ thu thập những dữ liệu nào, có được sự đồng ý rõ ràng của người dùng và cung cấp các phương tiện sửa đổi dữ liệu.
Công ty nên bị xử phạt và cảnh cáo thích đáng khi vi phạm các quy định về bảo vệ dữ liệu, đảm bảo tuân thủ các quy định liên quan.

A Tiny Boltzmann Machine #

https://eoinmurray.info/boltzmann-machine

Bài viết này giới thiệu khái niệm và nguyên lý của máy Boltzmann (Boltzmann Machine). Máy Boltzmann là một mô hình trí tuệ nhân tạo sinh tạo ban đầu, được đề xuất vào những năm 1980, được sử dụng để học không giám sát, tức là học các mẫu từ dữ liệu mà không cần mục tiêu rõ ràng. Nó có thể tạo ra dữ liệu mới tương tự như dữ liệu huấn luyện, vì vậy nó còn được gọi là trí tuệ nhân tạo sinh tạo.

Máy Boltzmann là một mạng nơ-ron cố gắng học các mẫu trong dữ liệu bằng cách mô phỏng các nguyên lý năng lượng trong vật lý. Nó bao gồm một lớp hiển thị và một lớp ẩn, hai lớp được kết nối với nhau thông qua các trọng số. Trạng thái của lớp hiển thị có thể được quan sát và thiết lập, trong khi trạng thái của lớp ẩn thì không thể nhìn thấy. Hàm năng lượng của mạng được định nghĩa là một hàm của trạng thái lớp hiển thị và lớp ẩn, mục tiêu là giảm thiểu hàm năng lượng để học các mẫu trong dữ liệu.

Bài viết cũng giới thiệu máy Boltzmann bị hạn chế (Restricted Boltzmann Machine, RBM), đây là một dạng đặc biệt của máy Boltzmann, giới hạn các kết nối giữa lớp hiển thị và lớp ẩn, giúp quá trình huấn luyện nhanh hơn và dễ hiểu hơn. Máy Boltzmann bị hạn chế được huấn luyện thông qua thuật toán phân kỳ tương phản (Contrastive Divergence), bao gồm hai giai đoạn: giai đoạn dương và giai đoạn âm. Giai đoạn dương học các mẫu từ dữ liệu, giai đoạn âm tạo ra dữ liệu mới thông qua lấy mẫu Gibbs.

Ngoài ra, bài viết còn cung cấp một trình mô phỏng máy Boltzmann bị hạn chế, người dùng có thể tìm hiểu về quá trình huấn luyện và quá trình tạo dữ liệu của máy Boltzmann bị hạn chế thông qua trình mô phỏng. Trình mô phỏng bao gồm các phần như mẫu đầu vào, tái cấu trúc đầu ra, tổn thất năng lượng và cập nhật trọng số. Người dùng có thể hiểu nguyên lý hoạt động của máy Boltzmann bị hạn chế bằng cách điều chỉnh các tham số và quan sát kết quả.

Tóm lại, bài viết này giới thiệu chi tiết về máy Boltzmann và máy Boltzmann bị hạn chế, bao gồm nguyên lý, quá trình huấn luyện và ứng dụng của chúng. Đồng thời, cung cấp một trình mô phỏng để giúp người dùng hiểu rõ hơn về những khái niệm này.

HN | Nóng: 214 điểm | 39 bình luận | Tác giả: anomancer | 11 giờ trước #

https://news.ycombinator.com/item?id=43995005

Nghiên cứu bị coi là lãng phí ở Hoa Kỳ vì nó thường không mang lại lợi ích ngay lập tức, và ban lãnh đạo hiện tại tin rằng nghiên cứu gây ra mối đe dọa cho lợi ích của họ.
Máy tính lượng tử có thể tìm ra câu trả lời tốt nhất bằng cách thử một số lượng lớn các giải pháp kết hợp, nhưng điều này đòi hỏi một lượng lớn tài nguyên phần cứng.
Máy Boltzmann bị hạn chế (RBM) do cấu trúc vô hướng của nó, không thể xây dựng đồ thị tính toán như mạng tiến thẳng, do đó cần sử dụng lấy mẫu Gibbs để điều chỉnh trọng số.
Giá trị của nghiên cứu thường bị bỏ qua, đặc biệt là đóng góp của sinh viên tốt nghiệp, những người thường đóng vai trò quan trọng trong các nghiên cứu tiếp theo.
Trí tuệ lượng tử có thể cách mạng hóa hoàn toàn quỹ đạo phát triển của xã hội và công nghệ, nếu có một loài ngoài hành tinh sở hữu hệ thống nhận thức và hệ thần kinh lượng tử tiên tiến.
Người bình luận nhớ lại các nghiên cứu và triển khai trước đây về Máy Boltzmann bị hạn chế, chia sẻ các video và tài nguyên liên quan.

Show HN: Muscle-Mem, a behavior cache for AI agents #

https://github.com/pig-dot-dev/muscle-mem

Muscle Mem là một hệ thống bộ nhớ cache hành vi, được sử dụng cho các AI Agent. Nó là một Python SDK, ghi lại các mẫu gọi công cụ của agent, khi một tác vụ được thực hiện lặp đi lặp lại, nó sẽ xác định và phát lại các quỹ đạo đã học được, nếu phát hiện các trường hợp ngoại lệ, nó sẽ quay trở lại chế độ agent. Mục tiêu của Muscle Mem là loại bỏ các mô hình ngôn ngữ lớn (LLM) khỏi đường dẫn nóng của các tác vụ lặp đi lặp lại, tăng tốc độ, giảm sự biến đổi và loại bỏ chi phí token.

Muscle Mem không phải là một framework agent khác. Bạn có thể triển khai agent theo cách riêng của mình, sau đó cắm nó vào engine của Muscle Mem. Khi một tác vụ được đưa ra, engine sẽ xác định xem môi trường đã từng được nhìn thấy trước đây (cache hit) hay là mới (cache miss). Nếu là cache hit, engine sẽ sử dụng quỹ đạo đã truy xuất để thực hiện tác vụ; nếu là cache miss, engine sẽ chuyển tác vụ cho agent. Engine cũng sẽ thu thập các sự kiện gọi công cụ để thêm vào bộ nhớ cache như một quỹ đạo mới.

Phần quan trọng của Muscle Mem là xác thực bộ nhớ cache. Để thêm khả năng tái sử dụng công cụ an toàn vào agent, bạn cần tự hỏi: đối với mỗi công cụ mà agent thực hiện, những đặc điểm nào trong môi trường có thể được sử dụng để chỉ ra liệu có an toàn để thực hiện thao tác đó hay không? Nếu bạn có thể trả lời câu hỏi này, agent có thể có trí nhớ cơ bắp.

Muscle Mem cung cấp một API, bao gồm engine, công cụ và kiểm tra. Engine là trình thực thi chính của agent, quản lý bộ nhớ cache của riêng mình và xác định thời điểm gọi agent. Công cụ là các thao tác mà agent thực hiện, có thể được ghi lại bằng decorator @engine.tool. Kiểm tra là các khối xây dựng cơ bản của xác thực bộ nhớ cache, được sử dụng để xác định xem có an toàn để thực hiện một thao tác nhất định hay không.

Muscle Mem hoạt động bằng cách, khi agent thực hiện một tác vụ, engine sẽ kiểm tra xem có quỹ đạo nào liên quan đến tác vụ đó trong bộ nhớ cache hay không. Nếu có, engine sẽ sử dụng quỹ đạo đó để thực hiện tác vụ; nếu không, engine sẽ chuyển tác vụ cho agent. Sau khi agent thực hiện tác vụ, engine sẽ thêm các sự kiện gọi công cụ vào bộ nhớ cache như một quỹ đạo mới.

Ưu điểm của Muscle Mem là nó có thể tăng tốc độ thực thi của agent, giảm sự biến đổi và loại bỏ chi phí token. Nó cũng cung cấp một API đơn giản, cho phép các nhà phát triển dễ dàng tích hợp Muscle Mem vào agent của riêng họ. Hướng phát triển trong tương lai của Muscle Mem bao gồm cải thiện cơ chế xác thực bộ nhớ cache, tăng cường hỗ trợ cho nhiều loại tác vụ hơn và tối ưu hóa hiệu suất.

HN | Nóng: 209 điểm | 50 bình luận | Tác giả: edunteman | 1 ngày trước #

https://news.ycombinator.com/item?id=43988381

Bộ nhớ và ngữ cảnh là nút thắt cổ chai trong sự phát triển của trí tuệ nhân tạo, cần một giải pháp chung để giải quyết vấn đề này
Mục tiêu của dự án Muscle-Mem là giải phóng các mô hình ngôn ngữ lớn khỏi các tác vụ tự động lặp đi lặp lại, bằng cách chuyển đổi một cách thông minh giữa thực thi script và thực thi agent
Sử dụng phương pháp nhúng để xác thực bộ nhớ cache có thể không đủ tin cậy, cần xem xét các phương pháp khác để giải quyết vấn đề này
Việc tham số hóa và so sánh các stack bộ lọc là những vấn đề chưa được giải quyết trong dự án Muscle-Mem
Sự thay đổi của các đặc trưng môi trường có thể ảnh hưởng đến hiệu quả của bộ nhớ cache, cần tìm cách lưu trữ và quản lý những thay đổi này
Thị trường giữa các agent có thể là một giải pháp, nơi các agent có thể xuất bản và tiêu thụ các chuỗi bộ nhớ và công cụ của nhau
Tạo ra các khái niệm ngữ cảnh có ý nghĩa là chìa khóa để giải quyết vấn đề này, có thể cần sử dụng các mô tả văn bản phong phú để giải quyết vấn đề này
Mục tiêu của dự án Muscle-Mem là giảm ma sát của các tác vụ lặp đi lặp lại, bằng cách cung cấp một hệ thống gợi ý agent mạnh mẽ hơn để thực hiện tự động hóa