2025-06-17 Top Stories

Top các câu chuyện trên Hacker News ngày 17-06-2025 #

  1. Một người đàn ông vào tù vì tội phạm ma túy đã học lập trình thông qua một dự án trong tù và nhận được vị trí kỹ sư phần mềm tại Turso thông qua Project Limbo, cho thấy khả năng phục hồi và việc làm của tội phạm.
  2. Bow Shock Systems Consulting đề xuất thành lập một câu lạc bộ phục hồi Internet, sử dụng radio LoRa và phần mềm Meshtastic để thực hiện liên lạc giữa các cộng đồng trong trường hợp mất kết nối Internet, nhằm giải quyết vấn đề gián đoạn Internet.
  3. Các API công khai của Android ẩn chứa nhiều phương thức và hằng số hài hước, chẳng hạn như isUserAMonkey() và isUserAGoat(), thể hiện sự hài hước của các nhà phát triển trong công việc nghiêm túc.
  4. Nanonets-OCR-s là một mô hình OCR tiên tiến, có thể chuyển đổi tài liệu thành Markdown có cấu trúc, hỗ trợ nhận dạng bảng, công thức và hình ảnh, nhưng có thể tồn tại vấn đề “ảo giác”.
  5. Nghiên cứu chỉ ra rằng việc sử dụng các mô hình ngôn ngữ lớn để hỗ trợ viết có thể dẫn đến gánh nặng nhận thức, làm suy yếu khả năng diễn đạt và hiểu sâu sắc, ảnh hưởng đến giáo dục và hiệu quả học tập.
  6. David Attenborough ở tuổi 99 đã hồi tưởng lại tình yêu của mình đối với đại dương và lạc quan về sự phục hồi của đại dương trong tương lai, nhấn mạnh tiềm năng của con người trong việc giải quyết các vấn đề về đại dương.
  7. Một lý thuyết mới cho rằng trọng lực có thể là biểu hiện của sự gia tăng entropy, cho rằng sự rung động và trộn lẫn ngẫu nhiên của các hạt dẫn đến hiện tượng trọng lực và có liên quan đến nhiệt động lực học lỗ đen.
  8. WhatsApp thông báo sẽ giới thiệu quảng cáo trong ứng dụng, sử dụng dữ liệu người dùng để nhắm mục tiêu quảng cáo, nhưng nội dung tin nhắn và nhật ký cuộc gọi vẫn được mã hóa đầu cuối, gây ra tranh cãi về quyền riêng tư.
  9. Zeekstd là một định dạng có thể định địa chỉ Zstandard được triển khai bằng Rust, hỗ trợ đọc ngẫu nhiên và giải nén hiệu quả dữ liệu nén, phù hợp với các tệp nén được lưu trữ từ xa.
  10. Vương quốc Anh có kế hoạch đóng cửa phần lớn các tổng đài điện thoại truyền thống trong thập kỷ tới, thay vào đó cung cấp dịch vụ băng thông rộng cáp quang thông qua “tổng đài kỹ thuật số siêu cấp”, đánh dấu sự chuyển đổi kỹ thuật số của hệ thống viễn thông.

Làm việc với cơ sở dữ liệu từ nhà tù #

Working on databases from prison

https://turso.tech/blog/working-on-databases-from-prison

Bài viết này là chia sẻ về trải nghiệm của Preston Thorpe khi làm kỹ sư phần mềm tại Turso. Bài viết được chia thành nhiều phần, kể chi tiết về cách anh ấy có được công việc này từ trong tù.


Làm thế nào để đến được đây #

Đầu bài viết, Preston Thorpe thông báo anh đã gia nhập công ty Turso với vai trò kỹ sư phần mềm. Anh nhấn mạnh rằng, mặc dù nhiều người mơ ước được làm việc với cơ sở dữ liệu và giải quyết những thách thức độc đáo, nhưng công việc này đặc biệt hơn đối với anh, vì hiện tại anh đang bị giam giữ trong một nhà tù tiểu bang. Anh tóm tắt ngắn gọn về việc mình bị bỏ tù do các quyết định liên quan đến ma túy và lựa chọn lối sống trong những năm hai mươi tuổi, đồng thời đề cập đến việc ba năm trước anh đã tham gia một dự án đại học trong tù, dự án này cung cấp máy tính có quyền truy cập internet hạn chế. Điều này đã khơi lại niềm đam mê lập trình của anh và khiến anh nhận ra rằng lập trình có thể là con đường thoát khỏi hoàn cảnh hiện tại. Anh nhanh chóng vượt qua nội dung khóa học và dành hơn 15 giờ mỗi ngày cho các dự án và đóng góp mã nguồn mở.


Tìm hiểu về Turso: Tham gia Project Limbo #

Preston Thorpe kể về cách anh ấy phát hiện ra Project Limbo của Turso vào tháng 12 năm ngoái. Project Limbo là nỗ lực của công ty Turso trong việc viết lại SQLite. Mặc dù trước đây anh ấy chưa từng làm việc với cơ sở dữ liệu quan hệ, nhưng anh ấy đã nảy sinh hứng thú với storage engine. Anh ấy nhận thấy dự án này vẫn còn ở giai đoạn đầu và có rất nhiều nhiệm vụ đơn giản để anh ấy bắt đầu. Trong tù, lập trình chiếm gần như toàn bộ thời gian của anh ấy, anh ấy làm việc khoảng 90 giờ mỗi tuần, thú vui duy nhất là một giờ xem video YouTube về kỹ thuật/lập trình mỗi ngày.

Thông qua Discord của Turso, anh ấy biết đến công ty Turso và nảy sinh hứng thú với khái niệm SQLite phân tán, đa người thuê của họ. Anh ấy đề cập rằng anh ấy đã ngưỡng mộ Glauber và Pekka trong nhiều năm và không nghĩ rằng một ngày nào đó mình có thể đóng góp ý nghĩa cho dự án đầy tham vọng của họ. Anh ấy bắt đầu đóng góp cho Project Limbo, và nó nhanh chóng trở thành nỗi ám ảnh mới của anh ấy. Anh ấy phân bổ thời gian giữa công việc và nghiên cứu sâu về mã nguồn SQLite, các bài báo học thuật về nội bộ cơ sở dữ liệu và các bài giảng CMU của Andy Pavlo.


Tiếp theo là gì #

Preston Thorpe bày tỏ rằng anh vô cùng tự hào khi có thể trở thành một ví dụ cho thấy sự nỗ lực, quyết tâm và kỷ luật có thể đạt được đến đâu, đồng thời cảm ơn Sở Cải huấn Maine và Unlocked Labs đã trao cho anh cơ hội làm việc. Anh tuyên bố rằng hiện tại anh đang làm việc toàn thời gian cho Turso, điều mà anh chưa từng dám mơ tới vài năm trước. Anh rất hào hứng khi được tham gia xây dựng sự phát triển hiện đại của SQLite.

Mặc dù tin xấu từ tòa án gần đây có nghĩa là anh sẽ không được về nhà sớm như gia đình và anh mong muốn, nhưng anh chọn coi đây là một phước lành và trong 10 tháng tới, anh sẽ tiếp tục tập trung vào việc thúc đẩy sự nghiệp của mình. Anh cảm ơn tất cả những người đã liên lạc với anh trong vài năm qua, cảm ơn đội ngũ của Unlocked Labs, đặc biệt là cha mẹ anh. Anh cảm ơn Turso đã trao cơ hội, cũng như tất cả các công ty có chính sách tuyển dụng công bằng, những người tin rằng mọi người nên có cơ hội thứ hai. Anh cảm thán rằng hành trình của mình thật siêu thực và mỗi ngày anh đều kinh ngạc về việc cuộc sống của mình đã đi xa đến đâu so với vài năm trước.


HN | Độ nóng: 655 điểm | 424 bình luận | Tác giả: dvektor #

https://news.ycombinator.com/item?id=44288937

  • Các dự án làm việc từ xa giúp giảm tỷ lệ tái phạm, trao cho tù nhân cơ hội làm việc thực tế, giúp họ có thể tiếp tục làm việc sau khi ra tù.
  • Các nước Bắc Âu chú trọng phục hồi hơn là trừng phạt, do đó tỷ lệ tái phạm thấp hơn.
  • Tù nhân giải quyết tranh chấp thông qua đối thoại giúp bồi dưỡng khả năng kiểm soát cơn giận, thích ứng tốt hơn với xã hội.
  • Dân số đơn sắc tộc có thể giúp giảm tỷ lệ tái phạm.
  • Ngay cả trong dân số đơn sắc tộc, hành vi phạm tội cũng có thể xảy ra, do đó ảnh hưởng của dân số đơn sắc tộc có thể không lớn.
  • Thời hạn tù cho các tội liên quan đến ma túy bất bạo động là quá dài, đặc biệt là so với các công ty dược phẩm lớn.
  • Những người buôn bán các loại ma túy như fentanyl gây hại cho xã hội, không nên bị coi là tội nhỏ.
  • Cái ác là một khái niệm tôn giáo, bán ma túy không đồng nghĩa với cái ác.
  • Bác sĩ kê đơn thuốc khác với những người bán thuốc bất hợp pháp về mặt đạo đức.
  • Những người buôn bán các loại ma túy như fentanyl gây ra thiệt hại lớn cho xã hội, nhiều người chết vì nó.
  • Nguồn lực thực thi pháp luật có hạn, nên ưu tiên trấn áp các tập đoàn tội phạm lớn hơn là các giao dịch ma túy quy mô nhỏ.
  • Xã hội nên cho phép sự tồn tại của một số tội nhỏ, thay vì truy tố nghiêm khắc tất cả các tội phạm.
  • Thực thi pháp luật có chọn lọc có thể che giấu sự phân biệt đối xử, việc thực thi pháp luật nên nghiêm ngặt và thống nhất hơn.
  • Cách thức thực thi pháp luật của Singapore được đề cập như một ví dụ.
  • Ngay cả ở các quốc gia hợp pháp hóa ma túy, cũng không nên dung thứ cho tất cả các hành vi giao dịch ma túy.
  • Buôn bán ma túy là một tội phạm có nạn nhân, không nên bị coi là tội phạm không có nạn nhân.

Bắt đầu Câu lạc bộ Khả năng phục hồi Internet của riêng bạn #

Start your own Internet Resiliency Club

https://bowshock.nl/irc/

Bow Shock Systems Consulting đã đưa ra khái niệm về việc thành lập Câu lạc bộ Khả năng phục hồi Internet để đối phó với các sự cố gián đoạn Internet ở châu Âu do các yếu tố như chiến tranh, địa chính trị và biến đổi khí hậu. Các câu lạc bộ này bao gồm các chuyên gia Internet, những người có thể giao tiếp với nhau trong phạm vi vài km mà không cần cơ sở hạ tầng tập trung, sử dụng radio LoRa chi phí thấp, công suất thấp, không cần giấy phép và phần mềm nhắn tin văn bản Meshtastic mã nguồn mở. Các nhóm tình nguyện viên này có thể sử dụng radio, kỹ năng kỹ thuật và các mối liên hệ cá nhân với các chuyên gia khác để khôi phục kết nối Internet.

Trang web cung cấp hướng dẫn khởi động nhanh để giúp mọi người thành lập câu lạc bộ Khả năng phục hồi Internet của riêng họ và cung cấp danh sách gửi thư để mọi người trao đổi về các câu hỏi và thảo luận chung về câu lạc bộ Khả năng phục hồi Internet. Tác giả Valerie Aurora là một kỹ sư phần mềm hệ thống với 25 năm kinh nghiệm về phần mềm nguồn mở, hệ điều hành, mạng, hệ thống tệp và tổ chức tình nguyện. Sau khi chuyển đến Amsterdam, cô bắt đầu tìm kiếm cách trả ơn cho quê hương mới của mình và ngoài công việc tư vấn hệ thống, cô còn là báo cáo viên đặc biệt về Đạo luật Khả năng phục hồi Mạng của EU, thành viên của Ủy ban Chương trình Hội nghị RIPE và diễn giả tại các hội nghị công nghệ ở Châu Âu.

Việc thành lập các câu lạc bộ Khả năng phục hồi Internet bắt nguồn từ cơn ác mộng của tác giả về việc mất điện, Internet, dịch vụ điện thoại di động, cũng như mối quan tâm về các cuộc tấn công vào thông tin liên lạc và điện của Nga ở Ukraine, các cuộc tấn công bằng phần mềm độc hại vào các tuabin gió của Đức và việc cắt đứt cáp ngầm dưới biển Baltic. Video do IXP 1-IX của Ukraine sản xuất đã dạy các quốc gia khác cách các nhà khai thác Internet Ukraine đã tăng cường và sửa chữa cơ sở hạ tầng Internet như thế nào trước và sau cuộc xâm lược của Nga năm 2022. Chính phủ Hà Lan đã không làm theo cách tiếp cận của Ukraine, hệ thống “liên lạc khẩn cấp” dựa trên đám mây của họ sẽ không hoạt động trong bất kỳ trường hợp khẩn cấp nào ảnh hưởng đến điện hoặc kết nối Internet.

Tác giả đưa ra khái niệm về kỹ thuật khủng hoảng, đó là việc các tổ chức phải nhanh chóng chuyển đổi khi đối mặt với một cuộc khủng hoảng sinh tồn, hoặc thất bại và trở nên rối loạn chức năng hơn. Các cá nhân có thể tổ chức một nhóm các chuyên gia mạng tình nguyện để liên lạc mà không cần bất kỳ cơ sở hạ tầng tập trung nào, do đó khởi động hiệu quả việc khôi phục liên lạc.

Radio LoRa và Meshtastic là những phương thức liên lạc chi phí thấp, công suất thấp, không yêu cầu cơ sở hạ tầng và giấy phép tập trung, giá rẻ, tiêu thụ điện năng thấp, chạy phần sụn Meshtastic mã nguồn mở, có thể gửi tin nhắn văn bản và kết nối với điện thoại/máy tính qua Bluetooth hoặc WiFi. So với radio nghiệp dư, LoRa/Meshtastic có thể gửi tin nhắn văn bản trong phạm vi vài km, trong khi radio nghiệp dư cần đào tạo nhiều hơn, giấy phép, ăng-ten lớn hơn và nhiều điện hơn. Trong trường hợp khẩn cấp, lý tưởng nhất là cả hai đều có sẵn.

Cụ thể, LoRa là một công nghệ độc quyền để gửi tin nhắn radio tốc độ bit thấp (~1-25kbps) với công suất rất thấp (<1W), bắt nguồn từ công nghệ chirp spread spectrum. Meshtastic là phần sụn mã nguồn mở cho radio LoRa, sử dụng giao thức lưới chuyển tiếp lũ lụt để gửi tin nhắn đến tối đa ba nút chuyển tiếp.


HN | Độ nóng: 518 điểm | 289 bình luận | Tác giả: todsacerdoti #

https://news.ycombinator.com/item?id=44287395

  • Dự án Meshtastic hoàn toàn dựa trên mạng, khó thiết lập nếu không có môi trường internet, tài liệu và tải xuống firmware đều phụ thuộc vào mạng
  • Một số người dùng nạp firmware thông qua CLI hoặc phương pháp kéo và thả, cho rằng nên hỗ trợ nhiều hơn cho các tình huống sử dụng lâu dài mà không cần mạng
  • Firmware đã biên dịch và các script nạp có thể được tìm thấy trên GitHub, Meshtastic CLI khả dụng, tài liệu tồn tại ở định dạng .mdx trong kho git
  • Có người cho rằng Meshtastic hoạt động không tốt trong sử dụng thực tế, không đáng tin cậy và không phù hợp để dựa vào trong các tình huống khẩn cấp
  • Có người đề xuất mạng WiFi công cộng có thể có giá trị hơn, các router cũ miễn phí và dễ kiếm, tiêu thụ điện năng thấp, phạm vi phủ sóng hạn chế nhưng thiết thực
  • Có người cho rằng hiệu quả thực tế của Meshtastic không tốt, các phương pháp như radio nghiệp dư truyền thống và Hamnet hiệu quả hơn
  • Có người khuyên nên thử mạng Reticulum như một giải pháp thay thế
  • Mạng Meshtastic cần một số quy hoạch, ở một số khu vực, việc bố trí các node hợp lý có thể đạt được liên lạc đáng tin cậy ở khoảng cách xa
  • Thuật toán định tuyến của Meshtastic kém hiệu quả và có nhiều dư địa để cải thiện
  • Router WiFi có diện tích phủ sóng hạn chế, tiêu thụ điện năng tương đối cao và không phù hợp để phủ sóng toàn thành phố
  • Có người nghi ngờ liệu mạng WiFi có thể hỗ trợ mạng văn bản quy mô thành phố hay không, nhưng cho rằng băng thông của nó cao hơn
  • Có người chỉ ra rằng phạm vi phủ sóng thực tế của router WiFi bị hạn chế, thường chỉ hiệu quả trong phạm vi vài chục mét trong tầm nhìn thẳng

Các câu chuyện cười và sự hài hước trong Public Android API #

Jokes and Humour in the Public Android API

https://voxelmanip.se/2025/06/14/jokes-and-humour-in-the-public-android-api/

Bài viết này thảo luận về một số API công khai thú vị và hài hước trong hệ điều hành Android. Những API này có thể mang lại sự thích thú cho các lập trình viên hơn là người dùng phổ thông. Bài viết liệt kê một vài ví dụ cụ thể:

  1. ActivityManager.isUserAMonkey():Hàm này ban đầu trông như một trò đùa, nó trả về giá trị boolean cho biết giao diện người dùng có đang “bị một con khỉ phá rối” hay không. Thực tế, hàm này liên quan đến công cụ UI Exerciser Monkey, một công cụ dành cho nhà phát triển dùng để mô phỏng chuỗi đầu vào ngẫu nhiên nhằm kiểm tra độ chịu tải của ứng dụng. Phương thức này dùng để phát hiện liệu Monkey có đang chạy hay không, lần đầu xuất hiện trong phiên bản Android 2.2 Froyo.

  2. UserManager.isUserAGoat():Hàm này có vẻ giống như một trò đùa hơn. Tài liệu dành cho nhà phát triển mô tả rằng nó dùng để “xác định người dùng gọi hàm này có bị ảnh hưởng bởi dịch chuyển không.” Hàm này được giới thiệu lần đầu trong Android 4.2 và ban đầu luôn trả về false. Tuy nhiên, từ phiên bản Android 5.0 Lollipop, nó được thay đổi để phát hiện xem trò chơi Goat Simulator có được cài trên thiết bị hay không. Đến Android 11, hàm này được sửa lại để luôn trả về false đối với các ứng dụng nhắm đến API 30 trở lên, nhằm “bảo vệ quyền riêng tư của dê”.

  3. UserManager.DISALLOW_FUN:Hằng số này được thêm vào Android 6 Marshmallow, là một chính sách thiết bị dùng để giới hạn người dùng “vui chơi giải trí”. Mô tả trong tài liệu dành cho nhà phát triển mang tính châm biếm, giống như điều gì đó mà GLaDOS có thể nói. Đây là một chính sách thực sự mà chủ sở hữu thiết bị có thể thay đổi nhằm hạn chế hành vi của người dùng thiết bị. Bên thứ ba có thể tận dụng chính sách này để vô hiệu hóa các chức năng bị cho là “quá vui vẻ” trong ứng dụng của họ.

  4. Chronometer.isTheFinalCountdown():Trong Android 8 Oreo, lớp Chronometer được thêm phương thức isTheFinalCountdown. Gọi hàm này sẽ gửi một Intent mở video The Final Countdown trên YouTube.

  5. PackageManager.FEATURE_TOUCHSCREEN_MULTITOUCH_JAZZHAND:Hằng số này được thêm vào Android 2.3 Gingerbread, dùng để mô tả các thiết bị hỗ trợ theo dõi đồng thời 5 điểm chạm. Tên gọi là một sự tham chiếu hài hước đến động tác “jazz hands”.

  6. Log.wtf():Theo tài liệu dành cho nhà phát triển, WTF là viết tắt của “What a Terrible Failure”, dùng để ghi nhận những tình huống “không thể xảy ra”, và ghi log ở cấp độ assert.

  7. AdapterViewFlipper.fyiWillBeAdvancedByHostKThx():Đây là một phương thức mang tên gọi hài hước và thân mật, có lẽ là do lập trình viên không nghĩ ra được tên tốt hơn khi đặt tên và sau đó nó lại xuất hiện trong API công khai của Android. Phương thức này được thêm vào Android 3.0 Honeycomb.

  8. IBinder.TWEET_TRANSACTIONIBinder.LIKE_TRANSACTION:Hai loại giao dịch này lần lượt được thêm vào trong Android 3.2 Honeycomb và Android 4.0.3 ICS. Tên gọi của chúng ám chỉ việc gửi tweet và bày tỏ sự yêu thích, nhưng thực tế chúng không thực hiện bất kỳ hành động nào.

  9. SensorManager.SENSOR_TRICORDERSensorManager.GRAVITY_*:Trong lớp SensorManager có một số hằng số như SENSOR_TRICORDER — thiết bị hư cấu trong loạt phim Star Trek, và các hằng số GRAVITY_* lưu trữ giá trị gia tốc trọng lực của các thiên thể trong hệ Mặt Trời. Những hằng số này bị loại bỏ từ API cấp độ 15, được thay thế bằng lớp Sensor, lớp này không bao gồm các tham chiếu tương đương như Tricorder.


HN | Độ nóng: 275 điểm | 150 bình luận | Tác giả: todsacerdoti #

https://news.ycombinator.com/item?id=44285781

  • Trên Facebook, việc thêm hậu tố _DO_NOT_USE_OR_YOU_WILL_BE_FIRED vào các nhãn nguy hiểm hoặc sắp bị loại bỏ là một cách làm tiêu chuẩn, nhưng cách làm này lại gây ra cảm giác sợ hãi và bất an trong văn hóa làm việc từ xa.
  • Trong React, __SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED cũng đã thay đổi để giảm bớt tính hài hước.
  • Có ý kiến đề xuất đưa một trích dẫn từ Westworld (Thế Giới Tương Lai) vào trong __SECRET_INTERNALS_DO_NOT_USE_OR_YOU_WILL_BE_FIRED.
  • Tên gọi hài hước thì tốt, nhưng không nên gây ra sự nhập nhằng.
  • Google từng có một khối mã khó hiểu, nhưng sau khi được đổi tên thành \[Foo\]Sorcery, mọi người không còn cố gắng thêm vào nữa, mà thay vào đó là định kỳ loại bỏ bớt.
  • Trong mã nguồn Android có một hàm thú vị android.os.Handler.runWithScissors() nhưng không nằm trong API công khai.
  • Trong X11 có một biến toàn cục party_like_its_1989 dùng để bật tắt nhiều chức năng kế thừa.
  • Trong BeOS (hiện là Haiku) có hai hàm is_computer_on()is_computer_on_fire() đều được mô tả rất chi tiết.
  • Delphi có một loại ngoại lệ tên là EProgrammerNotFound, nhưng trang tài liệu lại rất nghiêm túc.
  • Trên máy tính hiện đại, việc đánh thức từ trạng thái ngủ sâu hoặc khi bo mạch chủ đạt tới 200°C là điều bình thường, và hệ điều hành nên xử lý được điều đó.
  • Nhiều linh kiện có thông số kỹ thuật không vượt quá 140°C, một số thậm chí không quá 80°C.
  • Chip HT83C51 có thể chịu được nhiệt độ lên tới 225°C.
  • Phần lớn chip trên thị trường hiện chỉ chịu được tối đa khoảng 150°C.
  • Trong tài liệu Haiku, hàm is_computer_on() được dùng làm ví dụ.
  • Khiếu hài hước như vậy vẫn được giữ lại trong các kho mã của những công ty lớn, mang lại cảm giác ấm áp.
  • Con người cần nhiều sự hài hước kiểu đó hơn, để chống lại sự vô cảm mà phần mềm thường mang lại.
  • Trình quản lý tác vụ của Chrome từng có một cột ẩn hiển thị số lượng “dê được truyền” qua các tiến trình trình duyệt, nhưng hiện đã không còn hoạt động.
  • Có người từng phát hành một ứng dụng nhỏ để kiểm tra isUserAGoatisUserAMonkey.
  • Tuy nhiên, các thiết bị chạy Android 15 trở lên không thể cài ứng dụng này do Google bắt buộc tuân thủ phiên bản SDK biên dịch tối thiểu.
  • isUserAGoat() trên Android 11 trở lên luôn trả về false, còn isUserAMonkey() chỉ trả về true khi đang sử dụng bộ công cụ kiểm thử Monkey.
  • Người ta hoài niệm về thời đại mà sản phẩm công nghệ còn chứa các Easter egg (trứng Phục Sinh), điều đã mai một theo quá trình công ty hóa mọi thứ.

Nanonets-OCR-s – Mô hình OCR chuyển đổi tài liệu thành markdown có cấu trúc #

Nanonets-OCR-s – OCR model that transforms documents into structured markdown

https://huggingface.co/nanonets/Nanonets-OCR-s

Nanonets-OCR-s là một mô hình nhận dạng ký tự quang học (OCR) từ ảnh sang Markdown mạnh mẽ, tiên tiến nhất, vượt trội hơn các chức năng trích xuất văn bản truyền thống. Mô hình này có khả năng chuyển đổi tài liệu thành Markdown có cấu trúc, thông qua nhận dạng nội dung thông minh và gắn thẻ ngữ nghĩa, rất phù hợp để xử lý tiếp theo bằng các mô hình ngôn ngữ lớn (LLMs).

Nanonets-OCR-s sở hữu nhiều chức năng, có thể dễ dàng xử lý các tài liệu phức tạp:

  1. Nhận dạng công thức LaTeX: Tự động chuyển đổi các công thức và phương trình toán học thành cú pháp LaTeX có định dạng chính xác, đồng thời phân biệt các phương trình nội dòng ($…$) và hiển thị ($$ … $$).
  2. Mô tả ảnh thông minh: Sử dụng thẻ có cấu trúc để mô tả hình ảnh trong tài liệu, giúp LLM có thể xử lý được. Có khả năng mô tả nhiều loại hình ảnh khác nhau, bao gồm logo, biểu đồ, đồ thị, v.v., mô tả chi tiết nội dung, phong cách và ngữ cảnh của chúng.
  3. Phát hiện và cô lập chữ ký: Nhận dạng và cô lập chữ ký, xuất chúng trong thẻ , điều này rất quan trọng để xử lý các tài liệu pháp lý và thương mại.
  4. Trích xuất hình mờ: Phát hiện và trích xuất văn bản hình mờ trong tài liệu, đặt chúng trong thẻ .
  5. Xử lý hộp kiểm thông minh: Chuyển đổi các hộp kiểm và nút radio trong biểu mẫu thành các ký hiệu Unicode tiêu chuẩn (☐, ☑, ☒) để xử lý nhất quán và đáng tin cậy.
  6. Trích xuất bảng phức tạp: Trích xuất chính xác các bảng phức tạp từ tài liệu và chuyển đổi chúng thành định dạng bảng Markdown và HTML.

Sử dụng thư viện transformers, có thể sử dụng mô hình Nanonets-OCR-s theo các bước sau:

  • Nhập các thư viện và mô hình cần thiết.
  • Định nghĩa một hàm ocr_page_with_nanonets_s, hàm này nhận đường dẫn hình ảnh, mô hình, bộ xử lý và số lượng token mới tối đa làm tham số.
  • Sử dụng PIL để mở hình ảnh và xây dựng danh sách tin nhắn, bao gồm vai trò hệ thống và vai trò người dùng, trong đó vai trò người dùng chứa hình ảnh và văn bản gợi ý.
  • Truyền văn bản và hình ảnh cho bộ xử lý và tạo đầu vào mô hình.
  • Sử dụng mô hình để tạo đầu ra và giải mã các ID được tạo, để có được văn bản đầu ra.

Khi sử dụng vLLM, cần khởi động máy chủ vLLM và sử dụng ứng dụng khách OpenAI để dự đoán mô hình. Định nghĩa hàm encode_image để mã hóa hình ảnh và sử dụng hàm ocr_page_with_nanonets_s để xử lý OCR.

Khi sử dụng docext, có thể sử dụng mô hình Nanonets-OCR-s bằng cách cài đặt thư viện docext và chạy các lệnh liên quan.

Thông tin chi tiết về mô hình bao gồm:

  • Kích thước mô hình: 3.75B tham số
  • Loại tensor: BF16
  • Mô hình cơ sở: Qwen/Qwen2.5-VL-3B-Instruct
  • Số lượng mô hình tinh chỉnh: 226
  • Số lượng phiên bản lượng tử hóa của mô hình này được sử dụng: 11
  • Số lượng không gian sử dụng mô hình này: 4

Cuối cùng, cung cấp định dạng trích dẫn BibTex của mô hình, cũng như thông tin thống kê về tải xuống và sử dụng mô hình.


HN | Độ nóng: 266 điểm | 61 bình luận | Tác giả: PixelPanda #

https://news.ycombinator.com/item?id=44287043

  • Nanonets-OCR-s có thể chuyển đổi tài liệu thành Markdown có cấu trúc, bao gồm bảng, phương trình, hình ảnh, v.v.
  • Mô hình có thể tạo ra ảo giác, ví dụ như nhận dạng sai số trang.
  • Mô hình dựa trên Qwen2.5-VL-3B, tồn tại hạn chế “mô hình có thể tạo ra ảo giác”.
  • Mô hình có thể trích xuất mô tả hình ảnh, nhưng không phải bản thân hình ảnh.
  • Có công cụ có thể trích xuất hình ảnh từ PDF, không cần sử dụng mô hình ngôn ngữ lớn.
  • Mô hình có thể được sử dụng để phân tích ảnh/PDF menu nhà hàng thành tệp JSON.
  • Có người đã thử sử dụng mô hình để dịch từ điển tiếng Shipibo sang tiếng Anh, gặp vấn đề về định dạng.
  • Mô hình có thể giúp chuyển đổi các tài liệu Word và PowerPoint cũ sang định dạng chuẩn hóa.
  • Có người đề xuất sử dụng unoconv hoặc pandoc để chuyển đổi tài liệu, sau đó dùng LLM để làm sạch văn bản.
  • Có người chỉ trích mô hình chỉ nhắm mục tiêu vào Markdown, chứ không phải các định dạng có cấu trúc chặt chẽ hơn như XML.
  • Mô hình đồng thời được huấn luyện để chuyển đổi sang Markdown và đánh dấu ngữ nghĩa.
  • Có người đề cập đến sự trưởng thành và mạnh mẽ của XML và TEI trong việc đánh dấu tài liệu.
  • Có người đề cập đến ứng dụng của MyST Markdown trong xuất bản học thuật.
  • Có người hỏi tại sao MyST chứ không phải RST lại nhận được sự chú ý.
  • Có người đề xuất ePub (dựa trên XHTML) như một định dạng đầu ra khả thi khác.
  • Mô hình sẽ trích xuất chú thích cuối trang dưới dạng văn bản thông thường trên một dòng mới.
  • Có người bày tỏ lo ngại về cách xử lý chú thích cuối trang, hy vọng có phương pháp đánh dấu tốt hơn.
  • Có người thất vọng về cách triển khai “Markdown có cấu trúc”, cho rằng chỉ là đánh dấu một số phần tử nhất định.

Sự tích lũy nợ nhận thức khi sử dụng trợ lý AI cho nhiệm vụ viết luận #

Accumulation of cognitive debt when using an AI assistant for essay writing task

https://arxiv.org/abs/2506.08872

Bài viết này có tiêu đề “Bộ não của bạn khi dùng ChatGPT: Sự tích lũy Nợ Nhận thức khi Sử dụng Trợ lý AI cho Nhiệm vụ Viết Luận”, được đồng tác giả bởi Nataliya Kosmyna và 7 tác giả khác. Bài viết khám phá những ảnh hưởng về thần kinh và hành vi khi sử dụng các mô hình ngôn ngữ lớn (LLM) để hỗ trợ viết. Nghiên cứu chia người tham gia thành ba nhóm: nhóm LLM, nhóm công cụ tìm kiếm và nhóm chỉ dùng não (không sử dụng công cụ). Mỗi nhóm hoàn thành ba phiên trong cùng điều kiện. Trong phiên thứ tư, người dùng LLM được tái phân bổ vào nhóm chỉ dùng não (LLM-to-Brain), trong khi người dùng nhóm chỉ dùng não được tái phân bổ vào điều kiện LLM (Brain-to-LLM). Tổng cộng có 54 người tham gia vào các phiên 1-3, trong đó 18 người hoàn thành phiên thứ 4.

Nghiên cứu sử dụng điện não đồ (EEG) để đánh giá tải nhận thức trong quá trình viết, đồng thời sử dụng xử lý ngôn ngữ tự nhiên (NLP) để phân tích các bài viết, cùng với sự hỗ trợ của giáo viên là con người và trọng tài AI để chấm điểm bài viết. Kết quả cho thấy các nhóm thể hiện sự đồng nhất trong nhóm về NERs (nhận dạng thực thể có tên), mô hình n-gram và bản thể chủ đề. EEG tiết lộ sự khác biệt đáng kể về kết nối não bộ: những người tham gia nhóm chỉ dùng não thể hiện kết nối mạng mạnh nhất và rộng nhất; người dùng công cụ tìm kiếm cho thấy mức độ tham gia vừa phải; và người dùng LLM có kết nối yếu nhất. Hoạt động nhận thức giảm khi sử dụng các công cụ bên ngoài. Trong phiên thứ tư, những người tham gia nhóm LLM-to-Brain cho thấy sự giảm kết nối α và β, cho thấy mức độ tham gia giảm. Người dùng nhóm Brain-to-LLM cho thấy khả năng gợi nhớ bộ nhớ cao hơn và sự kích hoạt ở vùng đỉnh chẩm và vùng trán, tương tự như người dùng công cụ tìm kiếm. Quyền sở hữu bài viết tự báo cáo là thấp nhất ở nhóm LLM và cao nhất ở nhóm chỉ dùng não. Người dùng LLM cũng gặp khó khăn trong việc trích dẫn chính xác các tác phẩm của chính họ.

Mặc dù LLM mang lại sự tiện lợi tức thì, nhưng nghiên cứu phát hiện ra rằng chúng có thể mang lại những chi phí nhận thức tiềm ẩn. Trong khoảng thời gian bốn tháng, người dùng LLM luôn thể hiện kém hơn ở cấp độ thần kinh, ngôn ngữ và hành vi. Những kết quả này đặt ra những lo ngại về tác động giáo dục lâu dài của việc phụ thuộc vào LLM và nhấn mạnh sự cần thiết phải khám phá sâu hơn về vai trò của AI trong học tập. Bài viết có tổng cộng 206 trang, bao gồm 92 biểu đồ, 4 bảng và phụ lục.


HN | Độ nóng: 260 điểm | 155 bình luận | Tác giả: stephen_g #

https://news.ycombinator.com/item?id=44286277

  • Việc sử dụng trợ lý AI cho các tác vụ viết có thể dẫn đến suy giảm nhận thức hoặc mất kỹ năng
  • Những người thường xuyên sử dụng Google Maps để điều hướng bị suy giảm trí nhớ không gian, tương tự, việc phụ thuộc quá nhiều vào AI để viết có thể ảnh hưởng đến kỹ năng nhận thức
  • Hiểu kiến thức trong lĩnh vực khoa học đòi hỏi phải suy nghĩ và khám phá sâu sắc, không thể chỉ thu được bằng cách đọc lướt qua tài liệu giảng dạy
  • Viết giúp não bộ cấu trúc hóa suy nghĩ, đối thoại có cấu trúc với chính mình, khám phá các con đường khác nhau
  • Viết có thể khám phá ý tưởng sâu sắc hơn so với chỉ suy nghĩ đơn thuần
  • Viết có lợi cho sức khỏe tinh thần, nên viết blog hàng ngày để tự quan sát
  • Viết tay hoặc sao chép có thể tránh được cảm giác tê liệt do GPT mang lại
  • Thảo luận trên bảng trắng giúp nhanh chóng phát hiện vấn đề, tránh cho cuộc thảo luận rơi vào khuôn khổ lập trường
  • Sự ngắn gọn là linh hồn của trí tuệ, nội dung do LLMs tạo ra thường quá dài dòng
  • Lập trình với sự hỗ trợ của AI có thể dẫn đến việc không thể hình thành mô hình tâm lý của chương trình
  • Độ sâu hiểu biết về tài liệu sẽ tăng lên đáng kể trong quá trình giảng dạy
  • Sử dụng LLMs làm công cụ diễn đạt sẽ làm suy yếu khả năng diễn đạt và sự hiểu biết sâu sắc về chủ đề
  • Viết là một loại phép thuật, có thể mang lại sự phản ánh và thấu hiểu, nhưng tốc độ chậm
  • Khi khám phá các vấn đề toán học mới, có thể khám phá các con đường giải pháp khả thi trong tâm trí trước khi viết ra
  • Viết bản nháp giúp cấu trúc hóa suy nghĩ
  • Gợi ý (prompting) là một phần của quá trình viết, liên quan đến việc mô tả mục đích, xác định đối tượng, xây dựng cấu trúc và các bước quan trọng khác
  • Gợi ý khác với viết, nó ngắn hơn, tổ chức kém hơn và không cấu thành một bài viết thực sự, mà là xem xét cách máy móc giải thích và phản hồi

David Attenborough ở tuổi 99: ‘Tôi sẽ không thấy câu chuyện kết thúc như thế nào’ #

David Attenborough at 99: ‘I will not see how the story ends’

https://www.thetimes.com/life-style/celebrity/article/david-attenborough-book-extract-age-99-lj3rd2fg7

Bài viết này là của Ngài David Attenborough, được đăng trên tờ Sunday Times, nhân dịp sinh nhật lần thứ 99 sắp tới của ông, đồng thời chia sẻ tình yêu của ông dành cho đại dương và cái nhìn lạc quan về tương lai của đại dương.

AVUbbgM3VosRdKx4gVFcWDAWn2b.png

Mở đầu bài viết, Ngài Attenborough hồi tưởng lại những ký ức đầu tiên của ông về đại dương khi còn nhỏ, đó là ở một mỏ đá vôi cổ gần Leicester, ông tưởng tượng mình đang thám hiểm một đầm phá nhiệt đới. Ông mô tả cách mình bị thu hút bởi hóa thạch của các sinh vật biển cổ đại, những hóa thạch này đã khơi dậy sự tò mò của ông về các sinh vật ở sâu trong lòng đại dương.

Ngài Attenborough đề cập rằng, trong gần 100 năm cuộc đời mình, nhân loại đã hiểu biết về đại dương nhiều hơn bất kỳ thời kỳ nào trong lịch sử. Ông nhấn mạnh những kỳ quan thiên nhiên được khoa học biển tiết lộ, cũng như cách các công nghệ mới cho phép chúng ta ghi lại những hành vi của động vật hoang dã mà ông không thể tưởng tượng được trong những năm đầu sự nghiệp của mình. Đồng thời, ông cũng chỉ ra rằng tác động của con người đối với đại dương là sâu rộng, và 100 năm tới có thể chứng kiến sự tuyệt chủng hàng loạt hoặc sự phục hồi ngoạn mục của sinh vật biển.

Trong bài viết, Ngài Attenborough bày tỏ lo ngại về những thách thức mà đại dương có thể phải đối mặt trong tương lai, nhưng ông cũng nhấn mạnh khả năng phục hồi của đại dương. Ông đề cập đến sự tái sinh của rừng ngập mặn và rừng tảo bẹ, sự trở lại của cá voi và sự thịnh vượng của các cộng đồng ven biển. Ông cho rằng chúng ta đã biết cách giải quyết nhiều vấn đề đang phải đối mặt và có hàng trăm năm tiến bộ để làm nguồn cảm hứng.

Ngài Attenborough cũng đề cập đến những thành tựu mà nhân loại đã đạt được trong 100 năm qua trong việc giảm tỷ lệ tử vong ở trẻ sơ sinh, ngăn chặn bệnh tật, nâng cao khả năng tiếp cận giáo dục và chăm sóc sức khỏe, thu thập kiến thức khoa học làm thay đổi sự hiểu biết của chúng ta về thế giới và hợp tác trong các vấn đề toàn cầu chưa từng có. Ông nhấn mạnh rằng những đứa trẻ đang chơi trên bãi biển ngày nay sẽ trải qua một trong những giai đoạn quan trọng nhất trong lịch sử nhân loại, chúng sẽ thấy kết quả từ những lựa chọn của chúng ta.

Cuối cùng, Ngài Attenborough chia sẻ một số trải nghiệm về đại dương yêu thích của mình, với hy vọng truyền cảm hứng cho mọi người vượt ra ngoài bờ biển và đi sâu vào đáy biển. Ông mô tả trải nghiệm quay phim cá voi xanh ở Vịnh California, một thách thức khó khăn vì cá voi xanh khó bắt gặp và vào thời điểm đó không có các công nghệ hiện đại như máy bay không người lái và thẻ vệ tinh để giúp định vị. Ông đề cập rằng, mặc dù số lượng cá voi xanh đã phục hồi sau lệnh cấm săn bắt cá voi thương mại, nhưng vẫn chỉ còn khoảng 5.000 con, chỉ bằng 2% so với mức tự nhiên.

Bài viết kết thúc với thái độ lạc quan của Ngài Attenborough, ông tin rằng chỉ khi mọi người tận hưởng và hiểu thế giới tự nhiên, chúng ta mới có nhiều hy vọng hơn để cứu nó và chính chúng ta. Ông hy vọng những trải nghiệm của mình có thể truyền cảm hứng cho mọi người quan tâm đến đại dương và hành động vì tương lai của đại dương.


HN | Độ nóng: 259 điểm | 168 bình luận | Tác giả: herbertl #

https://news.ycombinator.com/item?id=44285054

  • Mọi người đã bị sốc khi bộ phim tài liệu “Ocean” của David Attenborough tiết lộ sự tàn phá của việc đánh bắt cá bằng lưới kéo đáy.
  • Một người đã đề xuất việc thả những tảng đá lớn để ngăn chặn việc đánh bắt cá bằng lưới kéo đáy, cho rằng đây là một giải pháp hiệu quả.
  • Một người đã đề cập rằng Greenpeace đã từng ngăn chặn việc đánh bắt cá bằng lưới kéo đáy bằng cách thả những tảng đá lớn.
  • Một người đã ca ngợi hành động thả đá để ngăn chặn việc đánh bắt cá bằng lưới kéo của Paolo Fanciulli là một hành động anh hùng.
  • Một người đã đặt câu hỏi liệu những tảng đá lớn có hiển thị trên sonar hay không và liệu có cần phải khảo sát đường đi của lưới kéo trước mỗi lần kéo lưới hay không.
  • Một người đã đưa ra ý tưởng về việc các tỷ phú mua những con tàu cũ và thả những tảng đá lớn để bảo vệ các ngư trường được yêu thích/dễ bị tổn thương nhất.
  • Một người đã chỉ ra rằng giới nhà giàu mới nổi đã thay thế giới quý tộc cũ, và giới nhà giàu mới nổi không có nỗi sợ hãi lịch sử về máy chém dành cho thường dân như giới quý tộc cũ.
  • Một người đã đề cập đến việc Ray Dalio tham gia vào nghiên cứu và giáo dục về đại dương.
  • Một người cho rằng những người giàu có tốt bụng trở nên điên cuồng và độc ác vì dư luận.
  • Một người tuyên bố rằng chỉ những người độc ác mới có thể duy trì sự giàu có tột độ, bởi vì cách họ sử dụng sự giàu có của mình sẽ tiêu tốn của họ.
  • Một người tranh luận rằng các tỷ phú trở nên giàu có bằng cách tạo ra giá trị, mặc dù một số người cũng giàu lên bằng những cách khác.
  • Một người không đồng ý rằng các tỷ phú trở nên giàu có bằng cách tạo ra giá trị, cho rằng họ trở nên giàu có bằng cách giữ lại giá trị cho bản thân.
  • Một người cho rằng sự giàu có của các tỷ phú được tạo ra thông qua việc chấp nhận rủi ro và công việc của nhân viên.
  • Một người cho rằng những người làm nghề tự do có thể vừa bị bóc lột vừa có thể giữ lại tất cả giá trị cho bản thân.
  • Một người nhắc nhở rằng danh sách tỷ phú của Forbes chỉ là một công cụ tiếp thị và không nên được coi là danh sách thực tế về những người giàu nhất thế giới.
  • Một người cho rằng giá trị mà một người tạo ra không tương xứng với sự giàu có, có thể là do những người khác đã rút giá trị khỏi xã hội bằng những phương tiện vô đạo đức.

Liệu trọng lực chỉ là sự gia tăng entropy? Ý tưởng khó tin được xem xét lại #

Is gravity just entropy rising? Long-shot idea gets another look

https://www.quantamagazine.org/is-gravity-just-entropy-rising-long-shot-idea-gets-another-look-20250613/

Bài viết này khám phá một quan điểm lâu đời nhưng không chính thống: trọng lực có thể chỉ là biểu hiện của sự gia tăng entropy. Bài viết được viết bởi George Musser, được xuất bản vào ngày 13 tháng 6 năm 2025.

Bài viết bắt đầu bằng việc đề cập rằng Isaac Newton không hài lòng với định luật vạn vật hấp dẫn của mình, ông và các nhà khoa học khác đã đề xuất một số mô hình cơ học, trong đó trọng lực không phải là lực hút mà là một lực đẩy. Ví dụ, không gian có thể chứa đầy các hạt vô hình, những hạt này va vào vật thể từ mọi phía. Những lý thuyết này chưa bao giờ hoàn toàn thành công, và Albert Einstein sau đó đã đưa ra một lời giải thích sâu sắc hơn, đó là trọng lực là sự bóp méo của không-thời gian. Nhưng thuyết tương đối rộng của Einstein cũng mang đến những bí ẩn của riêng nó, và chính ông cũng nhận ra rằng đây không thể là một câu trả lời cuối cùng. Do đó, quan điểm về trọng lực như một hiệu ứng tập thể - không phải là một lực cơ bản, mà là kết quả của hành vi nhóm ở quy mô tinh vi hơn - vẫn thu hút các nhà vật lý.

Bài viết tiếp tục giới thiệu rằng vào đầu năm nay, một nhóm các nhà vật lý lý thuyết đã đề xuất một phiên bản hiện đại có thể có của các mô hình cơ học thế kỷ 17 này. Dự án này là một trong nhiều cách mà các nhà vật lý đang cố gắng hiểu trọng lực như một hiện tượng nổi lên từ các hiện tượng vật lý sâu sắc hơn, vi mô hơn. Quan điểm này được gọi là trọng lực entropy tăng, nó coi các hiện tượng vật lý sâu sắc hơn về bản chất là vật lý nhiệt. Nó cho rằng trọng lực là do sự rung động và trộn lẫn ngẫu nhiên của các hạt - và sự gia tăng entropy đi kèm, tức là sự gia tăng mức độ hỗn loạn - gây ra.

Bài viết đề cập rằng những nỗ lực mô hình hóa trọng lực như một kết quả của sự gia tăng entropy đã xuất hiện không thường xuyên trong vài thập kỷ qua. Trọng lực entropy tăng là một quan điểm rất nhỏ, nhưng nó không biến mất, và ngay cả những người chỉ trích cũng không muốn phủ nhận nó hoàn toàn. Mô hình mới có một ưu điểm là nó có thể được kiểm tra bằng thực nghiệm - điều này hiếm thấy trong các lý thuyết về nền tảng bí ẩn của lực hấp dẫn phổ quát.

Bài viết giải thích thêm rằng lý thuyết trọng lực của Einstein rất nổi bật, không chỉ vì nó hiệu quả (và có vẻ đẹp toán học vượt trội), mà còn vì nó bộc lộ sự không đầy đủ của chính nó. Thuyết tương đối rộng dự đoán rằng các ngôi sao có thể sụp đổ để tạo thành lỗ đen, và ở trung tâm của những vật thể này, trọng lực trở nên mạnh vô hạn. Ở đó, không-thời gian liên tục bị xé toạc như một túi mua sắm quá tải, và lý thuyết không thể nói điều gì sẽ xảy ra tiếp theo. Ngoài ra, thuyết tương đối rộng có những điểm tương đồng đáng kinh ngạc với vật lý nhiệt, mặc dù không sử dụng bất kỳ khái niệm nhiệt nào trong quá trình phát triển của nó. Nó dự đoán rằng các lỗ đen chỉ tăng trưởng, không thu nhỏ, chỉ nuốt chửng, không nhả ra. Tính không thể đảo ngược này là đặc điểm của dòng nhiệt. Khi nhiệt lượng lưu thông, năng lượng mang một hình thức ngẫu nhiên hoặc hỗn loạn hơn; một khi nó đã làm như vậy, nó khó có thể tự sắp xếp lại một cách tự phát. Entropy định lượng sự gia tăng mức độ hỗn loạn này.

Bài viết cuối cùng thảo luận về cách các nhà vật lý tìm kiếm manh mối từ các lỗ đen, khám phá cách không-thời gian nổi lên từ các thành phần vi mô hơn. Phương pháp chính dựa trên cái gọi là nguyên lý toàn ảnh (holographic principle). Nó nói rằng sự nổi lên của không-thời gian hơi giống như một ảnh toàn ký (hologram) thông thường. Giống như một ảnh toàn ký gợi lên cảm giác về chiều sâu từ một mẫu gợn sóng được khắc trên một mặt phẳng, các mẫu trong các thành phần vi mô của vũ trụ có thể tạo ra một chiều không gian khác. Chiều mới này bị cong, do đó trọng lực tự nhiên phát sinh.

Trọng lực entropy tăng, được giới thiệu bởi Ted Jacobson, nhà vật lý lý thuyết tại Đại học Maryland, trong một bài báo nổi tiếng năm 1995, áp dụng một phương pháp liên quan nhưng khác biệt. Trước đây, các nhà vật lý bắt đầu từ lý thuyết của Einstein và suy ra các kết quả tương tự như nhiệt của nó. Nhưng Jacobson đã đi theo hướng ngược lại. Ông bắt đầu bằng cách giả định rằng không-thời gian có các tính chất nhiệt, và sử dụng các tính chất này để suy ra các phương trình của thuyết tương đối rộng. Công trình của ông xác nhận rằng sự tương đồng giữa trọng lực và nhiệt thực sự có tầm quan trọng.


HN | Độ nóng: 246 điểm | 209 bình luận | Tác giả: pseudolus #

https://news.ycombinator.com/item?id=44285874

  • Lý thuyết trọng lực entropy tăng tương tự như “hiệu ứng hạt Brazil”, nghĩa là các vật thể có khối lượng lớn sẽ hút nhau dưới tác động của các hạt ngẫu nhiên, tạo thành “bóng”.
  • Các bài giảng của Feynman đã đề cập đến một cơ chế trọng lực tương tự, nhưng có vấn đề, chẳng hạn như chuyển động của Trái Đất trên quỹ đạo sẽ bị lực cản làm chậm lại.
  • Lý thuyết trọng lực entropy tăng có thể có một giá trị nhất định, có thể coi nó như bị “tiềm năng tác động” không khối lượng oanh tạc từ mọi phía, khối lượng hấp thụ những tiềm năng này để di chuyển trong không gian và thời gian.
  • Thông qua tốc độ rung động có thể giải thích các hiện tượng phản trực giác trong vật lý hạt, tốc độ thấp tương tự như trọng lực Newton, tốc độ cao tương tự như trọng lực MOND không cần vật chất tối.
  • Entropy tăng có thể được hiểu là hệ thống có xu hướng hướng tới nhóm trạng thái có thể xảy ra trên quy mô vĩ mô.

WhatsApp giới thiệu quảng cáo trong ứng dụng của mình #

WhatsApp introduces ads in its app

https://www.nytimes.com/2025/06/16/technology/whatsapp-ads.html

Ngày 16 tháng 6 năm 2025, WhatsApp thông báo sẽ lần đầu tiên triển khai quảng cáo trong ứng dụng của mình. Động thái này đánh dấu một sự thay đổi lớn của WhatsApp trong lĩnh vực quảng cáo, đặc biệt là trong bối cảnh người dùng của họ từ lâu đã quen với môi trường trò chuyện được mã hóa đầu cuối và không có quảng cáo. Quảng cáo sẽ chỉ được hiển thị trong phần có tên là “Updates”, nơi có khoảng 1,5 tỷ người dùng sử dụng tính năng này mỗi ngày. WhatsApp cho biết họ sẽ thu thập một số dữ liệu người dùng (chẳng hạn như vị trí và ngôn ngữ mặc định của thiết bị) để nhắm mục tiêu quảng cáo, nhưng sẽ không tiếp cận nội dung tin nhắn hoặc lịch sử cuộc gọi của người dùng, đảm bảo rằng tin nhắn cá nhân, cuộc gọi và trạng thái của người dùng vẫn được mã hóa đầu cuối.

Các nhà sáng lập WhatsApp, Jan Koum và Brian Acton, đã từng nỗ lực xây dựng một công cụ liên lạc đơn giản, nhanh chóng và an toàn, và việc thực hiện chiến lược quảng cáo này đi ngược lại với ý định ban đầu của họ. Kể từ khi hai nhà sáng lập rời đi, CEO của Meta, Mark Zuckerberg, đã tập trung vào việc tăng trưởng người dùng và bảo vệ quyền riêng tư của WhatsApp, đồng thời tích hợp nó vào các sản phẩm khác của Meta. Việc đặt quảng cáo mang đến cho Meta một cơ hội kiếm lợi nhuận tiềm năng, đặc biệt là trong bối cảnh công ty đang đầu tư mạnh vào các lĩnh vực như trí tuệ nhân tạo.

Người đứng đầu WhatsApp, Will Cathcart, đảm bảo với người dùng rằng mặc dù giới thiệu quảng cáo, tính bảo mật và quyền riêng tư của ứng dụng sẽ không bị ảnh hưởng. Thông báo này được đưa ra tại Liên hoan Sáng tạo Quốc tế Cannes, WhatsApp cũng có kế hoạch ra mắt dịch vụ đăng ký hàng tháng cho người sáng tạo nội dung tương tự như các nền tảng khác (như X, YouTube và Twitch), đồng thời cho phép người dùng và doanh nghiệp chạy/đặt quảng cáo cho “kênh” của họ.

Meta trong những năm gần đây đã liên tục tìm kiếm các nguồn doanh thu chưa được khai thác, đã ra mắt dịch vụ đăng ký trả phí cho người sáng tạo trên Instagram và Facebook, đồng thời bắt đầu hiển thị quảng cáo trên ứng dụng Threads. Nhà phân tích Brian Wieser cho biết, mảng kinh doanh quảng cáo của Meta đang ở vị thế mạnh, năm ngoái công ty đã thu về 164 tỷ đô la Mỹ, gần như toàn bộ đến từ quảng cáo.

Mặc dù vậy, do hình ảnh thương hiệu của WhatsApp về quyền riêng tư của người dùng, doanh thu quảng cáo của họ có thể phải đối mặt với những thách thức so với Facebook và Instagram. WhatsApp từ lâu đã định vị mình là một công cụ trò chuyện an toàn, người dùng đặc biệt ở các quốc gia bất ổn chính trị hoặc độc tài có xu hướng sử dụng ứng dụng này hơn. Việc giới thiệu quảng cáo có thể làm dấy lên mối lo ngại của người dùng về quyền riêng tư của WhatsApp, đặc biệt là sau làn sóng phản đối toàn cầu vào năm 2021 do thay đổi điều khoản.

WhatsApp cho biết người dùng có thể chọn liên kết WhatsApp với tài khoản Instagram và Facebook để quảng cáo được nhắm mục tiêu dựa trên dữ liệu được thu thập từ các nền tảng này. Ngoài ra, WhatsApp còn cùng với Apple đấu tranh pháp lý chống lại các động thái của cơ quan quản lý Vương quốc Anh nhằm phá vỡ mã hóa, nhấn mạnh tầm quan trọng của việc bảo vệ quyền riêng tư và bảo mật dữ liệu của người dùng.


HN | Độ nóng: 176 điểm | 260 bình luận | Tác giả: greenburger #

https://news.ycombinator.com/item?id=44289412

  • Nhiều người không sẵn lòng trả tiền cho phần mềm, thà sử dụng phần mềm lậu còn hơn là trả một khoản phí nhỏ, đặc biệt là khi họ cho rằng các sản phẩm kỹ thuật số không nên phải trả tiền.
  • Mọi người sẵn sàng trả tiền cho các giao dịch tức thời hơn, chẳng hạn như mua hàng trong trò chơi và vé mùa, vì chúng được coi là mua một lần và không cần tính toán thêm.
  • Dịch vụ đăng ký nếu giá đủ rẻ sẽ làm giảm mong muốn mua, và quy trình hủy phức tạp cũng ảnh hưởng đến ý định mua của mọi người.
  • Một số người cảm thấy không hài lòng với việc WhatsApp đưa quảng cáo vào, vì họ đã từng trả phí để đổi lấy trải nghiệm không có quảng cáo.
  • Một số người cho rằng người sáng lập Facebook, Brian Acton, đã phải đối mặt với chi phí cơ hội rất lớn khi bán WhatsApp, mức giá mua lại 19 tỷ đô la rất khó từ chối.
  • Một số người cho rằng Apple đã bỏ lỡ cơ hội xây dựng dịch vụ trò chuyện đa nền tảng thông qua iMessage, và Facebook và Meta đang xâm chiếm thành trì cuối cùng của người dùng iPhone trên các dịch vụ trò chuyện.
  • Một số người cho rằng ở Mỹ, việc mọi người chuyển sang sử dụng dữ liệu của WhatsApp không rõ ràng, vì nhiều thanh thiếu niên Mỹ vẫn đang sử dụng iMessage.
  • Một số người cho rằng Google cũng đã bỏ lỡ cơ hội xây dựng dịch vụ trò chuyện đa nền tảng thông qua Hangouts, vì sự phản đối của các nhà mạng đã khiến Google từ bỏ kế hoạch này.
  • Một số người cho rằng vấn đề của việc trả một khoản phí nhỏ cho dịch vụ không nằm ở bản thân chi phí, mà nằm ở sự khó khăn trong quá trình thanh toán và những rắc rối sau khi thanh toán.

Show HN: Zeekstd – Triển khai ZSTD Seekable Format bằng Rust #

Show HN: Zeekstd – Rust Implementation of the ZSTD Seekable Format

https://github.com/rorosen/zeekstd

Trang này là trang GitHub về dự án “Zeekstd”, cung cấp một triển khai bằng ngôn ngữ Rust của Zstandard Seekable Format (Định dạng Zstandard có thể tìm kiếm). Dưới đây là bản tóm tắt chi tiết bằng tiếng Việt của trang web:

Giới thiệu dự án: Zeekstd là một triển khai bằng Rust của Zstandard Seekable Format, nó chia dữ liệu nén thành một loạt các “khung” độc lập, mỗi khung được nén riêng lẻ. Bằng cách này, việc giải nén các phần ở giữa của kho lưu trữ chỉ yêu cầu giải nén tối đa một khung dữ liệu bổ sung, thay vì toàn bộ kho lưu trữ. Zeekstd triển khai phiên bản cập nhật của định dạng có thể tìm kiếm, nhưng hoàn toàn tương thích với định dạng có thể tìm kiếm ban đầu.

Chức năng nén: Bộ mã hóa có thể tìm kiếm của Zeekstd tự động bắt đầu một khung mới sau mỗi 2MiB dữ liệu chưa nén. Có thể thay đổi cài đặt này và các tham số nén khác thông qua EncodeOptions. Đoạn mã ví dụ hiển thị cách sử dụng Encoder của Zeekstd để nén dữ liệu.

use std::{fs::File, io};
use zeekstd::Encoder;

fn main() -> zeekstd::Result<()> {
    let mut input = File::open("data")?;
    let output = File::create("seekable.zst")?;
    let mut encoder = Encoder::new(output)?;
    io::copy(&mut input, &mut encoder)?;
    // Kết thúc nén và ghi bảng địa chỉ vào cuối tệp có thể tìm kiếm
    encoder.finish()?;
    Ok(())
}

Chức năng giải nén: Theo mặc định, bộ giải mã có thể tìm kiếm sẽ giải nén tất cả nội dung, từ khung đầu tiên đến khung cuối cùng, nhưng cũng có thể chọn cấu hình để chỉ giải nén các khung cụ thể. Đoạn mã ví dụ hiển thị cách sử dụng Decoder của Zeekstd để giải nén dữ liệu.

use std::{fs::File, io};
use zeekstd::Decoder;

fn main() -> zeekstd::Result<()> {
    let input = File::open("seekable.zst")?;
    let mut output = File::create("decompressed")?;
    let mut decoder = Decoder::new(input)?;
    // Giải nén tất cả nội dung
    io::copy(&mut decoder, &mut output)?;
    let mut partial = File::create("partial")?;
    // Chỉ giải nén các khung cụ thể
    decoder.set_lower_frame(2);
    decoder.set_upper_frame(5);
    io::copy(&mut decoder, &mut partial)?;
    Ok(())
}

Công cụ dòng lệnh (CLI): Kho lưu trữ này cũng bao gồm một công cụ dòng lệnh sử dụng thư viện này.

Giấy phép: Thư viện C zstd sử dụng giấy phép kép BSD/GPLv2, trong khi Zeekstd sử dụng giấy phép BSD 2-Clause.

Hoạt động của dự án: Trang hiển thị dự án có 127 sao, 1 người theo dõi, 1 nhánh và có 8 phiên bản được phát hành, phiên bản mới nhất là v0.3.0-cli, được phát hành vào ngày 27 tháng 5 năm 2025.

Ngôn ngữ dự án: Ngôn ngữ chính được sử dụng là Rust, chiếm 94,5%, và 5,5% là ngôn ngữ Nix.

Trên đây là bản tóm tắt nội dung chính của trang dự án GitHub này.


HN | Độ nóng: 165 điểm | 34 bình luận | Tác giả: rorosen #

https://news.ycombinator.com/item?id=44284871

  • Các định dạng Seekable cho phép đọc ngẫu nhiên, có thể được sử dụng cho các tệp nén được lưu trữ từ xa, ví dụ: khởi động máy ảo qemu qua HTTPS.
  • Phiên bản seekable của zstd vẫn chưa được chuẩn hóa.
  • Tên Zeekstd là sự kết hợp của “zstd” và “seek”, không liên quan đến một dự án bảo mật khác có cùng tên “zeek”.
  • Trong một số trường hợp, việc sử dụng từ điển tùy chỉnh có thể cải thiện hiệu quả nén, đặc biệt là với kích thước khối nhỏ hơn.
  • Zstd tiêu chuẩn cho phép nhiều khung tạo thành một luồng, nhưng điều này không đủ để thực hiện tìm kiếm hiệu quả, cần có một “seek table” để ghi lại thông tin kích thước của mỗi khung nén.
  • Seekable Zstd là một luồng Zstd đa khung, với một seek table có thể bỏ qua ở cuối tệp, ghi lại kích thước nén và giải nén của mỗi khung.
  • Trong thế giới bgzip/gzip, chỉ mục được xử lý thông qua các tệp chỉ mục bên ngoài (.gzi), trong khi phương pháp của zstd được ưa chuộng hơn vì nó coi chỉ mục là một phần của tệp.

Tổng đài điện thoại ở Vương quốc Anh #

Telephone Exchanges in the UK

https://telephone-exchanges.org.uk/

Tổng đài điện thoại là trái tim của hệ thống viễn thông Anh Quốc, đã tồn tại hơn một thế kỷ. Trên toàn quốc có hơn 5.500 tổng đài điện thoại, những tòa nhà này phần lớn có vẻ ngoài bình thường, âm thầm kết nối hơn 2,54 triệu km cáp và đường dây, cho phép mọi người kết nối với nhau và giữ liên lạc với phần còn lại của thế giới.

RrQFbCxYRoMIXfxhenxc1upjnMf.png

Kể từ khi tổng đài điện thoại đầu tiên được thành lập ở London vào năm 1879, những tòa nhà có vẻ vô danh này đã lan rộng khắp nước Anh, từ Papa Stour hẻo lánh ở quần đảo Shetland (chỉ có 14 hộ gia đình) đến tổng đài lớn nhất ở Oldham, Manchester (phục vụ hơn 45.000 người dùng). Tuy nhiên, với sự phát triển nhanh chóng của các dịch vụ cáp quang kỹ thuật số, hầu hết các tổng đài điện thoại truyền thống sắp kết thúc sứ mệnh của mình.

Những tiến bộ của công nghệ hiện đại, chẳng hạn như bộ vi xử lý và sợi quang mỏng hơn cả sợi tóc người, đã làm giảm đáng kể không gian cần thiết cho mạng điện thoại dựa trên dây đồng cũ (mạng điện thoại chuyển mạch công cộng, PSTN). Do đó, giờ đây chúng ta có thể cung cấp dịch vụ băng thông rộng cáp quang cho cả nước chỉ với 1.000 “tổng đài kỹ thuật số siêu lớn” hoặc điểm giao Openreach (OHP).

Điều này có nghĩa là 4.600 tổng đài truyền thống sử dụng dây đồng vẫn đang hoạt động để cung cấp dịch vụ thoại băng thông rộng và điện thoại sắp biến mất, và số lượng người dùng phụ thuộc vào các dịch vụ này cũng đang giảm nhanh chóng, mọi người đều đang chuyển sang các dịch vụ cáp quang nhanh hơn và hiệu quả hơn. Công ty Openreach đang tham vấn với các khách hàng là nhà cung cấp dịch vụ truyền thông của mình (như Sky, Vodafone, TalkTalk và BT), lên kế hoạch đóng cửa các tổng đài “di sản” này trong thập kỷ tới.

Quá trình này sẽ là một công trình lớn, đòi hỏi phải di chuyển hàng triệu dịch vụ, đồng thời đảm bảo rằng những người dùng dễ bị tổn thương và các nhà cung cấp cơ sở hạ tầng quốc gia quan trọng của Vương quốc Anh được bảo vệ trong quá trình này. Do đó, Openreach sẽ lập kế hoạch theo từng giai đoạn, 103 tổng đài đầu tiên dự kiến sẽ đóng cửa trước tháng 12 năm 2030, việc ưu tiên đóng cửa chúng có lợi thế rõ ràng vì chi phí vận hành cao hơn. 4.500 tổng đài còn lại dự kiến sẽ đóng cửa dần trong những năm 2030.

Thông tin trên được lấy từ thông cáo báo chí do Giám đốc chiến lược của Openreach, Richard Allwood, công bố vào ngày 26 tháng 6 năm 2023.


HN | Độ nóng: 163 điểm | 68 bình luận | Tác giả: petecooper #

https://news.ycombinator.com/item?id=44284466

  • Ai đó đã chia sẻ trải nghiệm của cha họ khi làm kỹ sư/quản lý điện thoại tại GTE ở Mỹ, mô tả các biện pháp an ninh và tình hình bên trong các tòa nhà tổng đài điện thoại vào những năm 70.
  • Ai đó đã giới thiệu Connections Museum ở Seattle, nơi có bộ sưu tập các thiết bị chuyển mạch cơ điện từ nhiều thời kỳ khác nhau, điện thoại cổ, máy telex và điện thoại trả tiền.
  • Ai đó đã đề cập đến kinh nghiệm làm tình nguyện viên tại bảo tàng và đề cập đến việc bảo tàng sắp mở địa điểm thứ hai ở Denver.
  • Ai đó đã giới thiệu Kodiak Military History Museum trên đảo Kodiak, Alaska, nơi có các hệ thống điện thoại và telex hoạt động kiểu cũ.
  • Ai đó đã chia sẻ một video YouTube cho thấy những người trẻ tuổi khám phá một trung tâm chuyển mạch điện thoại vẫn đang hoạt động, chứa đầy các công nghệ cổ xưa và hiện đại.
  • Ai đó đã đề cập đến một trang web trưng bày một số thứ thú vị được làm từ điện thoại và thiết bị điện tử cũ.
  • Ai đó đã chia sẻ kinh nghiệm của cha họ khi làm việc tại BT và những chuyến tham quan các trung tâm chuyển mạch điện thoại khác nhau mà họ đã cùng nhau thực hiện.
  • Ai đó đã giới thiệu “This Museum is (not) Obsolete” (Bảo tàng này (không) lỗi thời), một nơi bạn có thể trải nghiệm tổng đài nhánh kiểu cũ.
  • Ai đó đã đề cập đến một kênh YouTube thú vị do Sam của Look Mum No Computer điều hành, với nội dung bao gồm các thiết bị âm nhạc cổ điển và các thử nghiệm điện thoại.
  • Ai đó đã giới thiệu Amberley Museum ở West Sussex, nơi có các cuộc triển lãm về lịch sử truyền thông.
  • Ai đó đã đề cập đến Avoncroft Museum gần Birmingham, Anh, nơi có một loạt các buồng điện thoại cổ, tất cả đều được kết nối với một trung tâm chuyển mạch tại chỗ.
  • Ai đó đã đề cập đến Bảo tàng Thảm ở Kidderminster và Bảo tàng Black Country ở Dudley, cũng như một loạt các bảo tàng công nghiệp ở Ironbridge.
  • Ai đó bày tỏ sự ngưỡng mộ đối với công việc lập danh mục các thư mục chuyển mạch điện thoại và tin rằng hệ thống viễn thông, với tư cách là nền tảng của công nghệ hiện đại, không nhận được đủ sự quan tâm của công chúng.
  • Ai đó đã đề cập đến tuyên bố của giáo viên vật lý vào những năm 80 rằng vị trí của các tổng đài điện thoại là bí mật quốc gia của Anh và gián điệp Liên Xô có thể đã lấy được thông tin này như thế nào.
  • Ai đó đã trả lời về thông tin về gián điệp Liên Xô và bản đồ của Anh, đồng thời chỉ ra rằng bản đồ của Liên Xô phần lớn được tạo ra dựa trên bản đồ của Cục Khảo sát Ordnance của Anh.
  • Ai đó đã đặt câu hỏi về việc liệu vị trí của các trạm biến áp điện có phải là “bí mật” hay không, lấy ví dụ về ba trạm biến áp tại Sân bay Heathrow.