Một nhà đầu tư chuyên nghiệp từng làm chuyên gia phân tích và kỹ sư phần mềm đã viết một bài báo bi quan về Nvidia, bài báo này được những người có ảnh hưởng trên Twitter lan truyền rộng rãi và trở thành một yếu tố chính dẫn đến sự sụp đổ của cổ phiếu Nvidia . "Thủ phạm." Nvidia mất gần 600 tỷ đô la giá trị thị trường, mức giảm lớn nhất trong một ngày đối với một công ty đại chúng cho đến nay.
Điểm chính của nhà đầu tư Jeffrey Emanuel này không gì khác hơn là DeepSeek đã chọc thủng được sự nhảm nhí do Phố Wall, các công ty công nghệ lớn và Nvidia tạo ra, và Nvidia được định giá quá cao . "Mọi ngân hàng đầu tư đều khuyến nghị mua Nvidia, giống như một người mù chỉ đường, nhưng không biết mình đang nói gì." Jeffrey Emanuel cho biết Nvidia cần duy trì Quỹ đạo tăng trưởng và biên lợi nhuận hiện tại đang phải đối mặt với một con đường gập ghềnh hơn nhiều so với định giá của công ty . Với năm hướng tấn công khác nhau vào Nvidia—đổi mới kiến trúc, tích hợp theo chiều dọc với khách hàng, trừu tượng hóa phần mềm, đột phá về hiệu quả và dân chủ hóa sản xuất—khả năng ít nhất một trong số chúng sẽ thành công trong việc tác động đáng kể đến biên lợi nhuận hoặc tốc độ tăng trưởng của Nvidia có vẻ rất cao. cao. Ở mức định giá hiện tại, thị trường chưa tính đến những rủi ro này.
Theo một số nhà đầu tư trong ngành, nhờ báo cáo này, Emanuel đột nhiên trở thành người nổi tiếng trên Phố Wall và nhiều quỹ đầu cơ đã trả cho ông 1.000 đô la một giờ. Tôi muốn nghe suy nghĩ của anh ấy về Nvidia và AI. Tôi bận rộn đến nỗi cổ họng đau rát, nhưng mắt thì mỏi vì đếm tiền.
Sau đây là báo cáo đầy đủ. Nghiên cứu tham khảo đầy đủ.
Là một nhà phân tích đầu tư trong khoảng 10 năm tại nhiều quỹ đầu cơ dài hạn/ngắn hạn (bao gồm cả thời gian làm việc tại Millennium và Balyasny), tôi là một chuyên gia toán học và chuyên gia máy tính đã làm việc về học sâu từ năm 2010 (khi Geoff Hinton vẫn đang nói về máy Boltzmann bị hạn chế, mọi thứ vẫn được lập trình trong MATLAB và các nhà nghiên cứu vẫn đang cố gắng chứng minh rằng họ có thể Tôi nghĩ rằng tôi có một góc nhìn khá độc đáo về sự phát triển của Công nghệ AI và mối quan hệ của nó với định giá cổ phiếu trên thị trường chứng khoán.
Trong vài năm qua, tôi đã làm việc nhiều hơn với tư cách là một nhà phát triển và có một số dự án nguồn mở phổ biến xử lý nhiều dạng mô hình/dịch vụ AI tận dụng sức mạnh về máy học (ví dụ, xem LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Source to Prompt và Pastel Inference Layer để nêu một số ví dụ gần đây). Về cơ bản, tôi sử dụng những mô hình tiên tiến này thường xuyên mỗi ngày. Tôi có 3 tài khoản Claude nên không bao giờ hết yêu cầu và tôi đã đăng ký ChatGPT Pro chỉ vài phút sau khi nó ra mắt.
Tôi cũng cố gắng theo kịp những tiến bộ nghiên cứu mới nhất và đọc kỹ tất cả các báo cáo kỹ thuật quan trọng do các phòng thí nghiệm trí tuệ nhân tạo lớn công bố. Vì vậy, tôi nghĩ tôi hiểu khá rõ về không gian này và mọi thứ đang diễn ra như thế nào. Trong khi đó, tôi đã bán khống rất nhiều cổ phiếu trong đời và đã giành giải Ý tưởng hay nhất của Câu lạc bộ nhà đầu tư giá trị hai lần (mua TMS và bán khống PDH nếu bạn chú ý). Tôi nói điều này không phải để khoe khoang mà để chứng minh rằng tôi có thể bày tỏ quan điểm của mình về vấn đề này mà không tỏ ra ngây thơ trước các nhà đầu tư chuyên nghiệp hoặc kỹ thuật. Không có cách chữa trị. Chắc chắn là có rất nhiều người giỏi toán/khoa học hơn tôi, và có rất nhiều người giỏi đầu tư dài hạn/ngắn hạn vào thị trường chứng khoán hơn tôi, nhưng tôi không nghĩ là có rất nhiều người đang ở giữa sơ đồ Venn giống như tôi.
Tuy nhiên, bất cứ khi nào tôi gặp gỡ và trò chuyện với bạn bè và đồng nghiệp cũ trong thế giới quỹ đầu cơ, chủ đề luôn nhanh chóng chuyển sang Nvidia. Không phải ngày nào cũng có một công ty vươn lên từ vị thế vô danh thành công ty có vốn hóa thị trường lớn hơn cả thị trường chứng khoán Anh, Pháp hoặc Đức cộng lại! Những người bạn này tất nhiên muốn biết ý kiến của tôi về vấn đề này. Bởi vì tôi tin tưởng mạnh mẽ vào tác động chuyển đổi lâu dài của công nghệ này—tôi thực sự tin rằng nó sẽ cách mạng hóa mọi khía cạnh của nền kinh tế và xã hội của chúng ta trong 5-10 năm tới theo những cách cơ bản chưa từng có—nên tôi khó có thể tranh luận rằng Nvidia Tốc độ phát triển sẽ chậm lại hoặc dừng lại trong ngắn hạn.
Nhưng mặc dù tôi nghĩ rằng định giá quá cao đối với tôi trong năm qua hoặc lâu hơn, một loạt các diễn biến gần đây khiến tôi có xu hướng nghiêng về một chút. Bản năng của tôi là thận trọng hơn về triển vọng và đặt câu hỏi về sự đồng thuận khi có vẻ như giá cả bị định giá quá cao. Có một lý do tại sao câu nói "người khôn tin vào lúc đầu, kẻ ngu tin vào lúc cuối" lại nổi tiếng.
Trường hợp thị trường tăng giá
Khi chúng ta thảo luận Trước khi chúng ta nhận được Đi sâu vào chi tiết của nghị quyết, trước tiên chúng ta hãy tóm tắt ngắn gọn về đợt tăng giá của cổ phiếu NVDA. Về cơ bản, mọi người đều biết về đợt tăng giá của cổ phiếu NVDA. Học sâu và trí tuệ nhân tạo là những công nghệ mang tính biến đổi nhất kể từ khi có Internet và hứa hẹn sẽ thay đổi cơ bản mọi thứ trong xã hội của chúng ta. Nvidia hiện đã gần như độc quyền ở một số khía cạnh về tỷ lệ chi tiêu vốn của toàn ngành dành cho cơ sở hạ tầng đào tạo và suy luận.
Một số công ty lớn nhất và có lợi nhuận cao nhất thế giới, chẳng hạn như Microsoft, Apple, Amazon, Meta, Google, Oracle, v.v., đã quyết định ở lại đây mọi chi phí. khả năng cạnh tranh trong một lĩnh vực nhất định, vì họ không thể để mình tụt hậu. Lượng chi tiêu vốn, lượng điện sử dụng, diện tích của các trung tâm dữ liệu mới được xây dựng và tất nhiên là số lượng GPU đều tăng vọt và dường như không có dấu hiệu chậm lại. Nvidia có thể đạt được mức biên lợi nhuận gộp đáng kinh ngạc lên tới hơn 90% với các sản phẩm cao cấp dành cho trung tâm dữ liệu.
Chúng ta chỉ mới khám phá được bề nổi của thị trường tăng giá này. Hiện nay có nhiều khía cạnh hơn nữa có thể khiến ngay cả những người vốn đã rất lạc quan cũng trở nên lạc quan hơn nữa. Bên cạnh sự phát triển của robot hình người (tôi ngờ rằng hầu hết mọi người sẽ ngạc nhiên khi chúng có thể nhanh chóng thực hiện một lượng lớn các nhiệm vụ hiện tại đòi hỏi những người lao động không có kỹ năng (hoặc thậm chí có kỹ năng), chẳng hạn như giặt giũ, dọn dẹp, sắp xếp và nấu ăn; công việc xây dựng như (ví dụ: cải tạo phòng tắm hoặc xây nhà; quản lý kho và lái xe nâng, v.v.), và còn nhiều yếu tố khác mà hầu hết mọi người vẫn chưa cân nhắc đến.
Một trong những chủ đề chính được thảo luận giữa những người thông minh là sự trỗi dậy của “luật mở rộng mới”, cung cấp những cách mới để suy nghĩ về cách nhu cầu điện toán sẽ phát triển theo thời gian. mô hình. Luật mở rộng ban đầu thúc đẩy sự tiến bộ của AI kể từ khi AlexNet ra đời vào năm 2012 và phát minh ra kiến trúc Transformer vào năm 2017 là luật mở rộng trước khi đào tạo: giá trị của các mã thông báo mà chúng ta sử dụng làm dữ liệu đào tạo càng cao (hiện tại là hàng nghìn tỷ) ), các mô hình chúng ta đào tạo sẽ mở rộng quy mô càng nhanh. Số lượng tham số càng cao, chúng ta càng tiêu thụ nhiều sức mạnh tính toán (FLOPS) để đào tạo các mô hình này bằng các mã thông báo này và hiệu suất của mô hình cuối cùng sẽ càng tốt hơn trên nhiều loại nhiệm vụ hạ nguồn rất hữu ích.
Không chỉ vậy, sự cải thiện này có thể dự đoán được ở một mức độ nào đó, đến mức các phòng thí nghiệm AI hàng đầu như OpenAI và Anthropic thậm chí có thể bắt đầu thực tế. Họ đã có một ý tưởng trước khi đào tạo về mức độ tốt của mô hình mới nhất của họ — trong một số trường hợp, họ thậm chí có thể dự đoán giá trị cơ sở của mô hình cuối cùng với sai số chỉ vài phần trăm. "Luật mở rộng ban đầu" này rất quan trọng, nhưng nó luôn gây ra sự nghi ngờ cho những người sử dụng nó để dự đoán tương lai.
Đầu tiên, có vẻ như chúng ta đã khai thác hết tất cả các tập dữ liệu đào tạo chất lượng cao mà thế giới đã tích lũy được. Tất nhiên, điều này không hoàn toàn đúng - vẫn còn nhiều sách và tạp chí cũ chưa được số hóa đúng cách hoặc ngay cả khi đã được số hóa, chúng cũng không có đủ giấy phép để sử dụng làm dữ liệu đào tạo. Vấn đề là, ngay cả khi bạn ghi nhận tất cả những điều này vào hồ sơ của mình—ví dụ, tổng số tất cả nội dung viết được "chuyên nghiệp" sản xuất bằng tiếng Anh từ năm 1500 đến năm 2000, khi bạn đang nói về một kho dữ liệu đào tạo gồm gần 15 nghìn tỷ mã thông báo , đó là rất nhiều dữ liệu. Theo quan điểm của CNN, đây không phải là một con số lớn, trong khi quy mô của kho dữ liệu đào tạo là quy mô của các mô hình tiên tiến hiện tại.
Để nhanh chóng kiểm tra tính xác thực của những con số này: Google Books đã số hóa khoảng 40 triệu cuốn sách cho đến nay; nếu một cuốn sách thông thường có từ 50.000 đến 100.000 từ hoặc từ 65.000 đến 130.000 token, vì vậy riêng cuốn sách đã chiếm từ 2,6T đến 5,2T token, tất nhiên phần lớn trong số đó đã được đưa vào kho dữ liệu đào tạo được các phòng thí nghiệm lớn sử dụng, bất kể có hợp pháp hay không. Ngoài ra còn có rất nhiều bài báo học thuật, riêng trên trang web arXiv đã có hơn 2 triệu bài báo. Thư viện Quốc hội có hơn 3 tỷ trang báo được số hóa. Cộng lại với nhau, tổng số có thể lên tới 7T token, nhưng vì hầu hết chúng thực sự được bao gồm trong kho dữ liệu đào tạo nên dữ liệu đào tạo "gia tăng" còn lại có thể không quá quan trọng trong toàn bộ kế hoạch.
Tất nhiên, vẫn còn nhiều cách khác để thu thập thêm dữ liệu đào tạo. Ví dụ, bạn có thể tự động phiên âm mọi video trên YouTube và sử dụng văn bản đó. Mặc dù điều này có thể hữu ích, nhưng chất lượng của nó chắc chắn kém hơn nhiều so với một cuốn sách giáo khoa hóa hữu cơ được đánh giá cao, vốn là nguồn kiến thức hữu ích về thế giới. Vì vậy, xét về quy luật thô sơ của quy mô, chúng ta liên tục phải đối mặt với mối đe dọa của "bức tường dữ liệu"; trong khi chúng ta biết rằng chúng ta có thể tiếp tục chi nhiều vốn hơn cho GPU và xây dựng nhiều trung tâm dữ liệu hơn, thì việc tạo ra kiến thức mới hữu ích cho con người ở quy mô lớn không phải là sẽ xảy ra. Điều này khó khăn hơn nhiều và kiến thức này là sự bổ sung thích hợp cho kiến thức hiện có. Hiện nay, một phản ứng thú vị là sự gia tăng của “dữ liệu tổng hợp”, trong đó bản thân văn bản là đầu ra của LLM. Mặc dù điều này có vẻ hơi vô lý, nhưng “cải thiện chất lượng mô hình thông qua nguồn cung cấp của riêng mình” thực sự có hiệu quả trong thực tế, ít nhất là trong các lĩnh vực toán học, logic và lập trình máy tính.
Lý do tất nhiên là vì đây là những lĩnh vực mà chúng ta có thể kiểm tra và chứng minh tính đúng đắn của mọi thứ một cách máy móc. Vì vậy, chúng ta có thể lấy mẫu từ các định lý toán học lớn hoặc các tập lệnh Python và thực sự kiểm tra xem chúng có chính xác hay không và chỉ dữ liệu chính xác mới được đưa vào cơ sở dữ liệu của chúng ta. Theo cách này, chúng ta có thể mở rộng đáng kể tập dữ liệu đào tạo chất lượng cao, ít nhất là trong các lĩnh vực này.
Ngoài văn bản, chúng ta cũng có thể sử dụng nhiều dữ liệu khác để đào tạo trí tuệ nhân tạo. Ví dụ, điều gì sẽ xảy ra nếu chúng ta lấy toàn bộ dữ liệu giải trình tự bộ gen của 100 triệu người (kích thước dữ liệu chưa nén của một người là khoảng 200GB đến 300GB) và sử dụng nó để đào tạo trí tuệ nhân tạo? Rõ ràng đây là một lượng dữ liệu lớn, mặc dù phần lớn dữ liệu gần như giống hệt nhau giữa hai người. Tất nhiên, việc so sánh với dữ liệu văn bản từ sách và internet có thể gây hiểu lầm vì nhiều lý do:
Kích thước bộ gen thô không thể so sánh trực tiếp với số lượng dấu hiệu
Nội dung thông tin của dữ liệu bộ gen rất khác so với văn bản. Giá trị đào tạo của dữ liệu trùng lặp cao Hiện vẫn chưa rõ ràng
Các yêu cầu tính toán để xử lý dữ liệu bộ gen cũng khác nhau
nhưng nó vẫn là một nguồn thông tin khổng lồ mà chúng ta có thể đào tạo trong tương lai, đó là lý do tại sao tôi đưa nó vào.
Vì vậy, trong khi chúng ta dự kiến sẽ có ngày càng nhiều dữ liệu đào tạo bổ sung, nếu bạn xem xét tốc độ mà kho dữ liệu đào tạo đã tăng lên trong những năm gần đây, chúng ta Chúng ta sẽ sớm gặp phải tình trạng tắc nghẽn trong việc cung cấp dữ liệu kiến thức "có ích chung", điều này có thể giúp chúng ta tiến gần hơn đến mục tiêu cuối cùng là tạo ra siêu trí tuệ nhân tạo thông minh hơn John von Neumann gấp 10 lần và trở thành người thông minh nhất từng được tạo ra. Các chuyên gia đẳng cấp thế giới trong mọi lĩnh vực chuyên môn.
Ngoài lượng dữ liệu có sẵn hạn chế, còn có những lo ngại khác ẩn chứa trong tâm trí những người ủng hộ luật gia hạn đào tạo trước. Một trong số đó là, sau khi bạn đã đào tạo mô hình của mình, bạn sẽ làm gì với toàn bộ cơ sở hạ tầng điện toán này? Đào tạo người mẫu tiếp theo? Chắc chắn, bạn có thể làm điều đó, nhưng xét đến tốc độ và khả năng của GPU được cải thiện nhanh chóng, cũng như tầm quan trọng của điện năng và các chi phí vận hành khác trong điện toán kinh tế, thì việc sử dụng cụm máy tính 2 năm tuổi để đào tạo một mô hình mới có thực sự hợp lý không? ? Tất nhiên, bạn sẽ muốn sử dụng trung tâm dữ liệu hoàn toàn mới mà bạn vừa xây dựng, có chi phí cao gấp 10 lần trung tâm cũ và có hiệu suất cao gấp 20 lần nhờ công nghệ tiên tiến hơn. Vấn đề là, đến một lúc nào đó, bạn cần phải khấu hao chi phí trả trước của các khoản đầu tư này và thu hồi chúng thông qua một luồng lợi nhuận hoạt động (hy vọng là tích cực), đúng không?
Thị trường quá phấn khích về trí tuệ nhân tạo đến nỗi bỏ qua điểm này, cho phép các công ty như OpenAI tích lũy lỗ hoạt động ngay từ đầu trong khi đầu tư vào các giai đoạn tiếp theo Trong vài năm qua Trong nhiều năm qua, công ty đã đạt được mức định giá ngày càng cao (tất nhiên, công ty cũng đã chứng minh được doanh thu tăng trưởng rất nhanh). Nhưng cuối cùng, để duy trì điều này trong toàn bộ chu kỳ thị trường, chi phí của các trung tâm dữ liệu này cuối cùng cần phải được thu hồi và lý tưởng nhất là phải có lãi, để theo thời gian, chúng có thể cạnh tranh trên cơ sở điều chỉnh rủi ro với các cơ hội đầu tư khác. Cạnh tranh với .
Mô hình mới
Được rồi, đó là quá trình đào tạo trước luật mở rộng. Vậy quy luật mở rộng “mới” này là gì? Vâng, đây là điều mà mọi người chỉ mới bắt đầu chú ý đến trong năm qua: khả năng mở rộng tính toán theo thời gian suy luận. Trước thời điểm này, phần lớn quá trình tính toán bạn dành trong quá trình này là quá trình tính toán đào tạo ban đầu để tạo mô hình. Khi bạn đã có một mô hình được đào tạo, việc thực hiện suy luận trên mô hình đó (tức là đặt câu hỏi hoặc yêu cầu LLM thực hiện một số nhiệm vụ cho bạn) chỉ sử dụng một lượng tính toán nhất định.
Điều quan trọng là tổng lượng tính toán suy luận (được đo bằng nhiều cách khác nhau, chẳng hạn như FLOPS, mức sử dụng bộ nhớ GPU, v.v.) thấp hơn nhiều so với lượng tính toán cần thiết trong giai đoạn tiền đào tạo. số lượng. Tất nhiên, khi bạn tăng kích thước cửa sổ ngữ cảnh của mô hình và lượng đầu ra mà nó tạo ra cùng một lúc, lượng tính toán suy luận sẽ tăng lên (mặc dù các nhà nghiên cứu đã có những cải tiến thuật toán đáng kinh ngạc về mặt này và ban đầu mọi người mong đợi tỷ lệ sẽ là bậc hai) . Nhưng về cơ bản, cho đến gần đây, tính toán suy luận thường ít tốn kém hơn nhiều so với tính toán đào tạo và được chia tỷ lệ gần như tuyến tính với số lượng yêu cầu được xử lý - ví dụ, càng có nhiều yêu cầu hoàn thành văn bản ChatGPT thì càng tiêu tốn nhiều tính toán suy luận.
Với sự xuất hiện của mô hình Chain-of-Thought (COT) mang tính cách mạng được ra mắt vào năm ngoái, mô hình nổi bật nhất là mô hình chủ lực của OpenAI. Tất cả đã thay đổi với O1 (nhưng gần đây hơn là mô hình mới của DeepSeek, R1, mà chúng ta sẽ thảo luận chi tiết hơn sau). Các mô hình COT mới này không còn tỷ lệ hóa lượng tính toán suy luận trực tiếp với độ dài của văn bản đầu ra do mô hình tạo ra (tăng theo tỷ lệ thuận với các cửa sổ ngữ cảnh lớn hơn, kích thước mô hình, v.v.), mà thay vào đó tạo ra các "mã thông báo logic" trung gian; Hãy nghĩ coi nó như một dạng "trí nhớ tạm thời" hoặc "độc thoại nội tâm" mà mô hình lưu giữ khi cố gắng giải quyết vấn đề của bạn hoặc hoàn thành một nhiệm vụ nhất định.
Điều này thể hiện sự thay đổi thực sự trong cách lý luận được thực hiện: bây giờ, bạn càng sử dụng nhiều mã thông báo trong quá trình suy nghĩ nội bộ này thì khả năng đưa ra kết quả cuối cùng càng cao. cho người dùng sẽ là. Chất lượng càng tốt. Trên thực tế, nó giống như việc cho một công nhân nhiều thời gian và nguồn lực hơn để hoàn thành một nhiệm vụ để họ có thể kiểm tra lại công việc của mình, hoàn thành cùng một nhiệm vụ cơ bản theo nhiều cách khác nhau và xác minh rằng kết quả là như nhau; "Cắm" kết quả vào công thức để kiểm tra xem nó có thực sự giải được phương trình hay không, v.v.
Hóa ra cách tiếp cận này hoạt động cực kỳ hiệu quả; nó tận dụng sức mạnh được mong đợi từ lâu của "học tăng cường" và sức mạnh của kiến trúc Transformer. Chức năng. Nó trực tiếp giải quyết một trong những điểm yếu lớn nhất của mô hình Transformer, đó là xu hướng gây ảo giác.
Về cơ bản, cách thức hoạt động của Transformers khi dự đoán mã thông báo tiếp theo ở mỗi bước là nếu chúng bắt đầu đi theo một "con đường" sai trong phản hồi ban đầu của chúng, chúng gần như trở thành giống như một đứa trẻ hay quanh co, cố bịa ra một câu chuyện để giải thích tại sao thực ra chúng đúng, mặc dù chúng nên dùng lý lẽ thường tình để nhận ra rằng những gì chúng nói không thể đúng. Vì các mô hình luôn cố gắng duy trì tính nhất quán nội bộ và làm cho mỗi mã thông báo được tạo ra liên tiếp theo sau một cách tự nhiên các mã thông báo và ngữ cảnh trước đó nên rất khó để định tuyến Sửa lỗi và quay lại. Bằng cách chia nhỏ quá trình lý luận thành nhiều giai đoạn trung gian, họ có thể thử nhiều cách tiếp cận khác nhau, xem cách nào hiệu quả và tiếp tục cố gắng điều chỉnh hướng đi cũng như thử các cách tiếp cận khác cho đến khi họ có thể đạt đến mức độ tự tin khá cao rằng họ không nói nhảm.
Điều đặc biệt nhất về phương pháp này, bên cạnh việc nó thực sự hiệu quả, là bạn sử dụng càng nhiều token logic/COT thì hiệu quả càng tốt. Đột nhiên, bạn có thêm một vòng quay và khi số lượng mã thông báo suy luận COT tăng lên (yêu cầu nhiều phép tính suy luận hơn, cả về mặt phép toán dấu phẩy động và bộ nhớ), thì khả năng bạn đưa ra câu trả lời đúng sẽ càng cao - mã Có không có lỗi khi chạy lần đầu tiên hoặc giải pháp cho một bài toán logic không có bước nào rõ ràng là sai trong lý luận.
Tôi có thể cho bạn biết từ nhiều kinh nghiệm thực tế rằng trong khi mô hình Claude3.5 Sonnet của Anthropic rất tuyệt vời cho lập trình Python (thực sự rất tuyệt vời), mọi Khi bạn cần tạo ra bất kỳ đoạn mã dài và phức tạp nào, chắc chắn sẽ có một hoặc nhiều lỗi ngớ ngẩn. Hiện tại, những lỗi này thường dễ sửa, trên thực tế, bạn thường chỉ có thể sử dụng lỗi do trình thông dịch Python tạo ra như một gợi ý cho lý luận tiếp theo (hoặc thực tế hơn, sử dụng cái gọi là linter để kiểm tra toàn bộ "vấn đề" " mà trình soạn thảo mã tìm thấy trong mã của bạn). được đưa vào mã), chúng sẽ được sửa mà không cần giải thích thêm. Khi mã trở nên thực sự dài hoặc phức tạp, đôi khi có thể mất nhiều thời gian hơn để sửa và thậm chí có thể cần phải gỡ lỗi thủ công.
Lần đầu tiên tôi thử mô hình O1 của OpenAI, cảm giác như được khám phá vậy: Tôi đã rất ngạc nhiên về hiệu suất hoạt động của mã ngay lần đầu tiên. Điều này là do quy trình COT tự động tìm và khắc phục sự cố trước khi mã thông báo phản hồi cuối cùng được đưa vào câu trả lời do mô hình đưa ra. Trên thực tế, mô hình O1 được sử dụng trong dịch vụ đăng ký ChatGPT Plus của OpenAI (20 đô la mỗi tháng) giống với dịch vụ đăng ký ChatGPT Pro mới (có giá gấp 10 lần giá trước). Mô hình O1-Pro trong Quest 2016 ( (có giá 200 đô la một tháng, gây náo động trong cộng đồng nhà phát triển) về cơ bản sử dụng cùng một mô hình; điểm khác biệt chính là O1-Pro suy nghĩ lâu hơn trước khi phản hồi, tạo ra nhiều thẻ logic COT hơn và mỗi phản hồi tiêu tốn rất nhiều tài nguyên tính toán suy luận. Điều này khá đáng chú ý, bởi vì ngay cả đối với Claude3.5 Sonnet hoặc GPT4o, ngay cả khi có ~400kb ngữ cảnh, thì lời nhắc thường mất chưa đầy 10 giây để bắt đầu phản hồi và thường là chưa đầy 5 giây. Lời nhắc tương tự gửi đến O1-Pro có thể mất hơn 5 phút để nhận được phản hồi (mặc dù OpenAI có hiển thị cho bạn một số "bước lý luận" mà nó tạo ra trong thời gian chờ; quan trọng là OpenAI có động cơ thương mại). Vì lý do liên quan đến bí mật , chúng tôi quyết định ẩn khỏi bạn phần lý giải chính xác mà nó tạo ra và thay vào đó hiển thị cho bạn bản tóm tắt được đơn giản hóa rất nhiều).
Như bạn có thể tưởng tượng, trong nhiều trường hợp, độ chính xác là rất quan trọng—bạn thà từ bỏ và nói với người dùng rằng bạn không thể làm được còn hơn là Sẵn sàng đưa ra những câu trả lời dễ bị chứng minh là sai, hoặc đưa ra những câu trả lời liên quan đến những sự kiện ảo tưởng hoặc những lý luận sai lầm khác. Bất cứ điều gì liên quan đến tiền bạc/giao dịch, y tế và pháp lý, v.v.
Về cơ bản, miễn là chi phí suy luận không đáng kể so với mức lương theo giờ đầy đủ của nhân viên tri thức tương tác với hệ thống AI, thì trong trường hợp này trường hợp, việc gọi phép tính COT trở nên hoàn toàn không cần thiết (nhược điểm chính là nó sẽ làm tăng đáng kể độ trễ phản hồi, do đó trong một số trường hợp, bạn có thể muốn nhận phản hồi có độ trễ ngắn hơn và độ chính xác hoặc tính đúng đắn thấp hơn). để tăng tốc độ lặp lại) .
Vài tuần trước, có một số tin tức thú vị trong lĩnh vực trí tuệ nhân tạo, liên quan đến mô hình O3 chưa được phát hành của OpenAI, có thể giải quyết một loạt các vấn đề mà trước đây được cho là Vấn đề không thể giải quyết được bằng các phương pháp AI hiện tại trong thời gian ngắn. OpenAI có thể giải quyết những vấn đề khó khăn nhất này (bao gồm cả các bài toán "cơ bản" cực kỳ khó, thậm chí là khó đối với các nhà toán học chuyên nghiệp rất giỏi) vì nó đã sử dụng một lượng lớn tài nguyên điện toán để giải quyết vấn đề — trong một số trường hợp, chi phí điện toán lên tới hơn 3.000 đô la khả năng giải quyết một nhiệm vụ duy nhất (khi so sánh, sử dụng mô hình Transformer thông thường, lý luận truyền thống cho một nhiệm vụ duy nhất khó có thể tốn hơn một vài đô la nếu không có sự liên kết suy nghĩ).
Không cần phải là một thiên tài AI mới nhận ra rằng sự tiến bộ này tạo ra một quy luật mở rộng hoàn toàn mới, hoàn toàn khác với quy luật mở rộng ban đầu được đào tạo trước đó . Bây giờ, bạn vẫn muốn đào tạo mô hình tốt nhất có thể bằng cách khéo léo tận dụng càng nhiều tài nguyên điện toán càng tốt và càng nhiều nghìn tỷ dữ liệu đào tạo chất lượng cao càng tốt, nhưng đây chỉ là khởi đầu của câu chuyện về thế giới mới này; bây giờ bạn có thể dễ dàng Cần một lượng tài nguyên tính toán khổng lồ để suy ra từ các mô hình này với độ tin cậy rất cao hoặc cố gắng giải quyết các vấn đề cực kỳ khó đòi hỏi khả năng suy luận "cấp độ thiên tài" để tránh mọi cạm bẫy tiềm ẩn có thể gây ra LL.M thông thường . đã đi lạc.
Nhưng tại sao Nvidia lại độc quyền tất cả các lợi ích?
Ngay cả khi bạn tin, như tôi, rằng tương lai của AI gần như không thể tưởng tượng được, thì câu hỏi vẫn còn đó: "Tại sao một công ty lại muốn bắt đầu từ công nghệ này?” Thực tế đã có rất nhiều công nghệ mới quan trọng trong lịch sử đã thay đổi thế giới, nhưng những công ty chiến thắng chính không phải là những công ty có triển vọng nhất trong giai đoạn đầu. Mặc dù công ty máy bay của anh em nhà Wright là nơi phát minh và hoàn thiện công nghệ này, nhưng hiện nay công ty này có giá trị dưới 10 tỷ đô la, mặc dù đã phân chia thành nhiều công ty con. Trong khi Ford hiện có giá trị vốn hóa thị trường đáng nể là 40 tỷ đô la, thì con số này chỉ bằng 1,1% giá trị vốn hóa thị trường hiện tại của Nvidia.
Để hiểu được điều này, bạn phải thực sự hiểu tại sao Nvidia lại có thị phần lớn như vậy. Suy cho cùng, họ không phải là công ty duy nhất sản xuất GPU. AMD sản xuất GPU có hiệu suất tốt và xét theo dữ liệu, số lượng bóng bán dẫn, nút xử lý, v.v. đều tương đương với Nvidia. Chắc chắn, GPU AMD không nhanh hoặc tiên tiến bằng GPU Nvidia, nhưng GPU Nvidia không nhanh hơn gấp 10 lần hay tương tự như vậy. Trên thực tế, xét về chi phí thô cho mỗi FLOP, GPU AMD chỉ mạnh bằng một nửa GPU Nvidia.
Nhìn vào các thị trường bán dẫn khác, chẳng hạn như thị trường DRAM, mặc dù thị trường này có mức độ tập trung cao, nhưng chỉ có ba công ty toàn cầu (Samsung, Micron, SK-Hynix) có Tuy nhiên, trên thực tế, biên lợi nhuận gộp của thị trường DRAM là âm ở đáy chu kỳ, khoảng 60% ở đỉnh chu kỳ và trung bình khoảng 20%. Trong khi đó, biên lợi nhuận gộp chung của Nvidia chỉ vào khoảng 75% trong các quý gần đây, bị ảnh hưởng bởi biên lợi nhuận thấp hơn và các sản phẩm đồ họa 3D tiêu dùng phổ biến hơn.
Vậy điều này có thể xảy ra như thế nào? Vâng, lý do chính liên quan đến phần mềm - trình điều khiển được thử nghiệm kỹ lưỡng và có độ tin cậy cao "hoạt động tốt" trên Linux (không giống như AMD, trình điều khiển Linux của họ nổi tiếng là chất lượng thấp và không ổn định) và mã nguồn mở được tối ưu hóa cao, chẳng hạn như PyTorch , đã được điều chỉnh để chạy tốt trên GPU Nvidia.
Không chỉ vậy, CUDA, khuôn khổ lập trình mà các lập trình viên sử dụng để viết mã cấp thấp được tối ưu hóa cho GPU, hoàn toàn thuộc sở hữu của Nvidia và đã trở thành tiêu chuẩn. Nếu bạn muốn thuê một nhóm lập trình viên cực kỳ tài năng, những người biết cách sử dụng GPU để tăng tốc công việc của họ và sẵn sàng trả cho họ 650.000 đô la/năm hoặc bất kỳ mức giá nào dành cho một người có bộ kỹ năng cụ thể đó, thì họ có thể sẽ có thể làm được điều đó. Có thể "suy nghĩ" và làm việc bằng CUDA.
Bên cạnh lợi thế về phần mềm, lợi thế lớn khác của Nvidia là cái gọi là kết nối -- về cơ bản, một cách để liên kết hiệu quả hàng nghìn GPU với nhau. băng thông, do đó chúng có thể được sử dụng chung để đào tạo các mô hình cơ bản tiên tiến nhất hiện nay. Nói tóm lại, chìa khóa để đào tạo hiệu quả là phải luôn sử dụng hết công suất của tất cả GPU, thay vì chờ đợi cho đến khi nhận được lô dữ liệu tiếp theo cần thiết cho bước đào tạo tiếp theo.
Yêu cầu về băng thông rất cao, vượt xa băng thông thông thường cần thiết cho các ứng dụng trung tâm dữ liệu truyền thống. Kết nối này không thể sử dụng thiết bị mạng truyền thống hoặc cáp quang vì chúng sẽ tạo ra độ trễ quá lớn và không thể cung cấp băng thông terabyte mỗi giây cần thiết để tất cả GPU liên tục hoạt động.
Nvidia đã mua lại công ty Mellanox của Israel với giá 6,9 tỷ đô la vào năm 2019, đây là một quyết định rất sáng suốt và chính thương vụ mua lại này đã cung cấp cho họ công nghệ kết nối hàng đầu trong ngành . Lưu ý rằng tốc độ kết nối có liên quan nhiều hơn trong quá trình đào tạo (khi đầu ra của hàng nghìn GPU phải được sử dụng đồng thời) so với trong quá trình suy luận (bao gồm suy luận COT), khi chỉ cần một số ít GPU. Chỉ cần đủ VRAM để lưu trữ lượng tử hóa (nén) trọng số mô hình của một mô hình đã được đào tạo.
Có thể nói đây là những thành phần chính tạo nên "hào nước" của Nvidia và là lý do tại sao hãng này có thể duy trì được biên lợi nhuận cao như vậy trong một thời gian dài (có cũng là một "hiệu ứng bánh đà", tức là họ tích cực tái đầu tư lợi nhuận siêu ngạch của mình vào một lượng lớn hoạt động R&D, từ đó giúp họ cải thiện công nghệ nhanh hơn so với đối thủ cạnh tranh, do đó họ luôn dẫn đầu về hiệu suất thô).
Nhưng như đã chỉ ra trước đó, tất cả những yếu tố khác đều bình đẳng, điều mà khách hàng thực sự quan tâm thường là hiệu suất trên mỗi đô la (bao gồm cả chi phí đầu tư ban đầu cho thiết bị) . và mức sử dụng năng lượng, hay hiệu suất trên mỗi watt), và mặc dù GPU của Nvidia thực sự nhanh nhất, nhưng chúng không phải là loại hiệu quả nhất về mặt chi phí nếu chỉ đo bằng FLOPS.
Nhưng vấn đề là các yếu tố khác không ngang bằng, trình điều khiển của AMD tệ, các thư viện phần mềm AI phổ biến không chạy tốt trên GPU AMD và trong Bạn không thể không tìm được chuyên gia GPU thực sự giỏi về GPU AMD ngoài lĩnh vực chơi game (tại sao họ phải bận tâm, nhu cầu về chuyên gia CUDA còn nhiều hơn mà?), và bạn không thể kết nối hiệu quả hàng nghìn GPU với nhau do công nghệ kết nối kém của AMD. Tất cả điều này có nghĩa là AMD phần lớn không có sức cạnh tranh trong lĩnh vực trung tâm dữ liệu cao cấp và dường như không có triển vọng tăng trưởng tốt trong ngắn hạn.
Vâng, có vẻ như mọi việc sẽ rất tốt đẹp với Nvidia, phải không? Bây giờ bạn đã biết tại sao giá cổ phiếu của công ty lại cao như vậy rồi! Nhưng còn có mối lo ngại nào khác không? Vâng, tôi không nghĩ có nhiều mối quan ngại đáng được chú ý nhiều. Một số vấn đề này đã tiềm ẩn trong vài năm qua, nhưng xét theo tốc độ tăng trưởng, tác động của chúng là rất nhỏ. Nhưng họ đang chuẩn bị để có thể tiến lên phía trên. Các vấn đề khác chỉ mới xuất hiện gần đây (ví dụ: trong hai tuần qua) và có thể thay đổi đáng kể quỹ đạo tăng trưởng nhu cầu GPU trong thời gian tới.
Các mối đe dọa chính
Theo góc nhìn vĩ mô, bạn nghĩ theo cách này: Nvidia đã hoạt động trong một không gian rất hẹp trong một thời gian khá dài; họ có rất ít đối thủ cạnh tranh và những đối thủ cạnh tranh đó không đủ lợi nhuận hoặc không phát triển đủ nhanh để trở thành mối đe dọa thực sự, bởi vì họ không có đủ vốn thực sự gây áp lực lên các công ty dẫn đầu thị trường như Nvidia. Thị trường trò chơi điện tử rất lớn và đang phát triển, nhưng không tạo ra lợi nhuận khổng lồ hoặc tốc độ tăng trưởng theo từng năm đặc biệt ấn tượng. Vào khoảng năm 2016-2017, một số công ty công nghệ lớn bắt đầu tăng cường tuyển dụng và chi tiêu cho máy học và trí tuệ nhân tạo, nhưng nhìn chung, điều này chưa bao giờ Không có dự án nào trong số này thực sự quan trọng đối với họ - chúng giống như chi phí cho hoạt động R&D cho "khám phá mặt trăng" hơn. chương trình". Nhưng cuộc cạnh tranh trong lĩnh vực trí tuệ nhân tạo thực sự bắt đầu sau khi ChatGPT ra mắt vào năm 2022. Mặc dù mới chỉ hơn hai năm kể từ đó, nhưng có vẻ như một thời gian dài đã trôi qua xét về tốc độ phát triển.
Đột nhiên, các công ty lớn sẵn sàng đầu tư hàng tỷ đô la với tốc độ đáng kinh ngạc. Đã có sự gia tăng về số lượng các nhà nghiên cứu tham dự các hội nghị nghiên cứu lớn như Neurips và ICML. Những sinh viên thông minh trước đây có thể làm việc về các sản phẩm phái sinh tài chính thì nay làm việc tại Transformers, và các gói lương thưởng lên tới hàng triệu đô la cho các vị trí kỹ sư không điều hành (tức là những người đóng góp độc lập không quản lý nhóm) đã trở thành chuẩn mực tại các phòng thí nghiệm AI hàng đầu.
Việc thay đổi hướng đi của một tàu du lịch lớn mất một thời gian; ngay cả khi bạn di chuyển rất nhanh và chi hàng tỷ đô la, cũng có thể mất một năm hoặc hơn để xây dựng Trung tâm dữ liệu hoàn toàn mới, đã đặt hàng toàn bộ thiết bị (thời gian giao hàng sẽ lâu hơn) và đã hoàn tất mọi khâu thiết lập và vận hành. Ngay cả những lập trình viên thông minh nhất cũng phải mất nhiều thời gian để thực sự bắt nhịp với công việc và làm quen với cơ sở hạ tầng và cơ sở mã hiện có.
Nhưng bạn có thể tưởng tượng rằng số tiền, nhân lực và năng lượng đầu tư vào lĩnh vực này là vô cùng lớn. Nvidia là mục tiêu lớn nhất của tất cả các bên tham gia vì họ là những người đóng góp lợi nhuận lớn nhất hiện nay, chứ không phải trong tương lai khi AI thống trị cuộc sống của chúng ta.
Do đó, kết luận quan trọng nhất là "thị trường sẽ luôn tìm ra cách" và họ sẽ tìm ra những cách mới thay thế và sáng tạo triệt để để sản xuất phần cứng, sử dụng Ý tưởng này nhằm vượt qua các trở ngại và do đó củng cố lợi thế của Nvidia.
Các mối đe dọa ở cấp độ phần cứng
Ví dụ, Cerebras' cái gọi là Chip đào tạo AI "quy mô wafer" của công ty sử dụng toàn bộ một wafer silicon 300mm cho một con chip cực kỳ khổng lồ chứa nhiều hơn hàng cấp độ bóng bán dẫn và lõi trên một khuôn duy nhất (xem bài đăng trên blog gần đây của họ để biết thêm về Cách giải quyết (các vấn đề về năng suất đã ngăn cản cách tiếp cận này trở nên khả thi về mặt kinh tế trong quá khứ).
Để đưa điều này vào bối cảnh, nếu bạn so sánh chip WSE-3 mới nhất của Cerebras với GPU trung tâm dữ liệu hàng đầu của Nvidia, H100, tổng diện tích khuôn của Chip Cerebras có diện tích là 46225 mm vuông, trong khi H100 chỉ có 814 mm vuông (bản thân H100 là một con chip rất lớn theo tiêu chuẩn công nghiệp); gấp 57 lần! Thay vì có 132 lõi "streaming multiprocessor" trên chip như H100, chip Cerebras có khoảng 900.000 lõi (tất nhiên, mỗi lõi nhỏ hơn và có ít năng lượng hơn, nhưng khi so sánh, con số này vẫn rất lớn). Cụ thể, trong lĩnh vực trí tuệ nhân tạo, sức mạnh tính toán FLOPS của chip Cerebras mạnh gấp khoảng 32 lần so với một chip H100 đơn lẻ. Vì chip H100 có giá gần 40.000 đô la nên có thể chip WSE-3 cũng không hề rẻ.
Vậy thì mục đích là gì? Thay vì cố gắng đối đầu trực diện với Nvidia bằng cách tiếp cận tương tự hoặc cố gắng bắt kịp công nghệ kết nối của Mellanox, Cerebras đang áp dụng một cách tiếp cận mới triệt để để giải quyết vấn đề kết nối: Khi mọi thứ chạy trên cùng một con chip rất lớn, Khi bộ xử lý băng thông nhỏ hơn, vấn đề băng thông giữa các bộ xử lý trở nên ít quan trọng hơn. Bạn thậm chí không cần đến cùng một mức độ kết nối, vì một con chip khổng lồ có thể thay thế hàng tấn H100.
Và chip Cerebras cũng hoạt động rất tốt trong các nhiệm vụ suy luận của trí tuệ nhân tạo. Trên thực tế, bạn có thể dùng thử miễn phí ngay hôm nay và sử dụng mô hình Llama-3.3-70B rất nổi tiếng của Meta. Tốc độ phản hồi của nó về cơ bản là tức thời, khoảng 1500 token mỗi giây. Theo góc độ so sánh, tốc độ hơn 30 token mỗi giây là tương đối nhanh đối với người dùng so với ChatGPT và Claude, và thậm chí 10 token mỗi giây cũng đủ nhanh để về cơ bản tạo ra phản hồi trong khi Đọc.
Cerebras không phải là công ty duy nhất, còn có những công ty khác như Groq (không nên nhầm lẫn với dòng mô hình Grok được đào tạo bởi X AI của Elon Musk). Groq sử dụng một cách tiếp cận sáng tạo khác để giải quyết cùng một vấn đề cơ bản. Thay vì cố gắng cạnh tranh trực tiếp với bộ phần mềm CUDA của Nvidia, họ đã phát triển cái gọi là "đơn vị xử lý tensor" (TPU) chuyên thực hiện các phép toán chính xác theo yêu cầu của các mô hình học sâu. Chip của họ được thiết kế dựa trên khái niệm "tính toán xác định", nghĩa là không giống như GPU truyền thống, chip của họ thực hiện các hoạt động theo cách hoàn toàn có thể dự đoán được mọi lúc.
Điều này có vẻ như là một chi tiết kỹ thuật nhỏ, nhưng thực tế nó có tác động rất lớn đến cả thiết kế chip và phát triển phần mềm. Vì thời gian hoàn toàn mang tính quyết định nên Groq có thể tối ưu hóa chip theo cách mà kiến trúc GPU truyền thống không thể làm được. Kết quả là, trong hơn 6 tháng qua, họ đã chứng minh được tốc độ suy luận hơn 500 mã thông báo mỗi giây cho nhóm mô hình Llama và các mô hình nguồn mở khác, vượt xa những gì có thể đạt được bằng thiết lập GPU truyền thống. Giống như Cerebras, sản phẩm này hiện đã có sẵn và bạn có thể dùng thử miễn phí tại đây.
Sử dụng mô hình Llama3 với "giải mã suy đoán", Groq có thể tạo ra 1320 mã thông báo mỗi giây, tương đương với Cerebras và vượt xa hiệu suất khi sử dụng GPU thông thường. Bây giờ, bạn có thể hỏi mục đích của việc đạt tới 1000+ token mỗi giây là gì khi người dùng có vẻ khá hài lòng với tốc độ của ChatGPT (dưới 1000 token mỗi giây). Trên thực tế, điều này thực sự quan trọng. Khi bạn nhận được phản hồi tức thời, bạn sẽ lặp lại nhanh hơn và không mất tập trung như những người làm công việc trí óc. Nếu bạn sử dụng mô hình theo chương trình thông qua API, nó có thể kích hoạt các lớp ứng dụng hoàn toàn mới yêu cầu suy luận nhiều giai đoạn (đầu ra của giai đoạn trước được sử dụng làm đầu vào cho các gợi ý/suy luận trong giai đoạn tiếp theo) hoặc yêu cầu phản hồi về độ trễ, chẳng hạn như Kiểm duyệt nội dung, phát hiện gian lận, định giá linh hoạt, v.v.
Nhưng về cơ bản, bạn phản hồi yêu cầu càng nhanh thì bạn có thể lặp lại càng nhanh và phần cứng của bạn sẽ càng bận rộn. Mặc dù phần cứng của Groq rất đắt, với một máy chủ có giá từ 2 đến 3 triệu đô la, nhưng nếu nhu cầu đủ cao để phần cứng luôn hoạt động thì chi phí cho mỗi yêu cầu hoàn thành có thể giảm đáng kể.
Giống như CUDA của Nvidia, phần lớn lợi thế của Groq đến từ bộ phần mềm độc quyền của hãng. Họ có thể sử dụng các mô hình nguồn mở mà các công ty khác như Meta, DeepSeek và Mistral đã phát triển và phát hành miễn phí, sau đó xử lý chúng theo những cách đặc biệt để chạy nhanh hơn trên phần cứng cụ thể.
Giống như Cerebras, họ đã đưa ra những quyết định kỹ thuật khác nhau để tối ưu hóa một số khía cạnh cụ thể của quy trình, cho phép họ làm việc theo một cách hoàn toàn khác. Lấy Groq làm ví dụ. Họ tập trung hoàn toàn vào điện toán cấp độ suy luận, không phải đào tạo: tất cả phần cứng và phần mềm đặc biệt của họ chỉ hoạt động với tốc độ và hiệu quả cao khi thực hiện suy luận trên các mô hình đã được đào tạo.
Nhưng nếu luật mở rộng lớn tiếp theo mà mọi người mong đợi là điện toán cấp độ suy luận và nhược điểm lớn nhất của mô hình COT là tất cả các thẻ logic trung gian phải được tạo ra để trả lời, Điều này sẽ dẫn đến độ trễ quá mức, vì vậy ngay cả một công ty chỉ thực hiện tính toán suy luận cũng sẽ gây ra mối đe dọa cạnh tranh nghiêm trọng trong vài năm tới miễn là tốc độ và hiệu quả của nó vượt xa Nvidia. Ít nhất, Cerebras và Groq có thể tận dụng được kỳ vọng quá cao về tăng trưởng doanh thu của Nvidia trong 2-3 năm tới dựa trên định giá cổ phiếu hiện tại.
Ngoài những đối thủ khởi nghiệp đặc biệt sáng tạo nhưng tương đối ít được biết đến này, một số khách hàng lớn nhất của Nvidia cũng tạo ra sự cạnh tranh nghiêm trọng và họ đã sản xuất chip tùy chỉnh dành riêng cho AI khối lượng công việc đào tạo và suy luận. Đáng chú ý nhất trong số này là Google, công ty đã phát triển TPU độc quyền của riêng mình kể từ năm 2016. Điều thú vị là mặc dù Google đã bán TPU cho khách hàng bên ngoài trong một thời gian ngắn, Google đã sử dụng tất cả các TPU của mình trong nội bộ trong vài năm qua và hiện đang ở thế hệ phần cứng TPU thứ sáu.
Amazon cũng đang phát triển chip tùy chỉnh của riêng mình, được gọi là Trainium2 và Inferentia2. Amazon đang xây dựng các trung tâm dữ liệu được trang bị hàng tỷ đô la GPU Nvidia và đồng thời, họ đang đầu tư hàng tỷ đô la vào các trung tâm dữ liệu khác sử dụng các chip nội bộ này. Họ có một cụm đang được đưa trực tuyến cho Anthropic với hơn 400.000 chip.
Amazon đã bị chỉ trích vì đã hoàn toàn phá hỏng quá trình phát triển mô hình AI nội bộ của mình, lãng phí rất nhiều tài nguyên điện toán nội bộ vào các mô hình cuối cùng không có khả năng cạnh tranh, nhưng Chip tùy chỉnh là một vấn đề. Tương tự như vậy, họ không nhất thiết cần chip của mình phải tốt hơn hoặc nhanh hơn chip của Nvidia. Họ chỉ cần những con chip đủ tốt, nhưng được sản xuất ở mức biên lợi nhuận gộp hòa vốn, chứ không phải mức biên lợi nhuận gộp khoảng 90%+ mà Nvidia đang kiếm được từ hoạt động kinh doanh H100 của mình.
OpenAI cũng công bố kế hoạch xây dựng chip tùy chỉnh và họ (cùng với Microsoft) rõ ràng là người dùng phần cứng trung tâm dữ liệu Nvidia lớn nhất. Như thể điều đó vẫn chưa đủ, Microsoft còn tự công bố chip silicon tùy chỉnh của riêng mình!
Là công ty công nghệ có giá trị nhất thế giới, Apple đã làm đảo lộn kỳ vọng của mọi người với hoạt động kinh doanh chip tùy chỉnh mang tính đột phá và sáng tạo cao trong nhiều năm. Hoạt động kinh doanh chip tùy chỉnh của công ty đã hoàn toàn đánh bại CPU Intel và AMD về hiệu suất trên mỗi watt, đây là yếu tố quan trọng nhất trong các ứng dụng di động (điện thoại/máy tính bảng/máy tính xách tay). Họ đã sản xuất GPU và "bộ xử lý thần kinh" do chính họ thiết kế trong nhiều năm, mặc dù họ vẫn chưa thực sự chứng minh được tính hữu ích của những con chip đó bên ngoài các ứng dụng tùy chỉnh của họ, chẳng hạn như xử lý hình ảnh dựa trên phần mềm tiên tiến được sử dụng trong camera của iPhone.
Mặc dù trọng tâm của Apple có vẻ khác so với những đối thủ khác, với trọng tâm là thiết bị di động trước tiên, định hướng người tiêu dùng và "điện toán biên", nếu Apple đầu tư đủ trong hợp đồng mới của họ với OpenAI để cung cấp dịch vụ AI cho người dùng iPhone, thì bạn phải tưởng tượng họ có các nhóm đang làm việc để tìm cách tạo ra chip tùy chỉnh của riêng họ cho mục đích suy luận/đào tạo (mặc dù vì tính bảo mật của họ, bạn có thể không bao giờ biết trực tiếp điều này!) .
Giờ đây, không còn là bí mật nữa khi cơ sở khách hàng siêu quy mô của Nvidia thể hiện sự phân phối theo luật lũy thừa mạnh mẽ, với một số ít khách hàng hàng đầu chiếm phần lớn biên lợi nhuận cao doanh thu. nhiều nhất. Khi mỗi khách hàng VIP này đang xây dựng chip tùy chỉnh riêng cho mục đích đào tạo và suy luận AI, chúng ta nên nghĩ gì về tương lai của doanh nghiệp này?
Khi suy nghĩ về những vấn đề này, bạn nên nhớ một sự thật rất quan trọng: Nvidia phần lớn là một công ty hoạt động dựa trên sở hữu trí tuệ. Họ không tự sản xuất chip. Bí quyết thực sự đặc biệt để tạo ra những thiết bị đáng kinh ngạc này có thể đến từ TSMC và ASML, những công ty chế tạo máy quang khắc EUV đặc biệt dùng để sản xuất các chip nút quy trình tiên tiến này. Điều này rất quan trọng vì TSMC sẽ bán những con chip tiên tiến nhất của mình cho bất kỳ khách hàng nào sẵn sàng đầu tư đủ tiền ban đầu và đảm bảo một khối lượng nhất định. Họ không quan tâm liệu các chip đó có phải là ASIC để khai thác Bitcoin, bộ xử lý đồ họa, polyurethane nhiệt dẻo, hệ thống điện thoại di động trên chip, v.v. hay không.
Với mức lương hàng năm của các nhà thiết kế chip cao cấp tại Nvidia, những gã khổng lồ công nghệ này chắc chắn có thể trả đủ tiền mặt và cổ phiếu để thu hút một số nhân tài giỏi nhất của họ chuyển sang làm việc cho họ. Khi họ có đội ngũ và nguồn lực, họ có thể thiết kế một con chip cải tiến trong vòng 2-3 năm (thậm chí có thể không tiên tiến bằng 50% H100, nhưng với biên lợi nhuận gộp của Nvidia, họ có nhiều dư địa để phát triển) và nhờ TSMC, họ có thể biến những con chip này thành silicon thực tế bằng cách sử dụng cùng công nghệ nút quy trình như Nvidia.
Các mối đe dọa phần mềm
Có vẻ như những mối đe dọa phần cứng sắp xảy ra này vẫn Nếu điều đó chưa đủ tệ, cũng đã có một số sự phát triển trong không gian phần mềm trong vài năm qua, mặc dù khởi đầu chậm nhưng hiện đang phát triển mạnh mẽ và có thể gây ra mối đe dọa nghiêm trọng đến sự thống trị phần mềm CUDA của Nvidia. Đầu tiên là trình điều khiển Linux tệ hại dành cho GPU AMD. Bạn còn nhớ khi chúng ta thảo luận về việc AMD đã thiếu khôn ngoan khi để những trình điều khiển này trở nên tệ hại trong nhiều năm qua trong khi ngồi nhìn tiền trôi qua không? Thật thú vị, hacker khét tiếng George Hotz, người nổi tiếng vì đã bẻ khóa iPhone gốc khi còn là thiếu niên và hiện là CEO của công ty khởi nghiệp xe tự lái Commodore, đã bị cáo buộc can thiệp vào phần cứng của iPhone. .ai và CEO của công ty máy tính AI Tiny Corp, công ty cũng phát triển khuôn khổ phần mềm AI TinyGrad mã nguồn mở, gần đây đã thông báo rằng ông đã chán ngấy việc phải xử lý các trình điều khiển kém của AMD và rất muốn có thể sử dụng máy tính AI TinyBox của AMD. Sử dụng GPU AMD giá rẻ hơn (có nhiều mẫu, một số (sử dụng GPU Nvidia, một số khác sử dụng GPU AMD).
Trên thực tế, anh ấy đã tạo ra trình điều khiển và phần mềm tùy chỉnh của riêng mình cho GPU AMD mà không cần sự trợ giúp của AMD; Ngày 15 tháng 1 năm 2025, "Chúng ta chỉ còn cách AMD một bước nữa là hoàn toàn trình biên dịch RDNA3 stack riêng của mình", anh ấy đã tweet từ tài khoản X của công ty. "Chúng tôi có trình điều khiển, thời gian chạy, thư viện và trình mô phỏng riêng. (Tất cả trong khoảng 12 nghìn dòng!)" Thành tích và kỹ năng của anh ấy, họ có thể sẽ hoàn thành tất cả sẽ hoạt động trong những tháng tới, mở ra nhiều khả năng thú vị cho việc sử dụng GPU AMD cho nhiều ứng dụng khác nhau mà hiện tại các công ty phải trả tiền cho GPU Nvidia để có được dịch vụ của họ.
Vâng, đó chỉ là trình điều khiển từ AMD và vẫn chưa hoàn thiện. Còn gì nữa? Vâng, có những lĩnh vực khác trong phần mềm có tác động lớn hơn nhiều. Đầu tiên, nhiều công ty công nghệ lớn và cộng đồng phần mềm nguồn mở hiện đang hợp tác với nhau để phát triển một khuôn khổ phần mềm AI tổng quát hơn, trong đó CUDA chỉ là một trong nhiều "mục tiêu biên dịch". Nghĩa là, bạn viết phần mềm bằng cách sử dụng các trừu tượng cấp cao hơn và bản thân hệ thống có thể tự động chuyển đổi các cấu trúc cấp cao này thành mã cấp thấp được tối ưu hóa siêu cao. Nó chạy tốt trên CUDA. Nhưng vì nó được thực hiện ở mức độ trừu tượng cao hơn này nên nó có thể dễ dàng được biên dịch thành mã cấp thấp chạy tốt trên nhiều GPU và TPU khác từ nhiều nhà cung cấp khác nhau, chẳng hạn như các công ty công nghệ lớn đang phát triển một số lượng lớn các ứng dụng tùy chỉnh khoai tây chiên.
Những ví dụ đáng chú ý nhất về các khuôn khổ này là MLX (chủ yếu được tài trợ bởi Apple), Triton (chủ yếu được tài trợ bởi OpenAI) và JAX (do Google phát triển). MLX đặc biệt thú vị vì nó cung cấp API giống PyTorch chạy hiệu quả trên Apple Silicon, chứng minh cách các lớp trừu tượng này có thể cho phép khối lượng công việc AI chạy trên các kiến trúc hoàn toàn khác nhau. Trong khi đó, Triton ngày càng phổ biến vì nó cho phép các nhà phát triển viết mã hiệu suất cao có thể được biên dịch để chạy trên nhiều mục tiêu phần cứng khác nhau mà không cần phải hiểu các chi tiết cấp thấp của từng nền tảng.
Các khuôn khổ này cho phép các nhà phát triển viết mã bằng cách sử dụng các phép trừu tượng mạnh mẽ và sau đó tự động biên dịch mã đó cho nhiều nền tảng - điều này nghe có vẻ hiệu quả hơn phải không? Cách tiếp cận này mang lại sự linh hoạt hơn khi thực sự chạy mã.
Vào những năm 1980, tất cả các phần mềm phổ biến và bán chạy nhất đều được viết bằng ngôn ngữ lắp ráp được chỉnh sửa thủ công. Ví dụ, tiện ích nén PKZIP được thiết kế thủ công để tối đa hóa tốc độ, đến mức một phiên bản mã được viết bằng ngôn ngữ lập trình C chuẩn và được biên dịch bằng trình biên dịch tối ưu hóa tốt nhất thời bấy giờ chỉ có thể chạy nhanh bằng mã lắp ráp được điều chỉnh thủ công. . một nửa. Điều tương tự cũng đúng với các gói phần mềm phổ biến khác như WordStar, VisiCalc, v.v.
Theo thời gian, trình biên dịch trở nên mạnh mẽ hơn và bất cứ khi nào kiến trúc CPU thay đổi (ví dụ, từ Intel phát hành 486 sang Pentium, v.v.) v.v.) , các chương trình biên dịch viết tay thường phải bị loại bỏ và viết lại, và chỉ những lập trình viên thông minh nhất mới có thể làm được công việc này (giống như các chuyên gia CUDA có lợi thế trên thị trường việc làm so với các nhà phát triển phần mềm "bình thường"). Cuối cùng, mọi thứ đã hội tụ và lợi thế về tốc độ của trình biên dịch thủ công đã bị lu mờ đáng kể so với tính linh hoạt khi viết mã bằng ngôn ngữ cấp cao hơn như C hoặc C++, vốn dựa vào trình biên dịch để làm cho mã chạy tối ưu trên một CPU nhất định.
Ngày nay, rất ít người viết mã mới bằng ngôn ngữ lắp ráp. Tôi tin rằng một sự thay đổi tương tự cuối cùng sẽ xảy ra với việc đào tạo AI và mã suy luận, vì những lý do tương tự: máy tính có khả năng tối ưu hóa tốt, tính linh hoạt và tốc độ phát triển là những yếu tố ngày càng quan trọng, đặc biệt là nếu nó cũng giúp tiết kiệm đáng kể chi phí phần cứng. Bởi vì bạn không phải tiếp tục trả "thuế CUDA", loại thuế tạo ra hơn 90% lợi nhuận của Nvidia.
Tuy nhiên, một lĩnh vực khác có thể xảy ra những thay đổi lớn là bản thân CUDA cuối cùng có thể trở thành một sự trừu tượng cấp cao - một ngôn ngữ tương tự như Verilog (được sử dụng để mô tả bố trí chip). tiêu chuẩn công nghiệp) mà các nhà phát triển lành nghề có thể sử dụng để mô tả các thuật toán tiên tiến liên quan đến tính song song lớn (vì họ đã quen thuộc với nó, nó được cấu trúc tốt, nó là ngôn ngữ đa năng, v.v.), nhưng không giống như thông lệ thông thường, Thay vì được biên dịch cho GPU Nvidia, mã này được đưa vào LLM dưới dạng mã nguồn, có thể chuyển đổi thành bất kỳ mã cấp thấp nào mà chip Cerebras mới, Amazon Trainium2 mới hoặc Google TPUv6 mới có thể hiểu được. Điều này không còn xa vời như bạn nghĩ nữa; với mô hình O3 mới nhất của OpenAI, điều này có lẽ đã nằm trong tầm tay và chắc chắn sẽ được triển khai rộng rãi trong vòng một hoặc hai năm nữa.
Các mối đe dọa lý thuyết
Có lẽ sự phát triển gây sốc nhất đã xảy ra trong vài tuần qua. Tin tức này đã làm rung chuyển thế giới AI đến tận gốc rễ, và trong khi các phương tiện truyền thông chính thống không hề đề cập đến nó, thì nó đã trở thành một chủ đề thịnh hành trong giới trí thức trên Twitter: một công ty khởi nghiệp Trung Quốc có tên DeepSeek đã phát hành hai mô hình mới có mức hiệu suất xấp xỉ tương đương với các mô hình tốt nhất từ OpenAI và Anthropic (vượt trội hơn mô hình Meta Llama3 và các mô hình nguồn mở nhỏ hơn khác như Mistral). Các mô hình này được đặt tên là DeepSeek-V3 (về cơ bản là phản hồi cho GPT-4o và Claude3.5 Sonnet) và DeepSeek-R1 (về cơ bản là phản hồi cho mô hình O1 của OpenAI).
Tại sao tất cả những điều này lại gây sốc đến vậy? Đầu tiên, DeepSeek là một công ty nhỏ được cho là có chưa đến 200 nhân viên. Người ta cho rằng họ bắt đầu là một quỹ đầu cơ giao dịch định lượng tương tự như TwoSigma hoặc RenTec, nhưng sau khi Trung Quốc tăng cường quản lý lĩnh vực này, họ đã sử dụng chuyên môn toán học và kỹ thuật của mình để chuyển sang nghiên cứu trí tuệ nhân tạo. Nhưng thực tế là họ đã phát hành hai báo cáo kỹ thuật rất chi tiết là DeepSeek-V3 và DeepSeekR1.
Đây là những báo cáo mang tính kỹ thuật cao và nếu bạn không biết gì về đại số tuyến tính, bạn có thể thấy khó hiểu. Nhưng điều bạn nên thử là tải xuống ứng dụng DeepSeek miễn phí trên AppStore, đăng nhập bằng tài khoản Google của bạn và cài đặt ứng dụng, sau đó dùng thử (bạn cũng có thể cài đặt ứng dụng trên Android) hoặc dùng thử trực tiếp trên máy tính để bàn của bạn bằng một trình duyệt. Hãy đảm bảo chọn tùy chọn “DeepThink” để kích hoạt Thought Chain (mô hình R1) và yêu cầu giải thích một số phần của báo cáo kỹ thuật bằng ngôn ngữ đơn giản.
Điều này cũng sẽ cho bạn biết một điều quan trọng:
Đầu tiên, đây là Mô hình là hoàn toàn hợp pháp. Có rất nhiều thông tin giả mạo trong các tiêu chuẩn đánh giá AI, thường bị thao túng để các mô hình hoạt động tốt trong tiêu chuẩn đánh giá nhưng lại kém trong các bài kiểm tra thực tế. Google chắc chắn là thủ phạm lớn nhất trong vấn đề này, luôn khoe khoang về việc chương trình LLM của họ tuyệt vời như thế nào, nhưng trên thực tế, các mô hình này hoạt động rất tệ trong các bài kiểm tra thực tế và thậm chí không thể hoàn thành đáng tin cậy các tác vụ đơn giản nhất, chứ đừng nói đến các tác vụ mã hóa đầy thách thức. Ngược lại, mô hình DeepSeek phản hồi một cách nhất quán và mạnh mẽ, ngang hàng với các mô hình OpenAI và Anthropic.
Thứ hai, DeepSeek đã đạt được tiến bộ đáng kể không chỉ về chất lượng mô hình mà quan trọng hơn là về hiệu quả đào tạo mô hình và suy luận. Tiến bộ đáng kể. Nhờ có khả năng tiếp cận phần cứng rất chặt chẽ và kết hợp một số tối ưu hóa độc đáo và thông minh, DeepSeek có thể đào tạo những mô hình đáng kinh ngạc này bằng GPU theo cách hiệu quả hơn đáng kể. Theo một số phép đo, DeepSeek hiệu quả hơn khoảng 45 lần so với các mô hình tiên tiến khác.
DeepSeek tuyên bố rằng tổng chi phí đào tạo DeepSeek-V3 chỉ hơn 5 triệu đô la một chút. Theo tiêu chuẩn của các công ty như OpenAI, Anthropic, v.v., thì con số này không là gì, vì các công ty này đã đạt đến mức chi phí đào tạo mô hình đơn lẻ vượt quá 100 triệu đô la vào đầu năm 2024.
Làm sao điều này có thể xảy ra? Làm sao một công ty nhỏ của Trung Quốc có thể vượt mặt hoàn toàn những người thông minh nhất trong các phòng thí nghiệm AI hàng đầu của chúng ta, nơi có nguồn lực, nhân sự, lương, vốn, GPU, v.v. nhiều hơn gấp 100 lần? Liệu Trung Quốc có nên bị suy yếu vì lệnh hạn chế xuất khẩu GPU của Biden không? Được rồi, các chi tiết khá chuyên môn, nhưng ít nhất chúng ta có thể mô tả nó một cách tổng quát. Có lẽ sức mạnh xử lý GPU tương đối yếu của DeepSeek chính là yếu tố chính tạo nên tính sáng tạo và khéo léo của nó, bởi vì nhu cầu chính là mẹ của phát minh.
Một cải tiến lớn là khuôn khổ đào tạo độ chính xác hỗn hợp tiên tiến của họ, cho phép họ sử dụng dấu phẩy động 8 bit (FP8) trong suốt quá trình đào tạo. Hầu hết các phòng thí nghiệm AI phương Tây sử dụng số 32-bit "có độ chính xác hoàn toàn" để đào tạo (về cơ bản, số này chỉ định số lượng các gradient có thể có khi mô tả đầu ra của một nơ-ron nhân tạo; 8 bit trong FP8 có thể lưu trữ phạm vi số rộng hơn bạn nghĩ— —Nó không giới hạn ở 256 số lượng có kích thước khác nhau của một số nguyên thông thường, mà sử dụng các thủ thuật toán học thông minh để lưu trữ các số rất nhỏ và rất lớn — mặc dù tất nhiên là kém chính xác hơn 32 bit.) Sự đánh đổi chính là trong khi FP32 có thể lưu trữ các số với độ chính xác đáng kinh ngạc trên phạm vi rộng, nhưng phải hy sinh một số độ chính xác để tiết kiệm bộ nhớ và cải thiện hiệu suất trong khi vẫn duy trì đủ độ chính xác cho nhiều khối lượng công việc AI.
DeepSeek đã giải quyết vấn đề này bằng cách phát triển một hệ thống thông minh chia số thành các phần nhỏ để kích hoạt và các phần để tính trọng số, và Các điểm chính của mạng được tính toán một cách chiến lược bằng cách sử dụng độ chính xác cao. Không giống như các phòng thí nghiệm khác trước tiên phải đào tạo ở độ chính xác cao rồi mới nén (làm mất đi một số chất lượng trong quá trình này), phương pháp FP8 gốc của DeepSeek có nghĩa là họ có thể tiết kiệm rất nhiều bộ nhớ mà không làm giảm hiệu suất. Khi bạn đào tạo với hàng nghìn GPU, yêu cầu về bộ nhớ cho mỗi GPU sẽ giảm đáng kể, nghĩa là bạn cần ít GPU hơn đáng kể.
Một bước đột phá lớn khác là hệ thống dự đoán đa nhãn của họ. Hầu hết các mô hình LLM dựa trên Transformer đều thực hiện suy luận bằng cách dự đoán mã thông báo tiếp theo — từng mã thông báo một.
DeepSeek tìm ra cách dự đoán nhiều nhãn trong khi vẫn duy trì chất lượng của các dự đoán nhãn đơn. Phương pháp của họ đạt được độ chính xác khoảng 85-90% trong các dự đoán được gắn nhãn bổ sung này, giúp tăng gấp đôi tốc độ suy luận mà không làm giảm nhiều chất lượng. Điều thông minh là chúng giữ lại toàn bộ chuỗi dự đoán nhân quả, do đó mô hình không chỉ đoán mà còn đưa ra những dự đoán có cấu trúc và phù hợp với ngữ cảnh.
Một trong những phát triển mang tính đột phá nhất của họ là thứ mà họ gọi là Sự chú ý tiềm ẩn đa dạng (MLA). Đây là bước đột phá của họ trong việc xử lý cái gọi là lập chỉ mục khóa-giá trị, về cơ bản là cách các mã thông báo riêng lẻ được thể hiện trong cơ chế chú ý trong kiến trúc Transformer. Mặc dù điều này có vẻ hơi phức tạp về mặt kỹ thuật, nhưng đủ để nói rằng các chỉ số KV này là một trong những mục đích sử dụng chính của VRAM trong quá trình đào tạo và suy luận, và là một phần lý do tại sao bạn cần sử dụng hàng nghìn GPU cùng lúc để đào tạo những mẫu này - mỗi mẫu có một GPU duy nhất. GPU có VRAM tối đa là 96GB và các chỉ số này sẽ chiếm hết bộ nhớ đó.
Hệ thống MLA của họ đã tìm ra cách lưu trữ các phiên bản nén của các chỉ mục này, sử dụng ít bộ nhớ hơn trong khi vẫn nắm bắt được thông tin cần thiết. Phần tuyệt vời nhất là quá trình nén này được tích hợp trực tiếp vào cách các mô hình học — không phải là một bước riêng biệt mà chúng cần thực hiện, mà được tích hợp trực tiếp vào quy trình đào tạo đầu cuối. Điều này có nghĩa là toàn bộ cơ chế có thể "phân biệt được" và có thể được đào tạo trực tiếp bằng cách sử dụng các trình tối ưu hóa tiêu chuẩn. Điều này có hiệu quả vì dữ liệu cơ bản mà các mô hình này tìm thấy cuối cùng đều nằm dưới cái gọi là “kích thước môi trường”. Do đó, việc lưu trữ chỉ số KV đầy đủ là một sự lãng phí, mặc dù về cơ bản đó là điều mà mọi người khác đều làm.
Nó không chỉ lãng phí rất nhiều không gian vì phải lưu trữ một lượng lớn dữ liệu vượt quá nhu cầu thực tế mà còn làm tăng đáng kể việc sử dụng và hiệu quả của bộ nhớ đào tạo (một lần nữa, lượng dữ liệu cần thiết để đào tạo một mô hình đẳng cấp thế giới là Ưu điểm của phương pháp này là nó có thể giảm đáng kể số lượng GPU cần thiết (và do đó là số lượng điểm dữ liệu đào tạo) và thực sự có thể cải thiện chất lượng mô hình vì nó hoạt động như "bộ điều chỉnh" buộc mô hình tập trung vào những gì thực sự quan trọng thay vì lãng phí khả năng vào việc thích ứng với nhiễu trong dữ liệu đào tạo. Vì vậy, bạn không chỉ tiết kiệm được nhiều bộ nhớ mà mô hình của bạn thậm chí còn hoạt động tốt hơn. Ít nhất thì hiệu suất cũng không bị ảnh hưởng nghiêm trọng khi phải tiết kiệm rất nhiều bộ nhớ, đây thường là sự đánh đổi mà bạn phải đối mặt trong quá trình đào tạo AI.
Họ cũng đã đạt được tiến bộ đáng kể về hiệu quả giao tiếp GPU thông qua thuật toán DualPipe và các hạt nhân giao tiếp tùy chỉnh. Hệ thống này kết hợp tính toán và giao tiếp một cách thông minh, cân bằng cẩn thận các tài nguyên GPU giữa các tác vụ. Họ chỉ cần khoảng 20 bộ xử lý đa luồng (SM) của GPU để giao tiếp, phần còn lại được sử dụng cho mục đích tính toán. Kết quả là mức sử dụng GPU cao hơn nhiều so với thiết lập đào tạo thông thường.
Một điều rất thông minh khác mà họ đã làm là sử dụng cái mà họ gọi là kiến trúc Biến áp hỗn hợp các chuyên gia (MOE), nhưng có một cải tiến quan trọng xoay quanh việc cân bằng tải. Như bạn có thể biết, kích thước hoặc khả năng của một mô hình AI thường được đo bằng số lượng tham số mà mô hình đó chứa. Một tham số chỉ là một con số lưu trữ một số thuộc tính của mô hình; ví dụ, "trọng số" hoặc tầm quan trọng của một nơ-ron nhân tạo cụ thể so với một nơ-ron khác hoặc tầm quan trọng của một mã thông báo cụ thể dựa trên ngữ cảnh của nó (trong trường hợp của một “cơ chế chú ý”). Tầm quan trọng, v.v.
Mô hình Llama3 mới nhất của Meta có nhiều kích cỡ, chẳng hạn như: phiên bản tham số 1 tỷ (nhỏ nhất), mô hình tham số 70B (thường được sử dụng nhất) và thậm chí là mô hình lớn 405B mô hình có tham số. Mô hình lớn nhất này có tính thực tế hạn chế đối với hầu hết người dùng vì máy tính của bạn sẽ cần được trang bị GPU trị giá hàng chục nghìn đô la để chạy suy luận ở tốc độ chấp nhận được, ít nhất là nếu bạn triển khai phiên bản có độ chính xác đầy đủ ban đầu. Vì vậy, hầu hết việc sử dụng thực tế và sự phấn khích xung quanh các mô hình nguồn mở này đều ở mức tham số 8B hoặc mức tham số 70B được lượng tử hóa cao, vì đó là những gì GPU Nvidia 4090 dành cho người tiêu dùng có thể đáp ứng, mà hiện tại bạn có thể mua với giá dưới 1.000 đô la. Nó.
Vậy thì mục đích của tất cả những điều này là gì? Theo một nghĩa nào đó, số lượng và độ chính xác của các tham số cho bạn biết có bao nhiêu thông tin thô hoặc dữ liệu được lưu trữ bên trong mô hình. Lưu ý rằng tôi không nói về khả năng lập luận hay "IQ" của mô hình: thực tế là ngay cả các mô hình có số lượng tham số nhỏ cũng có thể giải quyết các bài toán logic phức tạp, chứng minh các định lý trong hình học phẳng, các bài toán SAT, v.v. Chứng minh khả năng nhận thức vượt trội.
Tuy nhiên, những mô hình nhỏ đó có thể không thể cho bạn biết mọi khía cạnh của mọi nút thắt trong mọi tiểu thuyết của Stendhal, trong khi những mô hình thực sự lớn có thể làm được điều đó vậy. Đến thời điểm này. “Cái giá” của mức độ kiến thức cực đoan này là mô hình trở nên rất cồng kềnh và khó đào tạo và lý luận, bởi vì để lý luận về mô hình, bạn luôn cần lưu trữ mọi tham số 405B (hoặc bất kỳ số nào của các tham số là) cùng một lúc. Trong VRAM của GPU. Ưu điểm của phương pháp tiếp cận mô hình MOE là bạn có thể phân tích một mô hình lớn thành một loạt các mô hình nhỏ hơn, mỗi mô hình có các đặc điểm khác nhau và không chồng chéo (ít nhất là không chồng chéo hoàn toàn). Sự đổi mới của DeepSeek nằm ở việc phát triển chiến lược cân bằng tải mà họ gọi là “không mất mát bổ trợ” giúp duy trì việc sử dụng hiệu quả các chuyên gia mà không làm giảm hiệu suất thường xảy ra khi cân bằng tải. Sau đó, dựa trên bản chất của yêu cầu suy luận, bạn có thể định tuyến suy luận một cách thông minh đến mô hình "chuyên gia" từ nhóm các mô hình nhỏ hơn có khả năng trả lời câu hỏi đó hoặc giải quyết nhiệm vụ đó tốt nhất.
Bạn có thể nghĩ về nó như một ủy ban gồm các chuyên gia có lĩnh vực chuyên môn riêng: một người có thể là chuyên gia pháp lý, người khác có thể là chuyên gia khoa học máy tính, và một người khác có thể là chuyên gia khoa học máy tính. Một người khác có thể là chuyên gia chiến lược kinh doanh. Vì vậy, nếu ai đó hỏi bạn một câu hỏi về đại số tuyến tính, bạn sẽ không hỏi một chuyên gia pháp lý. Tất nhiên, đây chỉ là một phép so sánh rất khái quát và thực tế không hẳn như vậy.
Ưu điểm thực sự của cách tiếp cận này là nó cho phép mô hình kết hợp nhiều kiến thức mà không quá cồng kềnh, bởi vì ngay cả khi tổng số tham số của tất cả chuyên gia cao, chỉ Một tập hợp con nhỏ các tham số là "hoạt động" tại bất kỳ thời điểm nào, điều đó có nghĩa là bạn chỉ cần lưu trữ một tập hợp con nhỏ các trọng số trong VRAM để suy luận. Lấy DeepSeek-V3 làm ví dụ. Nó có một mô hình MOE cực kỳ đồ sộ với 671B tham số, lớn hơn nhiều so với mô hình Llama3 lớn nhất, nhưng chỉ có 37B trong số chúng hoạt động tại bất kỳ thời điểm nào—đủ để chứa hai Thay vì cần VRAM của một hoặc nhiều GPU H100 hơn, có giá khoảng 40.000 đô la mỗi GPU, GPU sẽ có VRAM của GPU Nvidia 4090 dành cho người tiêu dùng (có giá tổng cộng dưới 2.000 đô la).
Có tin đồn rằng ChatGPT và Claude đều sử dụng kiến trúc MoE. Có thông tin cho rằng GPT-4 có tổng cộng 1,8 nghìn tỷ tham số, phân bổ trong 8 mô hình, Mỗi mô hình chứa 220 tỷ tham số. Mặc dù cách này dễ hơn nhiều so với việc đưa tất cả 1,8 nghìn tỷ tham số vào VRAM, nhưng lượng bộ nhớ khổng lồ được sử dụng đòi hỏi nhiều GPU loại H100 chỉ để chạy mô hình.
Ngoài những nội dung trên, tài liệu kỹ thuật còn đề cập đến một số tối ưu hóa quan trọng khác. Chúng bao gồm khuôn khổ đào tạo cực kỳ hiệu quả về bộ nhớ giúp tránh song song tenxơ, tính toán lại một số hoạt động trong quá trình truyền ngược thay vì lưu trữ chúng và chia sẻ các tham số giữa mô hình chính và các mô-đun dự đoán phụ. Tổng hợp tất cả những cải tiến này, khi kết hợp lại với nhau, sẽ tạo ra con số cải thiện hiệu quả ~45x đang lan truyền trực tuyến, mà tôi hoàn toàn tin là đúng.
Chi phí API của DeepSeek là một bằng chứng mạnh mẽ: mặc dù hiệu suất mô hình của DeepSeek gần như tốt nhất trong phân khúc, nhưng chi phí thực hiện yêu cầu suy luận thông qua API của nó lại cao hơn OpenAI và mô hình tương đương của Anthropic ít hơn 95%. Theo một nghĩa nào đó, nó giống như việc so sánh GPU của Nvidia với các chip tùy chỉnh mới từ đối thủ cạnh tranh: Ngay cả khi chúng không tốt bằng, chúng vẫn tiết kiệm chi phí hơn nhiều, miễn là bạn có thể xác định mức hiệu suất và chứng minh rằng nó đủ tốt để giành chiến thắng, bạn vẫn có thể giành chiến thắng. Nó đáp ứng các yêu cầu của bạn và tính khả dụng và độ trễ của API đủ tốt (cho đến nay, mọi người đã ngạc nhiên về hiệu suất của cơ sở hạ tầng DeepSeek, mặc dù nhu cầu tăng đột biến do hiệu suất của những mô hình mới).
Nhưng không giống như Nvidia, nơi mà sự khác biệt về chi phí là do biên lợi nhuận gộp độc quyền của họ là hơn 90% đối với các sản phẩm trung tâm dữ liệu, API DeepSeek tương đối Sự khác biệt về chi phí giữa Có lẽ OpenAI và Anthropic API đơn giản là vì chúng có hiệu quả tính toán cao hơn gần 50 lần (và thậm chí có thể còn cao hơn thế nữa về mặt suy luận - về mặt đào tạo, chúng có hiệu quả cao hơn khoảng 45 lần). Trên thực tế, không rõ liệu OpenAI và Anthropic có thu được lợi nhuận khổng lồ từ các dịch vụ API của họ hay không — có khả năng họ tập trung nhiều hơn vào việc tăng doanh thu và thu thập thêm dữ liệu bằng cách phân tích tất cả các yêu cầu API mà họ nhận được.
Trước khi tiếp tục, tôi phải chỉ ra rằng nhiều người đã suy đoán rằng DeepSeek đã nói dối về số lượng GPU và thời gian GPU cần thiết để đào tạo các mô hình này vì chúng Trên thực tế, họ có nhiều H100 hơn số lượng họ công bố vì có những hạn chế xuất khẩu đối với những loại thẻ này và họ không muốn gặp rắc rối hoặc làm giảm cơ hội sở hữu thêm những loại thẻ này. Mặc dù điều này chắc chắn là có thể, nhưng tôi nghĩ nhiều khả năng là họ đang nói sự thật và họ có thể đạt được những kết quả đáng kinh ngạc này chỉ đơn giản bằng cách thể hiện sự khéo léo và sáng tạo tột độ trong phương pháp đào tạo và suy luận của mình. Họ giải thích cách tiếp cận của mình và tôi ngờ rằng chỉ còn là vấn đề thời gian trước khi kết quả của họ được sao chép rộng rãi và được các nhà nghiên cứu khác trong các phòng thí nghiệm khác xác nhận.
Một mô hình thực sự suy nghĩ
Mô hình R1 được cập nhật Và Báo cáo công nghệ có lẽ còn gây sốc hơn nữa vì họ đã đánh bại Anthropic về mặt tư duy và hiện tại, ngoài OpenAI, họ về cơ bản là những người duy nhất khiến công nghệ này hoạt động ở quy mô lớn. Nhưng lưu ý rằng OpenAI sẽ chỉ phát hành mô hình xem trước O1 vào giữa tháng 9 năm 2024. Mới chỉ khoảng 4 tháng trước thôi! Một điều bạn phải ghi nhớ là OpenAI rất bí mật về cách các mô hình này thực sự hoạt động ở cấp độ thấp và trọng số thực tế của mô hình không được tiết lộ cho bất kỳ ai ngoại trừ các đối tác như Microsoft đã ký các thỏa thuận không tiết lộ thông tin nghiêm ngặt. Các mô hình của DeepSeek hoàn toàn khác biệt. Chúng hoàn toàn là mã nguồn mở và có giấy phép lỏng lẻo. Họ đã công bố các báo cáo kỹ thuật rất chi tiết giải thích cách thức hoạt động của các mô hình này và công khai mã để bất kỳ ai cũng có thể xem xét và thử sao chép.
Với R1, DeepSeek về cơ bản đã giải quyết được một vấn đề khó khăn trong lĩnh vực trí tuệ nhân tạo: cho phép các mô hình suy luận từng bước mà không cần dựa vào các tập dữ liệu có giám sát lớn. Các thí nghiệm DeepSeek-R1-Zero của họ cho thấy điều này: bằng cách sử dụng phương pháp học tăng cường thuần túy với hàm phần thưởng được thiết kế cẩn thận, họ có thể giúp mô hình phát triển khả năng suy luận phức tạp một cách hoàn toàn tự động. Điều này không chỉ dừng lại ở việc giải quyết vấn đề mà mô hình còn học được cách tạo ra chuỗi suy nghĩ dài, tự xác thực công việc của mình và phân bổ nhiều thời gian tính toán hơn cho các vấn đề khó hơn.
Bước đột phá về mặt kỹ thuật ở đây chính là phương pháp tiếp cận mới lạ của họ đối với mô hình phần thưởng. Thay vì sử dụng một mô hình phần thưởng thần kinh phức tạp, có thể dẫn đến "hack phần thưởng" (khi mô hình tăng phần thưởng theo những cách không chính xác mà không thực sự cải thiện hiệu suất thực sự của mô hình), họ đã phát triển một hệ thống dựa trên quy tắc thông minh. , kết hợp phần thưởng để có độ chính xác (xác minh câu trả lời cuối cùng) với phần thưởng cho định dạng (khuyến khích tư duy có cấu trúc). Cách tiếp cận đơn giản hơn này đã chứng tỏ có hiệu quả hơn và khả năng mở rộng hơn so với các mô hình phần thưởng dựa trên quy trình mà nhiều người đã thử.
Điều đặc biệt hấp dẫn là trong quá trình đào tạo, họ đã quan sát được cái gọi là "khoảnh khắc aha", khoảnh khắc mà mô hình tự phát Học cách thay đổi quá trình suy nghĩ của mình giữa chừng. Hành vi mới nổi này không được lập trình sẵn mà phát sinh một cách tự nhiên từ sự tương tác giữa mô hình và môi trường học tăng cường. Trên thực tế, mô hình dừng lại, đánh dấu các vấn đề tiềm ẩn trong lý luận và bắt đầu lại với một cách tiếp cận khác, tất cả đều không được đào tạo rõ ràng.
Mô hình R1 đầy đủ được xây dựng dựa trên những hiểu biết sâu sắc này bằng cách giới thiệu cái mà họ gọi là dữ liệu “khởi động lạnh” — một tập hợp nhỏ các ví dụ chất lượng cao. Họ cũng giải quyết được một vấn đề lớn trong các mô hình lý luận: tính nhất quán về mặt ngôn ngữ. Những nỗ lực trước đây trong việc xâu chuỗi suy nghĩ thường dẫn đến các mô hình pha trộn nhiều ngôn ngữ hoặc tạo ra kết quả không mạch lạc. DeepSeek giải quyết vấn đề này bằng cách khéo léo thưởng cho tính nhất quán của ngôn ngữ trong quá trình đào tạo RL, đánh đổi một chút hiệu suất bị mất để có đầu ra dễ đọc và nhất quán hơn. Kết quả thật đáng kinh ngạc: trong kỳ thi AIME 2024 (một trong những cuộc thi toán cấp trung học khó nhất), R1 đạt độ chính xác 79,8%, ngang bằng với OpenAI và mô hình O1 cũng tương đương. Ở kỳ thi MATH-500, em đạt 97,3% và đạt điểm 96,3% trong cuộc thi lập trình Codeforces. Nhưng có lẽ ấn tượng nhất là họ đã có thể chắt lọc những khả năng này thành một mô hình nhỏ hơn nhiều: phiên bản tham số 14B của họ vượt trội hơn nhiều mô hình lớn hơn gấp nhiều lần, cho thấy sức mạnh suy luận không chỉ phụ thuộc vào số lượng tham số thô mà còn phụ thuộc vào hiệu suất của kiến trúc cơ bản. Vấn đề là cách bạn đào tạo mô hình để xử lý thông tin.
Hậu quả
Gần đây, Twitter và Blind (một công ty Có tin đồn rằng những mô hình này hoàn toàn nằm ngoài dự đoán của Meta và thậm chí chúng còn vượt trội hơn cả mô hình Llama4 mới vẫn đang được đào tạo. Rõ ràng, dự án Llama trong Meta đã thu hút sự chú ý của các giám đốc kỹ thuật cấp cao, vì vậy họ có khoảng 13 người làm việc trên Llama và tổng mức lương hàng năm của mỗi người vượt quá tổng chi phí đào tạo của mô hình DeepSeek-V3, đó là hiệu suất tốt hơn Llama. Bạn sẽ giải thích điều này với Zuckerberg thế nào một cách nghiêm túc? Làm sao Zuckerberg có thể tiếp tục mỉm cười khi anh ta ném hàng tỷ đô la vào Nvidia để mua 100.000 chip H100 trong khi có thể đào tạo những mô hình tốt hơn chỉ với 2.000 chip H100 với giá chưa đến 5 triệu đô la?
Nhưng bạn nên tin rằng Meta và các phòng thí nghiệm AI lớn khác đang phân tích các mô hình DeepSeek này, nghiên cứu từng từ trong các báo cáo kỹ thuật và từng dòng mã nguồn mở đang cố gắng hết sức để kết hợp những thủ thuật và tối ưu hóa tương tự vào quy trình đào tạo và suy luận của riêng họ. Vậy, tác động của tất cả những điều này là gì? Vâng, sẽ thật ngây thơ khi nghĩ rằng tổng nhu cầu tính toán và đào tạo suy luận nên được chia cho một số lớn nào đó. Có lẽ thay vì 45, 25 hoặc thậm chí 30? Bởi vì dù trước đây bạn nghĩ mình cần bao nhiêu thì giờ đây bạn đã có ít hơn rất nhiều.
Một người lạc quan có thể nói, "Bạn chỉ đang nói về một hằng số tỷ lệ đơn giản, một bội số đơn. Khi bạn đang giải quyết một đường cong tăng trưởng theo cấp số nhân, Những thứ này sẽ biến mất nhanh chóng và cuối cùng sẽ không còn quan trọng nữa.” Có một phần sự thật trong câu này: Nếu AI có khả năng biến đổi như tôi mong đợi, và nếu tiện ích thực sự của công nghệ này được đo bằng hàng nghìn tỷ, Nếu thời gian suy luận máy tính là quy luật mở rộng mới, nếu chúng ta sẽ có một số lượng lớn rô-bốt hình người liên tục thực hiện nhiều suy luận, thì có lẽ đường cong tăng trưởng vẫn rất dốc và cực đoan và Nvidia vẫn còn đi trước rất xa đến mức nó vẫn sẽ thành công.
Nhưng Nvidia sẽ có rất nhiều tin tốt trong vài năm tới để duy trì định giá của mình và khi bạn tính đến tất cả những điều đó, ít nhất tôi cũng bắt đầu để cảm thấy tự tin rằng công ty sẽ tiếp tục hoạt động tốt. Tôi rất không thoải mái khi mua cổ phiếu của công ty với mức giá gấp 20 lần dự báo doanh số năm 2025. Điều gì sẽ xảy ra nếu tốc độ tăng trưởng doanh số chậm lại một chút? Còn nếu tốc độ tăng trưởng không phải là 100% mà là 85% thì sao? Điều gì sẽ xảy ra nếu biên lợi nhuận gộp giảm từ 75% xuống 70%, mức vẫn cao đối với một công ty bán dẫn?
Tóm tắt
Theo góc nhìn vĩ mô, Nvidia phải đối mặt với công ty đang phải đối mặt với những mối đe dọa cạnh tranh chưa từng có, khiến cho việc biện minh cho mức định giá cao gấp 20 lần doanh số bán kỳ hạn và biên lợi nhuận gộp 75% trở nên ngày càng khó khăn. Điểm mạnh của công ty về phần cứng, phần mềm và hiệu quả đang cho thấy những vết nứt đáng lo ngại. Toàn bộ thế giới—hàng chục ngàn người thông minh nhất hành tinh, được hỗ trợ bởi hàng tỷ đô la nguồn vốn—đang cố gắng tấn công họ từ mọi góc độ.
Về mặt phần cứng, các kiến trúc cải tiến từ Cerebras và Groq cho thấy lợi thế kết nối của Nvidia - nền tảng cho sự thống trị trung tâm dữ liệu của công ty - có thể bị phá vỡ thông qua thiết kế lại triệt để. Chip cỡ wafer của Cerebras và phương pháp tính toán xác định của Groq mang lại hiệu suất hấp dẫn mà không cần các giải pháp kết nối phức tạp của NVIDIA. Theo truyền thống, mỗi khách hàng lớn của NVIDIA (Google, Amazon, Microsoft, Meta, Apple) đều đang phát triển các chip tùy chỉnh có thể làm giảm doanh thu từ các trung tâm dữ liệu có biên lợi nhuận cao. Đây không còn là những dự án thử nghiệm nữa — riêng Amazon đang xây dựng một cơ sở hạ tầng khổng lồ cho Anthropic bao gồm hơn 400.000 con chip tùy chỉnh.
Các hào phần mềm cũng có vẻ mong manh như vậy. Các khuôn khổ cấp cao mới như MLX, Triton và JAX đang làm giảm tầm quan trọng của CUDA, trong khi những nỗ lực cải thiện trình điều khiển AMD có thể dẫn đến sự phát triển của các giải pháp thay thế phần cứng rẻ hơn. Xu hướng hướng tới sự trừu tượng hóa ở cấp độ cao hơn phản ánh cách ngôn ngữ lắp ráp nhường chỗ cho C/C++, cho thấy sự thống trị của CUDA có thể không kéo dài lâu như người ta nghĩ. Ngoài ra, chúng ta đang chứng kiến sự phát triển của công nghệ biên dịch mã dựa trên LLM có thể tự động chuyển mã CUDA để chạy trên bất kỳ phần cứng mục tiêu nào, có khả năng loại bỏ một trong những hiệu ứng khóa cứng mạnh nhất của NVIDIA.
Có lẽ đột phá gần đây nhất của DeepSeek về hiệu quả, đạt được hiệu suất tương đương với mô hình nhưng chỉ tốn khoảng 1/45 chi phí tính toán. Điều này cho thấy ngành công nghiệp nói chung đã cung cấp quá mức tài nguyên máy tính. Ngoài ra, hiệu quả hơn