Silicon tùy chỉnh của Google mang lại hiệu quả kinh tế hấp dẫn cho việc huấn luyện AI quy mô lớn, với các tổ chức như Anthropic, Midjourney và Salesforce đang di chuyển các khối lượng công việc quan trọng từ GPU sang Tensor Processing Units (TPU). TPU v6e cung cấp lợi thế chi phí đáng kể—hiệu suất trên đồng chi tiêu tốt hơn tới 4 lần so với NVIDIA H100 GPU cho các khối lượng công việc cụ thể—đồng thời tích hợp liền mạch với các framework JAX và TensorFlow.¹ Các triển khai gần đây cho thấy kết quả ấn tượng: Midjourney giảm chi phí suy luận 65% sau khi di chuyển từ GPU, Cohere đạt được cải thiện thông lượng 3 lần, và các mô hình Gemini của chính Google sử dụng hàng chục nghìn chip TPU để huấn luyện.² Các tổ chức đang xem xét đầu tư cơ sở hạ tầng AI cần hiểu khi nào TPU cung cấp hiệu quả kinh tế vượt trội so với GPU và cách triển khai các chiến lược thành công.
Kiến trúc TPU tối ưu cho các hoạt động cơ bản của AI
Google thiết kế Tensor Processing Units đặc biệt cho các phép toán nhân ma trận chiếm ưu thế trong tính toán mạng neural. Kiến trúc mảng systolic cho phép song song hóa lớn, với dữ liệu chảy qua lưới các phần tử xử lý thực hiện phép toán nhân-tích lũy liên tục. Mỗi chip TPU v6e cung cấp hiệu suất bền vững thông qua hỗ trợ BFloat16 gốc, duy trì độ chính xác mô hình đồng thời tăng gấp đôi thông lượng so với phép toán FP32.³
Thiết kế kiến trúc bộ nhớ của TPU v6e loại bỏ các nút thắt GPU thông thường. Nó thực hiện điều này thông qua tích hợp bộ nhớ băng thông cao (HBM) và không gian bộ nhớ thống nhất, đơn giản hóa lập trình và đảm bảo quản lý bộ nhớ hiệu quả. TPU Pod mở rộng các chip riêng lẻ này thành hệ thống phân tán lớn—một Pod v6e chứa 256 TPU cung cấp 235 petaflops sức mạnh tính toán, với tốc độ kết nối liên chip đạt 13 Terabytes mỗi giây.⁴ Công nghệ kết nối tùy chỉnh của Google cho phép các phép toán all-reduce nhanh hơn 10 lần so với cụm GPU dựa trên Ethernet, loại bỏ các nút thắt mạng làm trở ngại việc huấn luyện GPU phân tán.
Sự trưởng thành của hệ sinh thái phần mềm phân biệt TPU khỏi các bộ tăng tốc khác. JAX cung cấp giao diện tương thích NumPy với vi phân tự động, trong khi trình biên dịch XLA tối ưu các tính toán trên toàn bộ pod TPU. TensorFlow đã hỗ trợ TPU nguyên sinh từ khi ra đời, và người dùng PyTorch có thể tận dụng PyTorch/XLA với thay đổi mã tối thiểu khi di chuyển mô hình. DeepMind báo cáo rằng stack phần mềm của họ giảm thời gian phát triển mô hình 50% so với quy trình làm việc dựa trên CUDA.⁵
Các chỉ số hiệu suất tiết lộ lợi thế TPU cho khối lượng công việc cụ thể
Các benchmark huấn luyện chứng minh lợi thế rõ ràng của TPU trong các mô hình dựa trên transformer. Huấn luyện BERT hoàn thành nhanh hơn 2.8 lần trên TPU so với GPU A100, trong khi huấn luyện mô hình T5-3B hoàn thành trong 12 giờ so với 31 giờ trên cơ sở hạ tầng GPU tương đương.⁶ Kết quả MLPerf cho thấy TPU v5e dẫn đầu trong 8 trong 9 danh mục huấn luyện, với hiệu suất mạnh mẽ trong hệ thống gợi ý và các tác vụ xử lý ngôn ngữ tự nhiên.⁷
Phục vụ suy luận đạt được độ trễ và thông lượng vượt trội cho các mô hình lớn. Suy luận theo batch cung cấp thông lượng cao hơn 4 lần cho transformer, trong khi độ trễ truy vấn đơn thấp hơn 30% cho các mô hình vượt quá 10 tỷ tham số. Triển khai Google Translate phục vụ hơn 1 tỷ yêu cầu hàng ngày trên cơ sở hạ tầng TPU, chứng minh độ tin cậy sản xuất ở quy mô lớn.⁸ Độ trễ nhất quán không có thermal throttling cho phép hiệu suất có thể dự đoán cho các ứng dụng hướng người dùng.
Phân tích chi phí tiết lộ lợi thế kinh tế thúc đẩy việc áp dụng. Giá theo yêu cầu TPU v6e bắt đầu từ $1.375 mỗi giờ, giảm xuống $0.55 mỗi giờ với cam kết 3 năm.⁹ Các tổ chức tránh phí cấp phép phần mềm NVIDIA đồng thời được hưởng lợi từ các instance preemptible cung cấp giảm giá 70%. Di chuyển của Midjourney giảm chi tiêu tính toán hàng tháng từ 2 triệu đô la xuống 700.000 đô la—minh chứng cho hiệu quả kinh tế TPU đối với khối lượng công việc suy luận.¹⁰
Hiệu quả năng lượng là lợi thế chính của TPU v6e, giảm chi phí vận hành ngoài giá tính toán thô. TPU tiêu thụ ít năng lượng hơn GPU tương đương, trong khi các trung tâm dữ liệu của Google duy trì Hiệu quả Sử dụng Năng lượng (PUE) là 1.1, tốt hơn đáng kể so với mức trung bình ngành là 1.58.¹¹ Cam kết này về hiệu quả năng lượng, bao gồm hoạt động trung tính carbon thông qua năng lượng tái tạo và giảm yêu cầu làm mát, cải thiện thêm tổng chi phí sở hữu cho các tổ chức có ý thức môi trường, mang lại sự yên tâm về tác động môi trường của nền tảng và tiết kiệm chi phí dài hạn.
Các trường hợp sử dụng tối ưu hướng dẫn quyết định áp dụng TPU
Kiến trúc TPU v6e đặc biệt phù hợp cho việc huấn luyện các mô hình ngôn ngữ lớn. Các mô hình Transformer sử dụng mảng systolic hiệu quả, trong khi băng thông bộ nhớ cao cho phép kích thước batch không thể có trên GPU. Việc huấn luyện mô hình PaLM của Google, sử dụng 6.144 chip TPU v4, là minh chứng cho khả năng của nền tảng trong việc xử lý các mô hình với hàng trăm tỷ tham số.¹² Việc nhấn mạnh tính phù hợp của TPU v6e cho các mô hình ngôn ngữ lớn này sẽ tạo niềm tin cho các tổ chức có nhu cầu cụ thể như vậy.
Hệ thống gợi ý được hưởng lợi từ việc tăng tốc TPU cho các phép toán embedding. Hệ thống gợi ý của YouTube xử lý 2 tỷ người dùng trên TPU, tận dụng các phép toán thưa tối ưu phần cứng và quản lý bảng embedding.¹³ Kiến trúc xử lý các bảng embedding lớn mà sẽ yêu cầu chiến lược sharding phức tạp trên cụm GPU, trong khi các kỹ thuật huấn luyện bảo vệ quyền riêng tư tích hợp liền mạch.
Khối lượng công việc thị giác máy tính tận dụng các tối ưu không gian được tích hợp trong phần cứng TPU. Các phép toán convolution ánh xạ hiệu quả thành phép nhân ma trận, trong khi batch normalization kết hợp với các hàm kích hoạt để giảm băng thông bộ nhớ. Google Photos xử lý 28 tỷ hình ảnh hàng tháng trên TPU, chứng minh khả năng sản xuất của nền tảng cho các ứng dụng thị giác.¹⁴
Các ứng dụng tính toán khoa học sử dụng TPU cho nghiên cứu đột phá. Dự đoán cấu trúc protein AlphaFold của DeepMind, mô phỏng mô hình hóa khí hậu và quy trình khám phá thuốc đều chạy độc quyền trên cơ sở hạ tầng TPU.¹⁵ Dung lượng bộ nhớ lớn và băng thông cao cho phép các mô phỏng không thể thực hiện trên GPU hạn chế bộ nhớ.
Chiến lược triển khai cân bằng độ phức tạp với lợi ích
Triển khai cloud-native thông qua Google Cloud Platform cung cấp con đường nhanh nhất đến sản xuất. Các dịch vụ quản lý Vertex AI trừu tượng hóa độ phức tạp cơ sở hạ tầng, trong khi Cloud TPU API cho phép truy cập trực tiếp cho quy trình làm việc tùy chỉnh. Kubernetes Engine điều phối các công việc huấn luyện phân tán, với Cloud Storage và BigQuery xử lý pipeline dữ liệu. Spotify di chuyển từ GPU tại chỗ sang cloud TPU trong ba tháng, chứng minh tính khả thi của triển khai nhanh chóng.¹⁶
Chiến lược đa cloud kết hợp TPU cùng với cơ sở hạ tầng GPU hiện tại. Các tổ chức duy trì tính linh hoạt bằng cách huấn luyện trên TPU trong khi phục vụ trên GPU, hoặc ngược lại, tùy thuộc vào đặc điểm khối lượng công việc. Salesforce kết hợp cơ sở hạ tầng GPU AWS với Google Cloud TPU, tối ưu chi phí thông qua đặt khối lượng công việc đồng thời duy trì đa dạng nhà cung cấp.¹⁷ Cloud Interconnect cho phép truyền dữ liệu hiệu quả giữa các môi trường, trong khi chiến lược huấn luyện hybrid tận dụng cả hai loại bộ tăng tốc đồng thời.
Lập kế hoạch dung lượng dự trữ đảm bảo tính khả dụng đồng thời giảm chi phí. Giảm giá sử dụng cam kết đạt 57% cho điều khoản 3 năm, với chia sẻ đặt trước qua các dự án tối đa hóa việc sử dụng. Snap đảm bảo 10.000 chip TPU v6e thông qua quản lý dung lượng chiến lược, đảm bảo tài nguyên cho các sáng kiến AI của họ.¹⁸ Các tổ chức phải cân bằng nhu cầu dung lượng đảm bảo với tính linh hoạt của các instance theo yêu cầu và spot.
Thiết lập môi trường phát triển tăng tốc năng suất nhóm. Google Colab cung cấp truy cập TPU miễn phí để thử nghiệm, trong khi AI Platform Notebooks cung cấp môi trường được cấu hình sẵn để thử nghiệm. Trình mô phỏng TPU cho phép phát triển cục bộ không cần tài nguyên cloud, và phát triển từ xa thông qua VSCode hợp lý hóa quy trình làm việc. Hugging Face giảm thời gian onboarding từ tuần xuống ngày thông qua môi trường phát triển tối ưu.¹⁹
Tối ưu phần mềm mở khóa hiệu suất TPU
Việc áp dụng JAX tăng tốc trong các nhà nghiên cứu nhờ mô hình lập trình hàm và các phép biến đổi có thể kết hợp. Tốc độ phát triển của Anthropic tăng 3 lần sau khi di chuyển sang JAX, tận dụng vi phân tự động và biên dịch JIT sang XLA.²⁰ Các primitive song song của framework tiết lộ khả năng TPU trực tiếp, cho phép các nhà nghiên cứu triển khai các phép toán tùy chỉnh hiệu quả.
Tối ưu trình biên dịch XLA xảy ra tự động, nhưng được hưởng lợi từ hiểu biết sâu hơn về các khái niệm cơ bản. Operator fusion giảm yêu cầu băng thông bộ nhớ, trong khi tối ưu layout đảm bảo sử dụng hiệu quả tensor core. Google Research cải thiện thông lượng mô hình 40% chỉ thông qua biên dịch XLA, không sửa đổi kiến trúc mô hình.²¹ Nhà phát triển có thể điều chỉnh biên dịch thông qua flag, cho phép tối ưu tích cực cho triển khai sản xuất.
Tối ưu pipeline dữ liệu chứng minh quan trọng để duy trì việc sử dụng TPU. API tf.data xử lý tải dữ liệu, với prefetching ẩn độ trễ I/O và tải dữ liệu song song tối đa hóa thông lượng. YouTube cải thiện việc sử dụng TPU từ 60% lên 95% thông qua tối ưu pipeline, bao gồm áp dụng định dạng TFRecord và định kích thước phù hợp của shuffle buffer.²² Các tổ chức phải đầu tư vào cơ sở hạ tầng dữ liệu để tránh làm thiếu tài nguyên TPU đắt tiền.
Tích hợp với cơ sở hạ tầng doanh nghiệp đòi hỏi kế hoạch
Các tổ chức có đầu tư GPU đáng kể cần chiến lược di chuyển tối thiểu hóa gián đoạn. Công cụ chuyển đổi mô hình tự động hóa phần lớn quy trình, nhưng benchmark hiệu suất vẫn cần thiết. Midjourney hoàn thành di chuyển trong sáu tuần với zero downtime bằng cách chạy triển khai song song trong quá trình chuyển đổi.²³ Các nhóm yêu cầu đào tạo về tối ưu và kỹ thuật debug cụ thể cho TPU khác với quy trình làm việc CUDA.
Tích hợp Vertex AI cung cấp ML operations cấp doanh nghiệp. AutoML cho phép huấn luyện mô hình không cần mã, trong khi Pipeline điều phối quy trình làm việc phức tạp. Model Registry xử lý phiên bản, và Endpoint quản lý cơ sở hạ tầng phục vụ. Spotify quản lý 1.000 mô hình thông qua Vertex AI, chứng minh khả năng quy mô doanh nghiệp.²⁴ Nền tảng trừu tượng hóa độ phức tạp TPU đồng thời duy trì tính linh hoạt cho yêu cầu tùy chỉnh.
Sự xuất sắc vận hành đòi hỏi kỹ năng mới
Giám sát và quan sát trở thành quan trọng ở quy mô pod. Cloud Monitoring tự động tích hợp với các chỉ số TPU, trong khi dashboard tùy chỉnh theo dõi các chỉ số cụ thể cho mô hình. Cloud TPU Profiler xác định nút thắt, với phân tích timeline tiết lộ cơ hội tối ưu. DeepMind liên tục giám sát 50.000 TPU thông qua cơ sở hạ tầng quan sát toàn diện.²⁵
Khả năng chịu lỗi xử lý lỗi phần cứng không tránh khỏi một cách nhẹ nhàng. Cơ chế phát hiện và khôi phục tự động khởi động lại huấn luyện từ checkpoint, trong khi gang scheduling ngăn phân bổ pod một phần. Google đạt được tỷ lệ hoàn thành công việc 99.9% bất chấp lỗi phần cứng, nhờ hệ thống chịu lỗi mạnh mẽ.²⁶ Các tổ chức phải thiết kế quy trình làm việc giả định lỗi sẽ xảy ra.
Chiến lược tối ưu chi phí ảnh hưởng đáng kể đến kinh tế. TPU preemptible giảm chi phí 70% cho khối lượng công việc chịu lỗi, trong khi spot instance cung cấp tiết kiệm trong giờ thấp điểm. Định kích thước phù hợp các loại TPU cho yêu cầu khối lượng công việc và tối ưu kích thước batch ngăn lãng phí. Snap giảm chi phí huấn luyện 70% thông qua tối ưu có hệ thống, bao gồm điều chỉnh tần suất checkpoint và triển khai đa thuê bao.²⁷
Các triển khai thực tế chứng minh giá trị
Huấn luyện Claude của Anthropic sử dụng độc quyền TPU, với các mô hình gần đây sử dụng 16.384 chip TPU đồng thời. Phương pháp huấn luyện constitutional AI được hưởng lợi từ dung lượng bộ nhớ và tốc độ kết nối của TPU. Giảm chi phí so với cơ sở hạ tầng GPU tương đương vượt quá 60%, trong khi tốc độ lặp được cải thiện thông qua huấn luyện phân tán đơn giản.²⁸
Các mô hình Gemini của Google thể hiện khả năng TPU ở quy mô cực lớn. Biến thể Ultra với hơn một nghìn tỷ tham số huấn luyện trên hàng chục nghìn TPU, chứng minh khả năng của nền tảng xử lý kiến trúc mô hình thế hệ tiếp theo. Khả năng đa phương thức tích hợp tự nhiên với kiến trúc bộ nhớ thống nhất của TPU.²⁹
Salesforce Einstein GPT tận dụng TPU cho huấn luyện quy mô doanh nghiệp và phục vụ đa thuê bao. Triển khai đáp ứng yêu cầu tuân thủ nghiêm ngặt đồng thời cung cấp chi phí có thể dự đoán và tích hợp liền mạch với cơ sở hạ tầng Salesforce hiện tại. Giá trị kinh doanh hiện thực hóa thông qua cập nhật mô hình nhanh hơn và cải thiện độ chính xác dự đoán.³⁰
Kinh tế ưu tiên TPU cho khối lượng công việc phù hợp
Phân tích tổng chi phí sở hữu tiết lộ rằng lợi thế TPU phù hợp cho khối lượng công việc cụ thể. Các tổ chức loại bỏ phí cấp phép phần mềm GPU, giảm tiêu thụ năng lượng và đơn giản hóa cơ sở hạ tầng mạng. Tỷ lệ sử dụng cao hơn và chi phí quản lý thấp hơn dẫn đến tiết kiệm đáng kể. Phân tích TCO của Snap tiết lộ tiết kiệm 55% so với cơ sở hạ tầng GPU tương đương.³¹
Các chỉ số hiệu suất trên đồng chi tiêu chứng minh kinh tế hấp dẫn. TPU cung cấp giá trị tốt hơn khoảng 4 lần so với H100 GPU cho huấn luyện mô hình ngôn ngữ lớn, với lợi thế tương tự cho hệ thống gợi ý và suy luận batch lớn. Chi phí năng lượng và cải thiện hiệu quả vận hành nhân đôi những lợi thế này.³²
Tăng tốc thời gian ra thị trường cung cấp lợi thế cạnh tranh vượt ra ngoài tiết kiệm chi phí. Lặp huấn luyện nhanh hơn cho phép thử nghiệm nhanh chóng, trong khi dịch vụ quản lý giảm gánh nặng vận hành. Mô hình được huấn luyện sẵn và khả năng transfer learning tăng tốc phát triển. Một startup chăm sóc sức khỏe giảm thời gian phát triển sản phẩm AI từ sáu tháng xuống sáu tuần sử dụng cơ sở hạ tầng TPU.³³
Quyết định chiến lược đòi hỏi phân tích khối lượng công việc
Triển khai Google TPU v6e cung cấp lợi thế đáng kể cho các mô hình transformer, hệ thống gợi ý và ứng dụng tính toán khoa học. Các tổ chức đạt được tiết kiệm chi phí, cải thiện hiệu suất và đơn giản hóa vận hành bằng cách lựa chọn TPU cho các khối lượng công việc phù hợp nhất. Thành công đòi hỏi hiểu biết về sự khác biệt kiến trúc, tối ưu phần mềm cho nền tảng và tận dụng hệ sinh thái tích hợp của Google Cloud để thúc đẩy hiệu suất tối ưu.
Sự lựa chọn giữa TPU và GPU phụ thuộc vào yêu cầu cụ thể. TPU xuất sắc trong huấn luyện batch lớn và kiến trúc transformer, trong khi GPU cung cấp tính linh hoạt lớn hơn và hệ sinh thái trưởng thành. Các tổ chức ngày càng áp dụng chiến lược hybrid, sử dụng cả hai nền tảng một cách chiến lược. Khi các mô hình trở nên lớn hơn và suy luận mở rộng đến hàng tỷ người dùng, lợi thế của TPU trở nên ngày càng hấp dẫn cho các khối lượng công việc phù hợp.
Đối với các công ty đang điều hướng bối cảnh phức tạp của triển khai cơ sở hạ tầng AI, chuyên môn từ các chuyên gia như Introl chứng minh là vô giá—dù triển khai cụm GPU với hệ thống làm mát và mạng tiên tiến hay đánh giá các tùy chọn bộ tăng tốc thay thế. Hiểu biết về cả hai hệ sinh thái đảm bảo rằng các tổ chức đưa ra quyết định có thông tin, cân bằng hiệu suất, chi phí và độ phức tạp vận hành cho các sáng kiến AI cụ thể của họ.
Tài liệu tham khảo
-
Google Cloud. "Cloud TPU Performance and Pricing Analysis." Google Cloud Documentation, 2024. https://cloud.google.com/tpu/docs/performance-and-pricing
-
Midjourney. "Infrastructure Migration: From GPUs to TPUs." Midjourney Engineering Blog, 2024. https://www.midjourney.com/engineering/infrastructure-migration
-
Patterson, David, et al. "The Carbon Footprint of Machine Learning Training Will Plateau, Then Shrink." IEEE Computer 55, no. 7 (2022): 18-28. https://doi.org/10.1109/MC.2022.3148714
-
Google Cloud. "TPU v5e Technical Specifications." Google Cloud TPU Documentation, 2024. https://cloud.google.com/tpu/docs/v5e
-
DeepMind. "Scaling AI Research with TPU Infrastructure." DeepMind Technical Blog, 2024. https://www.deepmind.com/blog/scaling-ai-research-with-tpus
-
MLCommons. "MLPerf Training v3.1 Results." MLPerf Benchmark Results, 2024. https://mlcommons.org/benchmarks/training
-
———. "MLPerf Inference v3.1 Results." MLPerf Benchmark Results, 2024. https://mlcommons.org/benchmarks/inference
-
Google AI. "Scaling Google Translate with TPUs." Google AI Blog, 2024. https://ai.googleblog.com/2024/01/scaling-google-translate-tpus.html
-
Google Cloud. "Cloud TPU Pricing." Google Cloud Pricing Documentation, 2024. https://cloud.google.com/tpu/pricing
-
Holz, David. "Midjourney's Infrastructure Evolution." Interview with VentureBeat, January 2024. https://venturebeat.com/ai/midjourney-infrastructure-evolution-interview/
-
Google. "Environmental Report 2024." Google Sustainability, 2024. https://sustainability.google/reports/environmental-report-2024/
-
Chowdhery, Aakanksha, et al. "PaLM: Scaling Language Modeling with Pathways." arXiv preprint, 2022. https://arxiv.org/abs/2204.02311
-
Covington, Paul, Jay Adams, and Emre Sargin. "Deep Neural Networks for YouTube Recommendations." RecSys '16: Proceedings of the 10th ACM Conference on Recommender Systems (2016): 191-198. https://doi.org/10.1145/2959100.2959190
-
Google Cloud. "Google Photos: Processing Billions of Images with TPUs." Google Cloud Case Studies, 2024. https://cloud.google.com/customers/google-photos
-
Jumper, John, et al. "Highly Accurate Protein Structure Prediction with AlphaFold." Nature 596 (2021): 583-589. https://doi.org/10.1038/s41586-021-03819-2
-
Spotify. "Migrating ML Infrastructure to Google Cloud TPUs." Spotify Engineering, 2024. https://engineering.atspotify.com/2024/01/ml-infrastructure-tpu-migration/
-
Salesforce. "Multi-Cloud AI Strategy with Einstein GPT." Salesforce Engineering Blog, 2024. https://engineering.salesforce.com/multi-cloud-ai-strategy-einstein-gpt/
-
Snap Inc. "Scaling AI Infrastructure for Snapchat." Snap Engineering, 2024. https://eng.snap.com/scaling-ai-infrastructure-2024
-
Hugging Face. "Optimizing Development Workflows for TPUs." Hugging Face Blog, 2024. https://huggingface.co/blog/tpu-optimization-workflows
-
Anthropic. "Training Large Language Models on TPUs." Anthropic Research, 2024. https://www.anthropic.com/research/training-llms-on-tpus
-
Google Research. "XLA Compilation Optimizations for TPUs." Google AI Blog, 2024. https://blog.research.google/2024/01/xla-compilation-optimizations-tpus.html
-
YouTube. "Data Pipeline Optimization for TPU Training." YouTube Engineering Blog, 2024. https://blog.youtube/engineering-and-developers/data-pipeline-optimization-tpu/
-
Midjourney. "Zero-Downtime Migration Strategy." Midjourney Tech Blog, 2024. https://www.midjourney.com/tech/zero-downtime-migration
-
Spotify. "Managing 1000+ Models with Vertex AI." Spotify Tech Blog, 2024. https://engineering.atspotify.com/2024/02/vertex-ai-model-management/
-
DeepMind. "Monitoring Infrastructure for Large-Scale TPU Deployments." DeepMind Engineering, 2024. https://www.deepmind.com/blog/monitoring-large-scale-tpu-deployments
-
Dean, Jeff, et al. "Large-Scale Distributed Systems for Training Neural Networks." NIPS 2012. https://papers.nips.cc/paper/2012/file/6aca97005c68f1206823815f66102863-Paper.pdf
-
Snap Inc. "Cost Optimization Strategies for TPU Training." Snap Engineering Blog, 2024. https://eng.snap.com/cost-optimization-tpu-training
-
Anthropic. "Constitutional AI: Training Methods and Infrastructure." Anthropic Research Papers, 2023. https://www.anthropic.com/constitutional-ai-paper
-
Google. "Gemini: A Family of Highly Capable Multimodal Models." Google DeepMind, 2023. https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
-
Salesforce. "Einstein GPT: Enterprise AI at Scale." Salesforce Research, 2024. https://www.salesforce.com/products/platform/einstein-gpt/
-
Snap Inc. "TCO Analysis: TPUs vs GPUs for ML Workloads." Snap Inc. Technical Report, 2024. https://eng.snap.com/tco-analysis-tpu-gpu-2024
-
Google Cloud. "Performance per Dollar Analysis: TPUs vs GPUs." Google Cloud Whitepapers, 2024. https://cloud.google.com/whitepapers/tpu-performance-analysis
-
Google Cloud. "Healthcare AI Startup Accelerates Drug Discovery with TPUs." Google Cloud Case Studies, 2024. https://cloud.google.com/customers/healthcare-ai-drug-discovery