Aussie AI

Research Survey for Generative AI in C++

Last Updated 3rd August, 2024

by David Spuler, Ph.D.

The Aussie AI project includes a full literature survey of AI optimization.

Chapter-by-Chapter Research Citations

Here is a detailed list of the related research coverage for each chapter of Generative AI in C++.

The new AI programming book by Aussie AI co-founders:

AI coding in C++
Transformer engine speedups
LLM models
Phone and desktop AI
Code examples
Research citations

Get your copy from Amazon: Generative AI in C++

Book Information

For general information about Generative AI in C++ see also:

New Research Areas: More research papers:

On-device inference (native phone and PC AI)
Generalized speculative decoding
Consensus decoding
KV Cache Compression/Quantization
Prefill optimizations
Fixed-point quantization (integer)
Fixed-point arithmetic
Block floating-point arithmetic

Hot Research Topics: Longstanding research areas with many recent additions:

Part I: AI Projects in C++

1. Introduction to AI in C++

2. Transformers & LLMs

3. AI Phones

4. AI on Your Desktop

5. Design Choices & Architectures

6. Training, Fine-Tuning & RAG

7. Deployment Architecture

AI phones
AI PCs (desktops/laptops)

Part II: Basic C++ Optimizations

8. Bitwise Operations

9. Floating Point Arithmetic

Foating point bitwise arithmetic

10. Arithmetic Optimizations

11. Compile-Time Optimizations

12. Pointer Arithmetic

References vs pointers

13. Algorithm Speedups

14. Memory Optimizations

Part III: Parallel C++ Optimizations

15. Loop Vectorization

Loop optimizations (overview)
Loop fusion (merging loops)
Loop unrolling
Loop perforation
Loop reordering
Loop tiling
Loop reversal
Loop fission (splitting a loop)
Loop interchange
Loop coalescing
Loop-invariant code motion ("hoisting")
Loop distribution
Pointer arithmetic
Loop peeling (unrolling first iterations)
Loop splitting Loop sentinel
Loop collapsing
Loop normalization
Loop strip mining (Loop sectioning)
Loop skewing
Loop spreading
Parallelization
Vectorization
Kernel operator fusion (merging two operations)
Kernel fission (splitting)

16. Hardware Acceleration

17. AVX Intrinsics

18. Parallel Data Structures

Part IV: Transformer Components in C++

Transformer architectures (overview)
Transformer low-level optimizations (overview)
AI phones
AI PCs (desktops/laptops)

19. Encoders & Decoders

20. Attention

21. Activation Functions

22. Vector Algorithms

23. Tensors

Tensor decomposition
Faster matrix multiplication (e.g. Winograd, Strassen)
Approximate matrix multiplication

24. Normalization

25. Softmax

26. Decoding Algorithms

27. Tokenizer and Vocabulary

Part V: Optimizing Transformers in C++

28. Deslugging AI Engines

29. Caching Optimizations

30. Vectorization

Vectorization
Parallelization
Pipelining
Kernel operator fusion (merging two operations)
Kernel fission (splitting)

31. Kernel Fusion

Kernel operator fusion (merging two operations)
Kernel fission (splitting)
Loop fusion (merging loops)
Loop fission (splitting a loop)
Fused Multi-Head Attention (MHA)
Fused activation functions
Fused RELU
Fused GELU
Fused SwiGLU
Fused normalization (e.g. "fused LayerNorm")
Fused Softmax
Fused multiply-add (FMA)
Fused transpose
Negative skipping

32. Quantization

33. Pruning

34. MatMul/GEMM

Faster matrix multiplication (e.g. Winograd, Strassen)
Approximate matrix multiplication
Transpose cache
Fused multiply-add (FMA)
Fused transpose
Vector dot product optimization
FFN pruning
Fused add-bias
Bias vector pruning
Low-rank matrices
Matrix Algebra (factorization)
Approximate matrix multiplication
Butterfly matrices
Monarch matrices
Sparse matrices (sparsification)

35. Lookup Tables & Precomputation

36. AI Memory Optimizations

Part VI: Enterprise AI in C++

37. Tuning, Profiling & Benchmarking

38. Platform Portability

Portability

39. Quality

40. Reliability

41. Self-Testing Code

42. Debugging

Debugging AI framework code

Part VII: Research on AI Optimization

43. Overview of AI Research

44. Advanced Quantization

45. Knowledge Distillation

46. Structured Pruning

47. Early Exit and Layer Pruning

Early exit (dynamic layer pruning)
Layer pruning
Depth pruning (overview)
Layer skipping
Shallow decoder architecture (layer pruning)
Layer fusion
Layer reordering

48. Width Pruning

49. Length Pruning

50. Adaptive Inference

51. Zero-Multiplication Models

52. Logarithmic Models

53. Arithmetic Optimization Research

54. Ensemble Multi-Model Architectures

Ensemble inference (multi-model AI engines)
Model selection algorithms
Big-little architectures
Cascades
Cloud inference servers
Collaborative inference
Mixture of Experts (MoE)
Speculative decoding