为什么 Rust 编译器这么慢？

💬 177 条评论 | rust/编译| 2025-06-27

我花了一个月的时间在 Docker 中反复构建我的网站，现在要分享一些可怕的经历。

我遇到了一个问题。

我的网站(您正在阅读的这个网站)主要由一个 Rust 二进制文件提供服务。长期以来，每当我想进行更改时，我都会：

构建一个新的静态链接二进制文件(使用 --target=x86_64-unknown-linux-musl)
将其复制到我的服务器
重新启动网站

这……不太理想。

因此，我希望改用容器(无论是 Docker、Kubernetes 还是其他)来部署我的网站，这与过去十年中部署的大多数软件相吻合。

唯一的问题是，使用 Docker 快速构建 Rust 并不简单。

更新(2025-06-27)

我最初在Bluesky上发布了这篇文章链接——那里有一些有价值的讨论 ❤️

特别感谢Piotr Osiewicz和Wesley Moore的建议，这些建议节省了大量时间。
更多相关内容请见文末部分。

该文章还被转发到 r/rust 和 hackernews。如果你有兴趣的话，可以看看这些有趣的评论。元素周期表

目录：

基础知识：Docker 中的 Rust
rustc 到底在做什么？
这次真的问问 rustc 吧
是时候谈谈 LTO 了
简短说明：50 秒其实是 可以接受的！
另一条简短说明：我们不能用增量编译吗？
深入探讨：连你也要这样，LLVM_module_optimize？
LLVM到底是怎么回事？
LLVM的跟踪事件中包含什么？
能否让 InlinerPass 更快？
能否让 OptFunction 更快？
整合所有内容
2025 年 6 月 27 日更新
最终总结

基础知识：Docker 中的 Rust

Docker 中的 Rust，简单的方法

要将 Rust 程序放入容器中，通常的做法如下：

FROM rust:1.87-alpine3.22 AS builder

RUN apk add musl-dev

WORKDIR /workdir
COPY . .

# the "package" for my website is "web-http-server".
RUN cargo build --package web-http-server --target=x86_64-unknown-linux-musl

# Only include the binary in the final image
FROM alpine:3.20
COPY --from=builder /workdir/target/x86_64-unknown-linux-musl/release/web-http-server /usr/bin/web-http-server

ENTRYPOINT ["/usr/bin/web-http-server"]

遗憾的是，每当有任何更改时，这都会从头开始重建一切。

就我而言，从头开始构建大约需要 4 分钟(包括每次下载 crates 所需的 10 秒钟)。

$ cargo build --release --target=x86_64-unknown-linux-musl --package web-http-server
    Updating crates.io index
 Downloading crates ...
  Downloaded anstream v0.6.18
  Downloaded http-body v1.0.1

... many more lines ...

   Compiling web-http-server v0.1.0 (/workdir/web-http-server)
    Finished `release` profile [optimized + debuginfo] target(s) in 3m 51s

当然，情况可能会更糟糕。但由于增量编译，我已经习惯了快速的本地构建——我不想为每一个微小的更改等待那么久！

Docker 中的 Rust，更好的缓存

幸运的是，有一个工具可以帮助我们做到这一点！

Luca Palmieri 的 cargo-chef 允许您将所有依赖项作为 Docker 构建缓存中的独立层预先构建，这样代码库中的更改只会触发代码库本身的重新编译(而非依赖项)。

详细解释我留到 Luca 的博客文章中，但大致来说，cargo-chef 会从当前的工作区创建一个简化的“配方”文件，该文件可以“烹饪”以缓存依赖项，而不会因工作区的更改而失效。

我的网站引入了数百个依赖项，因此这应该会有所帮助！

...

FROM ... AS planner
COPY . .
RUN cargo chef prepare --recipe-path=/workdir/recipe.json

FROM ... AS cooker
# NOTE: changes to the project can produce the same "recipe",
# allowing this build stage to be cached.
COPY --from=planner /workdir/recipe.json recipe.json
RUN cargo chef cook --release --recipe-path=/workdir/recipe.json \
    --target=x86_64-unknown-linux-musl

# If recipe.json is the same, 'cooker' will be cached.
# All that's left is compiling the final binary.
FROM cooker AS builder
COPY . .
RUN cargo build --release --package web-http-server \
    --target=x86_64-unknown-linux-musl

然而，它并没有带来我们期望的速度提升——大部分时间仍然花在最终二进制文件上：

$ # Build dependencies
$ cargo chef cook --release ...
    Updating crates.io index
 Downloading crates ...
 ...
   Compiling web-http-server v0.0.1 (/workdir/web-http-server)
    Finished `release` profile [optimized + debuginfo] target(s) in 1m 07s

$ # Build the final binary, using cached dependencies
$ cargo build --release ...
   Compiling web-http-server v0.1.0 (/workdir/web-http-server)
    Finished `release` profile [optimized + debuginfo] target(s) in 2m 50s

奇怪的是，只有 25% 的时间实际上花在依赖项上！就我所知，我的代码并没有做任何根本不合理的事情。它大约有 7000 行代码，用于将各种较大的依赖项(如 axum、reqwest、tokio-postgres 等)拼接在一起。

(为了确认，我尝试使用--verbose参数运行cargo build。结果确实只是单次调用rustc就耗时近3分钟！)

`rustc`在这段时间里都在做什么？

按照 fasterthanlime 的这篇精彩文章，我首先尝试使用 cargo --timings 来获取更多信息：

$ cargo build --release --timings ...
   Compiling web-http-server v0.1.0 (/workdir/web-http-server)
      Timing report saved to /workdir/target/cargo-timings/cargo-timing-20250607T192029.207407545Z.html
    Finished `release` profile [optimized + debuginfo] target(s) in 2m 54s

除了 cargo-timing-<timestamp>.html 文件外，还有一个 cargo-timing.html。我们只需复制标准版本：

...

FROM cooker AS builder
COPY . .
RUN cargo build --timings --release --target=x86_64-unknown-linux-musl --package web-http-server
# NEW: Move the cargo timings to a known location
RUN mv target/cargo-timings/cargo-timing-*.html cargo-timing.html

FROM alpine:3.22
COPY --from=builder /workdir/target/x86_64-unknown-linux-musl/release/web-http-server /usr/bin/web-http-server
# NEW: Include it in the final image
COPY --from=builder /workdir/cargo-timing.html cargo-timing.html

经过一些容器操作…

id="$(docker container create <IMAGE>)"
docker cp "$id:/cargo-timing.html" cargo-timing.html
docker container rm -f "$id"

我们应该能看到发生了什么！来看看：

哦. 那里其实没有太多信息！

这里发生了什么？

cargo build --timings 显示了一堆关于 每个 crate 的编译时间 的信息。但在这里，我们只关心最终 crate 的编译时间！

暂且不提这些，这确实有助于我们获得更准确的计时结果。在编译器外部进行测量会增加一些额外的变量，或者需要查找cargo build的输出结果——因此，使用cargo自行报告的计时数据将使后续的精确分析变得更加容易。

为了确认，这里的174.1秒大致与cargo build输出中的“2分54秒”相符。

这次直接询问 `rustc`

fasterthanlime 的帖子中还有一个可用技巧——通过 -Zself-profile 标志使用 rustc 的自我剖析功能。

通常，你可能会运行类似以下命令：

RUSTC_BOOTSTRAP=1 cargo rustc --release -- -Z self-profile

_(注：此处使用 cargo rustc 向 rustc 传递额外标志，并通过 RUSTC_BOOTSTRAP=1 允许在稳定版编译器上使用 -Z 不稳定标志。)_

遗憾的是，此方法在此处无效——参数的更改会使 cargo chef cook 生成的缓存依赖项失效，且通过 cargo-chef 无法以等效方式传递额外的 rustc 标志。

相反，我们可以将所有标志通过 RUSTFLAGS 环境变量传递：

# cargo chef:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Zself-profile' cargo chef cook --release ...

# final build:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Zself-profile' cargo build --release ...

这将生成类似 web_http_server-<随机数字>.mm_profdata 的文件，我们可以像处理 cargo-timing.html 一样将其从镜像中移动并提取。

(注：如果在最终构建前移除 cargo chef cook 添加的性能分析数据，自动化流程会简单得多。此处为简洁起见省略了该步骤。)

实际使用 profdata

Rust 团队维护了一套用于探索 rustc 的自我分析输出的工具，位于 https://github.com/rust-lang/measureme。

一些关键工具：

summary – 生成纯文本输出，总结性能分析数据
flamegraph – 生成 flamegraph SVG
crox – 生成 Chrome 跟踪格式跟踪，与 chrome://tracing(在基于 Chromium 的浏览器中)兼容

但让我们先安装几个这些工具，看看我们有什么：

cargo install --git https://github.com/rust-lang/measureme flamegraph summarize

我个人使用 Firefox，所以我们暂时先不处理 Chrome 跟踪相关的内容。

首先，使用 summarize(它本身包含 summarize 和 diff 子命令)：

$ summarize summarize web_http_server.mm_profdata | wc -l
945
$ summarize summarize web_http_server.mm_profdata | head
+-------------------------------+-----------+-----------------+----------+------------+
| Item                          | Self time | % of total time | Time     | Item count |
+-------------------------------+-----------+-----------------+----------+------------+
| LLVM_lto_optimize             | 851.95s   | 33.389          | 851.95s  | 1137       |
+-------------------------------+-----------+-----------------+----------+------------+
| LLVM_module_codegen_emit_obj  | 674.94s   | 26.452          | 674.94s  | 1137       |
+-------------------------------+-----------+-----------------+----------+------------+
| LLVM_thin_lto_import          | 317.75s   | 12.453          | 317.75s  | 1137       |
+-------------------------------+-----------+-----------------+----------+------------+
| LLVM_module_optimize          | 189.00s   | 7.407           | 189.00s  | 17         |

thread 'main' panicked at library/std/src/io/stdio.rs:1165:9:
failed printing to stdout: Broken pipe (os error 32)
note: run with `RUST_BACKTRACE=1` environment variable to display a backtrace

(哎呀！典型的 CLI 边缘案例。不过很容易修复 😊)

从高层次来看，最重要的两点是链接时优化(LTO)和LLVM_module_codegen_emit_obj，不管那是什么。

让我们看看能否通过火焰图更深入地了解情况：

$ flamegraph web_http_server.mm_profdata
$ # ... no output. Let's see what it added ...
$ find . -cmin 1 -type f # find files created less than 1 minute ago
./rustc.svg

太棒了，我们得到了一个 SVG！

因此，编译器生成和 LTO 之间似乎存在某种交互：codegen_module_perform_lto 最终会同时调用 LLVM_lto_optimize/LLVM_thin_lto_import 和 LLVM_module_codegen。

但无论如何，我们遇到了 LTO 相关的问题：codegen_module_perform_lto 占用了总时间的约 80%。

该谈谈 LTO 了

Rust 编译器将 crates 分割为“codegen units”，将每个 codegen unit 作为单独的模块交给 LLVM 进行编译。一般来说，优化是在每个 codegen unit 内进行的，然后在最后将它们链接在一起。

LTO 控制 LLVM 在链接期间进行的一系列优化，例如，跨代码生成单元的内联或优化。

Cargo(通过 rustc) 提供了一些 LTO 选项：

关闭 — 禁用所有 LTO
“瘦” LTO — 从理论上讲，与“胖” LTO 具有相似的性能优势，但运行成本较低
“胖” LTO — 同时对所有 crates 进行最大程度的 LTO

如果未指定 LTO 选项，rustc 将使用“thin local LTO”，将“thin” LTO 限制为一次只对一个 crate 进行。

当前设置是什么

原来几年前，我在 Cargo.toml 中设置了 lto = “thin”：

[profile.release]
lto = "thin"
debug = "full"

此外，debug = “full” 可以启用所有调试符号(在 release 配置文件中，这些符号通常会默认被排除)。也许我们也应该看看这个。

调整(常规)设置

让我们看看不同 lto 和 debug 设置下的编译时间和二进制文件大小(使用 cargo build --timings 像之前一样，以获得更精确的计时)。

Time / Size	`debug=none`	`debug=line-tables-only`	`debug=limited`	`debug=full`
LTO disabled	50.0s / 21.0Mi	54.4s / 85.9Mi	54.8s / 105.9Mi	67.6s / 214.3Mi
Thin local LTO	67.5s / 20.1Mi	71.5s / 95.4Mi	73.6s / 117.0Mi	88.2s / 256.8Mi
“Thin” LTO	133.7s / 20.3Mi	141.7s / 80.6Mi	140.7s / 96.0Mi	172.2s / 197.5Mi
“Fat” LTO	189.1s / 15.9Mi	211.1s / 64.4Mi	212.5s / 75.8Mi	287.1s / 155.9Mi

从整体来看：这里最严重的情况是完整的调试符号会使编译时间增加30-50%，而“胖”LTO的编译时间大约是完全禁用LTO时的4倍。

这与文档中的预期基本一致——没错，胖LTO确实会耗时更长。但即使我们禁用所有优化，最终二进制文件的编译时间仍然需要50秒！

简要说明：50秒其实是可以接受的！

看看，50秒已经是巨大的改进——如果需要禁用LTO和调试符号……我的网站几乎没有负载。这完全没问题。甚至完全可持续！

在这里继续深入没有实际意义。

但就这样放着岂不是太无聊了？我们应该能做得更好，对吧？

另一个简要说明：我们不能使用增量编译吗？

这稍微复杂一些，但绝对可以——至少在本地开发时。一致加载构建缓存并不简单，但你需要在 Dockerfile 中通过 “缓存挂载” 使 /target 目录可访问，并在构建之间保持该目标目录的持久性。

不过，我认为 docker build 每次都能拥有一个干净的环境，而且我认为通过 Docker 的缓存系统进行操作是值得的——这就是我一开始使用 cargo-chef 的原因。

深入探讨：`LLVM_module_optimize` 也是如此？

即使禁用 LTO 和调试符号，编译最终二进制文件仍需 50 秒完成……某种操作。

让我们重新运行自我分析，看看发生了什么。

其中约70%是LLVM_module_optimize——即LLVM正在优化代码的部分。在深入研究LLVM本身之前，让我们先看看是否有更简单的调优选项可以调整。

优化调优

release 配置文件默认使用 opt-level = 3——也许如果我们降低优化级别，就能减少在此上的时间消耗。

我们实际上可以做得更好——由于我们的依赖项已被缓存，且我们只关心最终二进制文件，我们只需对最终二进制文件降低优化级别即可获得大部分优化收益：

[profile.release]
lto = "off"
debug = "none"
opt-level = 0 # Disable optimizations on the final binary

# ... But use a higher opt-level for all dependencies
# See here for more:
# https://doc.rust-lang.org/cargo/reference/profiles.html#overrides
[profile.release.package."*"]
opt-level = 3

与之前的选项一样，我们也可以从一些 opt-levels 中进行选择：

0 禁用优化
1、2 和 3 启用不同级别的优化
“s” 和 “z” 是优先考虑二进制文件大小的不同选项

再次尝试几种组合：

Final / Deps	deps: `opt-level=3`	deps: `opt-level="s"`	deps: `opt-level="z"`
final: `opt-level=0`	14.7s / 26.0Mi	15.0s / 25.9Mi	15.7s / 26.3Mi
final: `opt-level=1`	48.8s / 21.5Mi	47.6s / 20.1Mi	47.8s / 20.6Mi
final: `opt-level=2`	50.8s / 20.9Mi	55.2s / 20.2Mi	55.4s / 20.7Mi
final: `opt-level=3`	51.0s / 21.0Mi	55.4s / 20.3Mi	55.2s / 20.8Mi
final: `opt-level="s"`	46.0s / 20.1Mi	45.7s / 18.9Mi	46.0s / 19.3Mi
final: `opt-level="z"`	42.7s / 20.1Mi	41.8s / 18.8Mi	41.8s / 19.3Mi

基本上：

任何级别优化后的最终二进制文件的基线时间约为50秒
如果禁用所有优化，则速度会快得多：仅需约15秒

LLVM 的优化机制是什么？

Rust 非常依赖优化，虽然对最终二进制文件全面禁用优化可能没问题，但如果至少能保留一些优化，那就更好了！

那么，让我们来看看是什么原因导致时间如此之长。rustc 的自我分析并没有给我们提供更多细节，因此我们必须从 LLVM 获得这些细节。

这里还有另外几个有用的 rustc 标志:

-Z time-llvm-passes – 以纯文本形式输出 LLVM 性能分析信息
-Z llvm-time-trace – 以 Chrome 跟踪格式输出 LLVM 性能分析信息(同样使用该格式！)

使用 `rustc` 进行 LLVM 性能分析 — 纯文本

与之前一样，我们暂时跳过 Chrome 跟踪格式，看看纯文本能提供哪些信息。

# cargo chef:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Ztime-llvm-passes' cargo chef cook --release ...

# final build:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Ztime-llvm-passes' cargo build --release ...

遗憾的是，如果你再次尝试 docker build，你会立即遇到类似以下情况：

[output clipped, log limit 2MiB reached]

这是因为 BuildKit(如果你在 Linux 上使用的是较新版本的 Docker)默认输出限制非常小。

我们可以直接提高这些限制，对吧？

这些限制由环境变量 BUILDKIT_STEP_LOG_MAX_SIZE 和 BUILDKTI_STEP_LOG_MAX_SPEED 配置。但如果我们通过类似以下方式将它们传递给 docker build：

BUILDKIT_STEP_LOG_MAX_SIZE=-1 BUILDKTI_STEP_LOG_MAX_SPEED=-1 docker build ...

… 这样并不会生效，因为配置必须在 Docker 守护进程(daemon)上设置。

在大多数 Linux 发行版中，dockerd 作为 systemd 单元运行。

那直接在 systemd 单元上设置不就行了？

正确的做法是创建一个覆盖文件，例如：

$ systemctl edit --drop-in=buildkit-env.conf docker.service

(注：使用 --drop-in 参数可将文件命名为更具描述性的名称，而非 override.conf)

这将打开一个新文件，其中我们可以设置环境覆盖项：

[Service]
Environment="BUILDKIT_STEP_LOG_MAX_SIZE=-1"
Environment="BUILDKIT_STEP_LOG_MAX_SPEED=-1"

设置完成后：

$ systemctl restart docker.service

验证配置…

重启后，可通过以下方式验证环境变量：

$ pgrep dockerd
1234567
$ cat /proc/1234567/environ | tr '\0' '\n' | grep -i 'buildkit'
BUILDKIT_STEP_LOG_MAX_SIZE=-1
BUILDKIT_STEP_LOG_MAX_SPEED=-1

(注：需要使用 tr 命令，因为环境变量是一个以空字符分隔的字符串，逐行搜索更方便)

因此，在终端上获得无限的 docker build 输出后，其中包含什么？约 200,000 行纯文本——这可能不是您希望从终端复制的内容。

因此，我们将输出重定向到 Docker 内的文件并像之前一样复制出来，会得到一堆通过/分析时序报告。它们各自看起来类似于：

===-------------------------------------------------------------------------===
                          Pass execution timing report
===-------------------------------------------------------------------------===
  Total Execution Time: 0.0428 seconds (0.0433 wall clock)

   ---User Time---   --System Time--   --User+System--   ---Wall Time---  — Name ---
   0.0072 ( 19.2%)   0.0015 ( 27.4%)   0.0086 ( 20.2%)   0.0087 ( 20.0%)  InstCombinePass
   0.0040 ( 10.8%)   0.0006 ( 10.8%)   0.0046 ( 10.8%)   0.0047 ( 10.8%)  InlinerPass
   0.0024 (  6.4%)   0.0010 ( 18.0%)   0.0034 (  7.9%)   0.0034 (  7.8%)  SimplifyCFGPass
   0.0022 (  5.9%)   0.0002 (  4.5%)   0.0025 (  5.7%)   0.0024 (  5.6%)  EarlyCSEPass
   0.0021 (  5.5%)   0.0001 (  1.5%)   0.0021 (  5.0%)   0.0022 (  5.0%)  GVNPass
   0.0015 (  4.0%)   0.0001 (  2.2%)   0.0016 (  3.8%)   0.0018 (  4.2%)  ArgumentPromotionPass

   ... entries here continue, and more passes below, for hundreds of thousands of lines ...

当然，解析和分析这些数据是可能的！但当每个通过执行单独输出且多线程可能干扰时序时，很难确定你正在查看的内容。

让我们看看是否有更好的方法来获取优质数据。

使用 `rustc` 进行 LLVM 性能分析 — 这次是实际跟踪

我们之前跳过了 -Z llvm-time-trace 选项，因为它会输出 Chrome 跟踪格式。

让我们重新审视一下：

# cargo chef:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Zllvm-time-trace' cargo chef cook --release ...

# final build:
RUSTC_BOOTSTRAP=1 RUSTFLAGS='-Zllvm-time-trace' cargo build --release ...

它会生成一系列 $package-$hash.llvm_timings.json 文件，同时生成正常的编译 artifacts：

$ ls -lAh target/x86_64-unknown-linux-musl/release/deps | head
total 5G
-rw-r--r--    1 root     root       11.8K Jun  9 23:11 aho_corasick-ff268aeac1b7a243.d
-rw-r--r--    1 root     root       69.4M Jun  9 23:11 aho_corasick-ff268aeac1b7a243.llvm_timings.json
-rw-r--r--    1 root     root        6.6K Jun  9 23:11 allocator_api2-28ed2e0fa8ab7b44.d
-rw-r--r--    1 root     root      373.1K Jun  9 23:11 allocator_api2-28ed2e0fa8ab7b44.llvm_timings.json
-rw-r--r--    1 root     root        4.0K Jun  9 23:11 anstream-cf9519a72988d4c1.d
-rw-r--r--    1 root     root        4.4M Jun  9 23:11 anstream-cf9519a72988d4c1.llvm_timings.json
-rw-r--r--    1 root     root        2.4K Jun  9 23:11 anstyle-76a77f68346b4238.d
-rw-r--r--    1 root     root      885.3K Jun  9 23:11 anstyle-76a77f68346b4238.llvm_timings.json
-rw-r--r--    1 root     root        2.2K Jun  9 23:11 anstyle_parse-702e2f8f76fe1827.d

(为什么是 root？几年前我尝试设置无根 Docker 时未成功，此后便未再尝试)

因此，在 cargo-chef 和最终构建之间删除 *.llvm_timings.json，我们可以将最终二进制的单一配置文件提取到 web_http_server.llvm_timings.json 中。

这里有一个小问题：

$ du -sh web_http_server.llvm_timings.json
1.4G	web_http_server.llvm_timings.json

它非常庞大。而且它只是一行！

不过，理论上，各种工具都应该能够处理这个文件：