使用 Aim 进行 Tune#

try-anyscale-quickstart

Aim 是一个易于使用且功能强大的开源实验跟踪器。Aim 会记录您的训练运行,提供一个设计精良的 UI 来比较它们,并提供一个 API 来以编程方式查询它们。

Aim

Ray Tune 目前提供与 Aim 的内置集成。 AimLoggerCallback 会自动使用 Aim API 记录报告给 Tune 的指标。

将 Tune 超参数配置和结果记录到 Aim#

以下示例演示了如何在 Tune 实验中使用 AimLoggerCallback。首先安装并导入必要的模块

%pip install aim
%pip install ray[tune]
import numpy as np

import ray
from ray import tune
from ray.tune.logger.aim import AimLoggerCallback

接下来,定义一个简单的 train_function,它是一个 Trainable,用于向 Tune 报告损失。目标函数本身对于此示例并不重要,因为我们的主要关注点是与 Aim 的集成。

def train_function(config):
    for _ in range(50):
        loss = config["mean"] + config["sd"] * np.random.randn()
        tune.report({"loss": loss})

这是一个示例,展示了如何使用 AimLoggerCallback 进行简单的网格搜索 Tune 实验。Logger 会将 9 次网格搜索试验中的每一次都记录为独立的 Aim 运行。

tuner = tune.Tuner(
    train_function,
    run_config=tune.RunConfig(
        callbacks=[AimLoggerCallback()],
        storage_path="/tmp/ray_results",
        name="aim_example",
    ),
    param_space={
        "mean": tune.grid_search([1, 2, 3, 4, 5, 6, 7, 8, 9]),
        "sd": tune.uniform(0.1, 0.9),
    },
    tune_config=tune.TuneConfig(
        metric="loss",
        mode="min",
    ),
)
tuner.fit()
2023-02-07 00:04:11,228	INFO worker.py:1544 -- Started a local Ray instance. View the dashboard at http://127.0.0.1:8265 

Tune 状态

当前时间2023-02-07 00:04:19
运行中00:00:06.86
内存32.8/64.0 GiB

系统信息

正在使用 FIFO 调度算法。
请求的资源:0/10 CPU,0/0 GPU,0.0/26.93 GiB 堆,0.0/2.0 GiB 对象

试验状态

试验名称状态位置平均值标准差迭代总时间 (秒)损失
train_function_01a3b_00000已终止127.0.0.1:10277 10.385428 50 4.480311.01928
train_function_01a3b_00001已终止127.0.0.1:10296 20.819716 50 2.972723.01491
train_function_01a3b_00002已终止127.0.0.1:10301 30.769197 50 2.395723.87155
train_function_01a3b_00003已终止127.0.0.1:10307 40.29466 50 2.415684.1507
train_function_01a3b_00004已终止127.0.0.1:10313 50.152208 50 1.683835.10225
train_function_01a3b_00005已终止127.0.0.1:10321 60.879814 50 1.540156.20238
train_function_01a3b_00006已终止127.0.0.1:10329 70.487499 50 1.447067.79551
train_function_01a3b_00007已终止127.0.0.1:10333 80.639783 50 1.4261 7.94189
train_function_01a3b_00008已终止127.0.0.1:10341 90.12285 50 1.077018.82304

试验进度

试验名称datedoneepisodes_totalexperiment_idexperiment_taghostnameiterations_since_restore损失node_ip进程 IDtime_since_restoretime_this_iter_stime_total_s时间戳timesteps_since_restoretimesteps_totaltraining_iterationtrial_idwarmup_time
train_function_01a3b_000002023-02-07_00-04-18True c8447fdceea6436c9edd6f030a5b1d820_平均值=1,标准差=0.3854Justins-MacBook-Pro-16 501.01928127.0.0.110277 4.48031 0.013865 4.48031 1675757058 0 5001a3b_00000 0.00264072
train_function_01a3b_000012023-02-07_00-04-18True 7dd6d3ee24244a0885b354c2850647281_平均值=2,标准差=0.8197Justins-MacBook-Pro-16 503.01491127.0.0.110296 2.97272 0.0584073 2.97272 1675757058 0 5001a3b_00001 0.0316792
train_function_01a3b_000022023-02-07_00-04-18True e3da49ebad034c4b8fdaf0aa87927b1a2_平均值=3,标准差=0.7692Justins-MacBook-Pro-16 503.87155127.0.0.110301 2.39572 0.0695491 2.39572 1675757058 0 5001a3b_00002 0.0315411
train_function_01a3b_000032023-02-07_00-04-18True 95c60c4f67c4481ebccff25b0a49e75d3_平均值=4,标准差=0.2947Justins-MacBook-Pro-16 504.1507 127.0.0.110307 2.41568 0.0175381 2.41568 1675757058 0 5001a3b_00003 0.0310779
train_function_01a3b_000042023-02-07_00-04-18True a216253cb41e47caa229e65488deb0194_平均值=5,标准差=0.1522Justins-MacBook-Pro-16 505.10225127.0.0.110313 1.68383 0.064441 1.68383 1675757058 0 5001a3b_00004 0.00450182
train_function_01a3b_000052023-02-07_00-04-18True 23834104277f476cb99d9c696281fceb5_平均值=6,标准差=0.8798Justins-MacBook-Pro-16 506.20238127.0.0.110321 1.54015 0.00910306 1.54015 1675757058 0 5001a3b_00005 0.0480251
train_function_01a3b_000062023-02-07_00-04-18True 15f650121df747c3bd2720481d47b2656_平均值=7,标准差=0.4875Justins-MacBook-Pro-16 507.79551127.0.0.110329 1.44706 0.00600386 1.44706 1675757058 0 5001a3b_00006 0.00202489
train_function_01a3b_000072023-02-07_00-04-19True 78b1673cf2034ed99135b80a0cb31e0e7_平均值=8,标准差=0.6398Justins-MacBook-Pro-16 507.94189127.0.0.110333 1.4261 0.00225306 1.4261 1675757059 0 5001a3b_00007 0.00209713
train_function_01a3b_000082023-02-07_00-04-19True c7f5d86154cb46b6aa27bef523edcd6f8_平均值=9,标准差=0.1228Justins-MacBook-Pro-16 508.82304127.0.0.110341 1.07701 0.00291467 1.07701 1675757059 0 5001a3b_00008 0.00240111
2023-02-07 00:04:19,366	INFO tune.py:798 -- Total run time: 7.38 seconds (6.85 seconds for the tuning loop).
<ray.tune.result_grid.ResultGrid at 0x137de07c0>

脚本执行时,将进行网格搜索并将结果保存到 Aim 仓库,存储在默认位置 – 实验日志目录(在本例中,位于 /tmp/ray_results/aim_example)。

Aim 的更多配置选项#

在上面的示例中,我们使用了 AimLoggerCallback 的默认配置。有几个选项可以作为回调函数的参数进行配置。例如,设置 AimLoggerCallback(repo="/path/to/repo") 将把结果记录到该文件路径的 Aim 仓库,这在您有一个存储多个 Tune 实验结果的中心位置时可能很有用。也可以使用相对于启动 Tune 脚本的工作目录的相对路径。默认情况下,仓库将设置为实验日志目录。有关更多配置,请参阅 API 参考

启动 Aim UI#

现在我们已经将结果记录到了 Aim 仓库,我们可以在 Aim 的 Web UI 中查看它。为此,我们首先找到 Aim 仓库所在的位置,然后使用 Aim CLI 启动 Web 界面。

# Uncomment the following line to launch the Aim UI!
#!aim up --repo=/tmp/ray_results/aim_example
--------------------------------------------------------------------------
                Aim UI collects anonymous usage analytics.                
                        Read how to opt-out here:                         
    https://docs.aimstack.cn/en/latest/community/telemetry.html    
--------------------------------------------------------------------------
Running Aim UI on repo `<Repo#-5734997863388805469 path=/tmp/ray_results/aim_example/.aim read_only=None>`
Open http://127.0.0.1:43800
Press Ctrl+C to exit
^C

启动 Aim UI 后,我们可以在 localhost:43800 打开 Web 界面。

Aim Metrics Explorer

接下来的部分包含有关 Tune-Aim 集成 API 的更深入信息。

Tune Aim Logger API#

class ray.tune.logger.aim.AimLoggerCallback(repo: str | None = None, experiment_name: str | None = None, metrics: List[str] | None = None, **aim_run_kwargs)[source]

Aim Logger: 以 Aim 格式记录指标。

Aim 是一个开源的、自托管的 ML 实验跟踪工具。它擅长跟踪大量的(数千个)训练运行,并允许您使用高效且设计精良的 UI 来比较它们。

来源: aimhubio/aim

参数:
  • repo – Aim 仓库目录或 Run 对象将记录结果到的 Repo 对象。如果未提供,将在实验目录(试验目录的上一级)中设置一个默认仓库。

  • experiment – 设置每个 Run 对象的 experiment 属性,这是与之关联的实验名称。以后可用于查询运行/序列。如果未提供,默认值将是 RunConfig(name=...) 设置的 Tune 实验名称。

  • metrics – 要在 Aim 中跟踪的指标名称列表(来自 Tune 报告的指标)。如果未指定任何指标,则记录所有报告的内容。

  • aim_run_kwargs – 在为每个试验创建单个 Run 对象时传递的其他参数。有关参数的完整列表,请参阅 Aim 文档:https://docs.aimstack.cn/en/latest/refs/sdk.html