테이블 로깅

wandb.Table을 사용해 W&B에서 시각화하고 쿼리할 데이터를 log합니다. 이 가이드에서는 다음 방법을 알아봅니다:

테이블 만들기

테이블을 정의하려면 각 데이터 행에 대해 표시할 column을 지정합니다. 각 행은 트레이닝 데이터셋의 단일 항목일 수도 있고, 트레이닝 중 특정 step이나 에포크일 수도 있으며, 테스트 항목에 대해 모델이 생성한 예측값이나 모델이 생성한 객체일 수도 있습니다. 각 column에는 숫자, 텍스트, 불리언, 이미지, 비디오, 오디오 등 고정된 유형이 있습니다. 유형을 미리 지정할 필요는 없습니다. 각 column에 name을 지정하고, 해당 column 인덱스에는 그 유형에 맞는 데이터만 전달해야 합니다. 더 자세한 예시는 W&B Tables 가이드를 참조하세요. 다음 두 가지 방법 중 하나로 wandb.Table 생성자를 사용합니다:

행 목록: 이름이 지정된 column과 데이터 행을 log합니다. 예를 들어 다음 code snippet은 2개의 행과 3개의 column으로 이루어진 테이블을 생성합니다:
```
wandb.Table(columns=["a", "b", "c"], data=[["1a", "1b", "1c"], ["2a", "2b", "2c"]])
```
Pandas DataFrame: wandb.Table(dataframe=my_df)를 사용해 DataFrame을 log합니다. column name은 DataFrame에서 추출됩니다.

기존 배열이나 데이터프레임에서

# 모델이 네 개의 이미지에 대해 예측을 반환했다고 가정합니다.
# 다음 필드를 사용할 수 있습니다:
# - 이미지 ID
# - wandb.Image()로 래핑된 이미지 픽셀
# - 모델의 예측 레이블
# - 실제 정답 레이블
my_data = [
    [0, wandb.Image("img_0.jpg"), 0, 0],
    [1, wandb.Image("img_1.jpg"), 8, 0],
    [2, wandb.Image("img_2.jpg"), 7, 1],
    [3, wandb.Image("img_3.jpg"), 1, 1],
]

# 해당 열로 wandb.Table()을 생성합니다
columns = ["id", "image", "prediction", "truth"]
test_table = wandb.Table(data=my_data, columns=columns)

데이터 추가

Tables는 변경할 수 있습니다. 스크립트가 실행되는 동안 테이블에 최대 200,000행까지 데이터를 추가할 수 있습니다. 테이블에 데이터를 추가하는 방법은 두 가지입니다.

행 추가: table.add_data("3a", "3b", "3c"). 새 행은 목록으로 표현되지 않는다는 점에 유의하세요. 행이 목록 형식이라면 별표 표기법 *를 사용해 목록을 위치 인수로 펼치세요: table.add_data(*my_row_list). 행에는 테이블의 열 수와 동일한 개수의 항목이 있어야 합니다.
열 추가: table.add_column(name="col_name", data=col_data). col_data의 길이는 테이블의 현재 행 수와 같아야 한다는 점에 유의하세요. 여기서 col_data는 목록 데이터이거나 NumPy NDArray일 수 있습니다.

점진적으로 데이터 추가하기

이 코드 예제는 W&B 테이블을 점진적으로 만들고 채우는 방법을 보여줍니다. 가능한 모든 레이블의 신뢰도 점수를 포함하도록 미리 정의된 열로 테이블을 정의한 다음, Inference 중에 데이터를 한 행씩 추가합니다. run을 재개할 때도 테이블에 데이터를 점진적으로 추가할 수 있습니다.

# 각 레이블의 신뢰도 점수를 포함하여 테이블의 열을 정의합니다
columns = ["id", "image", "guess", "truth"]
for digit in range(10):  # 각 숫자(0-9)에 대한 신뢰도 점수 열을 추가합니다
    columns.append(f"score_{digit}")

# 정의된 열로 테이블을 초기화합니다
test_table = wandb.Table(columns=columns)

# 테스트 데이터셋을 순회하며 테이블에 행 단위로 데이터를 추가합니다
# 각 행에는 이미지 ID, 이미지, 예측 레이블, 실제 레이블, 신뢰도 점수가 포함됩니다
for img_id, img in enumerate(mnist_test_data):
    true_label = mnist_test_data_labels[img_id]  # 정답 레이블
    guess_label = my_model.predict(img)  # 예측 레이블
    test_table.add_data(
        img_id, wandb.Image(img), guess_label, true_label
    )  # 테이블에 행 데이터를 추가합니다

재개된 run에 데이터 추가

기존 artifact에서 테이블을 불러오고 마지막 데이터 행을 가져온 뒤, 업데이트된 메트릭을 추가해 재개된 run의 W&B 테이블을 점진적으로 업데이트할 수 있습니다. 그런 다음 호환성을 위해 테이블을 다시 초기화한 후, 업데이트된 버전을 W&B에 다시 로깅합니다.

import wandb

# run 초기화 
with wandb.init(project="my_project") as run:

    # artifact에서 기존 테이블 로드
    best_checkpt_table = run.use_artifact(table_tag).get(table_name)

    # 재개를 위해 테이블의 마지막 행 데이터 조회
    best_iter, best_metric_max, best_metric_min = best_checkpt_table.data[-1]

    # 필요에 따라 최적 메트릭 업데이트

    # 업데이트된 데이터를 테이블에 추가
    best_checkpt_table.add_data(best_iter, best_metric_max, best_metric_min)

    # 호환성 확보를 위해 업데이트된 데이터로 테이블 재초기화
    best_checkpt_table = wandb.Table(
        columns=["col1", "col2", "col3"], data=best_checkpt_table.data
    )

    # Run 초기화
    with wandb.init() as run:

        # 업데이트된 테이블을 W&B에 log
        run.log({table_name: best_checkpt_table})

데이터 조회

데이터가 Table에 저장되면 열이나 행 단위로 조회할 수 있습니다:

행 이터레이터: for ndx, row in table.iterrows(): ...와 같은 Table의 행 이터레이터를 사용하면 데이터의 각 행을 효율적으로 순회할 수 있습니다.
열 조회: table.get_column("col_name")을 사용해 데이터 열을 조회합니다. 편의를 위해 convert_to="numpy"를 전달하면 해당 열을 기본형 값으로 이루어진 NumPy NDArray로 변환할 수 있습니다. 이는 열에 wandb.Image와 같은 미디어 유형이 포함된 경우 기본 데이터에 직접 접근할 수 있어 유용합니다.

테이블 저장

스크립트에서 데이터 테이블(예: 모델 예측 테이블)을 생성한 후, 결과를 실시간으로 시각화할 수 있도록 W&B에 저장하세요.

run에 테이블 기록하기

다음과 같이 wandb.Run.log()를 사용해 테이블을 run에 저장할 수 있습니다:

with wandb.init() as run:
    my_table = wandb.Table(columns=["a", "b"], data=[["1a", "1b"], ["2a", "2b"]])
    run.log({"table_key": my_table})

테이블을 같은 키로 로깅할 때마다 테이블의 새 버전이 생성되어 백엔드에 저장됩니다. 즉, 여러 트레이닝 step에 걸쳐 같은 테이블을 로깅해 시간에 따라 모델 예측이 어떻게 개선되는지 확인하거나, 같은 키로 로깅된 경우 서로 다른 run의 테이블을 비교할 수 있습니다. 최대 200,000개 행까지 로깅할 수 있습니다.

200,000개가 넘는 행을 로깅하려면 다음과 같이 제한을 재정의할 수 있습니다:wandb.Table.MAX_ARTIFACT_ROWS = X하지만 이렇게 하면 UI에서 쿼리가 느려지는 등 성능 문제가 발생할 가능성이 높습니다.

프로그래밍 방식으로 테이블에 액세스하기

백엔드에서는 Tables가 Artifacts로 저장됩니다. 특정 버전에 액세스하려면 artifact API를 사용하세요:

with wandb.init() as run:
    my_table = run.use_artifact("run-<run-id>-<table-name>:<tag>").get("<table-name>")

Artifacts에 대해 자세히 알아보려면 개발자 가이드의 Artifacts 장을 참조하세요.

테이블 시각화

이 방식으로 로깅한 모든 테이블은 Workspace의 Run Page와 Project Page 모두에 표시됩니다. 자세한 내용은 테이블 시각화 및 분석을 참조하세요.

Artifact 테이블

workspace 대신 run의 Artifacts 섹션에 테이블을 기록하려면 artifact.add()를 사용하세요. 이렇게 하면 데이터셋을 한 번만 기록해 두고 이후 run에서 참조할 수 있어 유용합니다.

with wandb.init(project="my_project") as run:
    # 각 의미 있는 step마다 wandb Artifact 생성
    test_predictions = wandb.Artifact("mnist_test_preds", type="predictions")

    # [위와 같이 예측 데이터를 구성합니다]
    test_table = wandb.Table(data=data, columns=columns)
    test_predictions.add(test_table, "my_test_key")
    run.log_artifact(test_predictions)

이미지 데이터로 artifact.add()를 사용하는 자세한 예시는 이 Colab을 참고하고, Artifacts와 Tables를 사용해 테이블형 데이터를 버전 관리하고 중복 제거하는 방법의 예시는 이 Report를 참고하세요.

Artifact 테이블 조인

로컬에서 만든 테이블이나 다른 artifact에서 조회한 테이블은 wandb.JoinedTable(table_1, table_2, join_key)를 사용해 조인할 수 있습니다.

매개변수	설명
table_1	(str, `wandb.Table`, ArtifactEntry) artifact 내 `wandb.Table`의 경로, 테이블 객체 또는 ArtifactEntry
table_2	(str, `wandb.Table`, ArtifactEntry) artifact 내 `wandb.Table`의 경로, 테이블 객체 또는 ArtifactEntry
join_key	(str, [str, str]) 조인을 수행할 키 또는 키 목록

이전에 artifact 컨텍스트에서 로깅한 두 개의 Table을 조인하려면, artifact에서 가져온 뒤 그 결과를 새로운 Table로 만드세요. 예를 들어, 다음 코드 예제는 'original_songs'라는 원곡 Table과 같은 곡의 합성 버전이 담긴 'synth_songs'라는 또 다른 Table을 읽는 방법을 보여줍니다. 이 코드는 두 테이블을 "song_id"를 기준으로 조인하고, 결과 테이블을 새로운 W&B Table로 업로드합니다.

import wandb

with wandb.init(project="my_project") as run:

    # 원본 노래 테이블 가져오기
    orig_songs = run.use_artifact("original_songs:latest")
    orig_table = orig_songs.get("original_samples")

    # 합성된 노래 테이블 가져오기
    synth_songs = run.use_artifact("synth_songs:latest")
    synth_table = synth_songs.get("synth_samples")

    # "song_id"를 기준으로 테이블 조인
    join_table = wandb.JoinedTable(orig_table, synth_table, "song_id")
    join_at = wandb.Artifact("synth_summary", "analysis")

    # artifact에 테이블 추가 후 W&B에 로그
    join_at.add(join_table, "synth_explore")
    run.log_artifact(join_at)

이 튜토리얼을 읽어보세요. 서로 다른 Artifact 객체에 저장된 기존 테이블 두 개를 결합하는 방법을 확인할 수 있습니다.

Guides

Integrations

Reference

테이블 만들기

기존 배열이나 데이터프레임에서

데이터 추가

점진적으로 데이터 추가하기

재개된 run에 데이터 추가

데이터 조회

테이블 저장

run에 테이블 기록하기

프로그래밍 방식으로 테이블에 액세스하기

테이블 시각화

Artifact 테이블

Artifact 테이블 조인

Guides

Integrations

Reference

​테이블 만들기

​기존 배열이나 데이터프레임에서

​데이터 추가

​점진적으로 데이터 추가하기

​재개된 run에 데이터 추가

​데이터 조회

​테이블 저장

​run에 테이블 기록하기

​프로그래밍 방식으로 테이블에 액세스하기

​테이블 시각화

​Artifact 테이블

​Artifact 테이블 조인

테이블 만들기

기존 배열이나 데이터프레임에서

데이터 추가

점진적으로 데이터 추가하기

재개된 run에 데이터 추가

데이터 조회

테이블 저장

run에 테이블 기록하기

프로그래밍 방식으로 테이블에 액세스하기

테이블 시각화

Artifact 테이블

Artifact 테이블 조인