From 683635523b581aa9b2d114e92b64966cd55cc5b6 Mon Sep 17 00:00:00 2001 From: HyunZ118 <156191095+HyunZ118@users.noreply.github.com> Date: Fri, 30 May 2025 20:18:35 +0900 Subject: [PATCH 1/2] docs: add fine_tuning_vit_custom_dataset_ko --- notebooks/ko/_toctree.yml | 5 + .../fine_tuning_vit_custom_dataset_ko.ipynb | 4367 +++++++++++++++++ notebooks/ko/index.md | 1 + 3 files changed, 4373 insertions(+) create mode 100644 notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb diff --git a/notebooks/ko/_toctree.yml b/notebooks/ko/_toctree.yml index d420590c..c9a27475 100644 --- a/notebooks/ko/_toctree.yml +++ b/notebooks/ko/_toctree.yml @@ -15,6 +15,11 @@ title: 지식 그래프를 활용한 RAG 추론 향상 - local: rag_zephyr_langchain title: GitHub 이슈를 위한 EEVE와 LangChain을 사용한 간단한 RAG + - title: 컴퓨터 비전 레시피 + isExpanded: false + sections: + - local: fine_tuning_vit_custom_dataset_ko + title: Custom Biomedical Dataset으로 Vision Transformer 모델 Fine-tuning 하기 - title: 에이전트 레시피 isExpanded: false sections: diff --git a/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb b/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb new file mode 100644 index 00000000..fc5712ed --- /dev/null +++ b/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb @@ -0,0 +1,4367 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "id": "97bf8340-2c4f-4b32-9a64-5b8ed2d6247f", + "metadata": { + "id": "97bf8340-2c4f-4b32-9a64-5b8ed2d6247f" + }, + "source": [ + "# Custom Biomedical Dataset으로 Vision Transformer 모델 Fine-tuning 하기\n", + "_작성자 : [Emre Albayrak](https://github.com/emre570)_\n", + "\n", + "_번역자: [Hyun Ji Jeon](https://github.com/HyunZ118)_\n", + "\n", + " \n", + "\n", + "이 가이드는 Vision Transformer(ViT) 모델을 Custom Biomedical Dataset 에 Fine-tuning하는 과정을 설명합니다. 이 과정에서 데이터셋 로딩 및 전처리, 데이터 분할에 따른 이미지 변환 설정, ViT 모델 구성 및 초기화, 평가 및 시각화 도구를 포함한 학습 과정 정의 단계가 포함됩니다. \n", + "\n", + " \n", + "## 데이터셋 정보\n", + "Custom Dataset은 수작업으로 제작되었으며, 총 780장의 이미지와 benign(양성), malignant(악성), normal(정상) 총 3개의 클래스를 포함합니다.\n", + "\n", + "![attachment:datasetinfo.png](https://huggingface.co/datasets/huggingface/cookbook-images/resolve/102d6c23e6cc24db857fbc60186461ded6cdfb75/datasetinfo.png)\n", + "\n", + "## 모델 정보\n", + "우리가 Fine-tuning 할 모델은 Google의 [`\"vit-large-patch16-224\"`](https://huggingface.co/google/vit-large-patch16-224)입니다. 이 모델은 ImageNet-21k(1,400만 장의 이미지, 21,843개의 클래스)으로 사전학습 되었으며, ImageNet 2012(100만 장의 이미지, 1,000개 클래스)로 해상도 224x224에서 Fine-tuning 되었습니다. Google은 이외에도 다양한 이미지 크기와 패치 크기를 가진 여러 ViT 모델을 보유하고 있습니다.\n", + "\n", + "\n", + "그럼 이제 시작해보겠습니다! 🤗" + ] + }, + { + "cell_type": "markdown", + "id": "3cc02613-7bc6-4cd8-aa97-a21ba1970027", + "metadata": { + "id": "3cc02613-7bc6-4cd8-aa97-a21ba1970027" + }, + "source": [ + "## 시작\n", + "먼저 필요한 라이브러리들을 설치해야합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "id": "7093dd4f-d0cb-44dc-935d-d54435187901", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "7093dd4f-d0cb-44dc-935d-d54435187901", + "outputId": "4dee826f-3841-4574-d4c2-7530a0c98dd2" + }, + "outputs": [], + "source": [ + "# !pip install datasets transformers accelerate torch torchvision scikit-learn matplotlib wandb" + ] + }, + { + "cell_type": "markdown", + "id": "9b5019a8-d130-4c08-9503-cd8415f50ae9", + "metadata": { + "id": "9b5019a8-d130-4c08-9503-cd8415f50ae9" + }, + "source": [ + "(선택 사항) 모델을 Hugging Face Hub에 업로드할 예정이므로 먼저 로그인해야 합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "id": "3d5acb41-a225-44a5-8c8f-f212c615008f", + "metadata": { + "colab": { + "referenced_widgets": [ + "4a75a73de5234297a7e0e4e070eee6d9" + ] + }, + "id": "3d5acb41-a225-44a5-8c8f-f212c615008f", + "outputId": "f2ceb9d4-4f4c-4ef4-b629-e929a8ae8108" + }, + "outputs": [], + "source": [ + "#from huggingface_hub import notebook_login\n", + "#notebook_login()" + ] + }, + { + "cell_type": "markdown", + "id": "80f2b730-ff8a-4d76-9baa-41c35b80fd38", + "metadata": { + "id": "80f2b730-ff8a-4d76-9baa-41c35b80fd38" + }, + "source": [ + "## 데이터셋 준비\n", + "'datasets' 라이브러리는 데이터셋에서 이미지와 클래스를 자동으로 불러옵니다. 자세한 내용은 [`이 링크`](https://huggingface.co/docs/datasets/image_load).를 참고하세요." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "C2f-_NcrnYil", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "C2f-_NcrnYil", + "outputId": "27112e94-72ec-4dba-d848-a870d6699737" + }, + "outputs": [], + "source": [ + "# pip install --upgrade datasets # update by HJ" + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "id": "f6e69664-1bb0-4ee4-932c-2f108550bfba", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 484, + "referenced_widgets": [ + "27297aa211ef4564bcb9a23bd6e073c5", + "28e427d0fb3c42c0b9d55f9076f18918", + "9155b025badd40c284c07fbc87175169", + "40c47070f79b48d088622696128531cb", + "41a800c6e6c547a9ab528ee96e1ce137", + "43c0527631a64c89b171c2a0664dfa8b", + "95d5ad27410b4a689734c1593f71d02b", + "99893feb6a184879891978d111ebde49", + "fe8fca891aff479a9fb11aeeb1971e2d", + "8e67e87040944a878618f01a98294681", + "f3267441b9dc4f029a3bfdffaf491842", + "ff9d81edcfe9421bb1398ca284a197cc", + "ef44e725caed4ef38e9cc25621b76406", + "4358acace42c41519fc83cc67e814961", + "d0422dfef6a846c5bbd9045b7019ffb8", + "228c08de964d48fdbb3594c1f2ecde09", + "5aa5164fa3d040bc8180b122eb029d94", + "04fb4c819c3c44b59184c54ea44456bf", + "aa9365c6057a4137bb678ce4d05c448d", + "741d79cc18ae44259621f030e454ab99", + "039241d8c1c34103a655fbcb6de51ae6", + "fbcd9fb015d24543aedb6dbdb8e3d87a", + "09d1ea0c40184e648c75b10ee22f23e7", + "4b411454d68a436cbf04d8a97e2fe7da", + "a2f5fb56b54f4b7383fd85aed9920bcb", + "2a4a870ca4404c23bd92f9b1117d9a0e", + "c9077c3acb6342f2a248876f3ebf7464", + "c99b9fb60a4042b58b07a8524f8f555e", + "2f48026c77c9415292364602bff4ca18", + "c162aa27a92f496192a2335ab0496bc8", + "4901091780124b3dbba924779868f4c8", + "482d168e5e104fd48c5c762450c02930", + "466dfa0cc1344aa58bb1a4a8b8cf9aba", + "0fe075d0db0445aeb7e4d275860d39f2", + "64b29e54431246e98aeadf09c705b684", + "323db282be654fdeb25bf9a5b9f1733b", + "2d7ebc94bae04034aee3ee10f800c1df", + "33694de53716463b8c5b07720a40e067", + "566b4b97be32448fb502520a93976501", + "c83d52312d02407a8ea124fa25ebddb7", + "1eccd922da6e4b1682bdb061716ed27b", + "9b238f957be24a8e99b46baaa664cb5c", + "1173f9c2411640078fb20331845d2c87", + "db8dd16fc27a45d5a1ab81380b305389", + "f2566e5e755e4a72acbebab9c938aa34", + "d14c61501c7d49ce90cb3c1d073cbaa8", + "ee4079637e6643d48a9feba34c30d0d7", + "2ddd4fe77259428aaf7d6a56ed0b223e", + "a86b7af977bc40fea33a27748e57f432", + "d91cdc1965a74b7790e44126f204c708", + "2d028e6a22194fa28419e88e87573421", + "4113c7318d5d4484b3990dcbdb9bc1cd", + "1b8330ce7031406c95eac80280936dae", + "387d13f078f747fea3c747f55e0458f5", + "8454a7ef8c1140a78f544465577d7532" + ] + }, + "id": "f6e69664-1bb0-4ee4-932c-2f108550bfba", + "outputId": "4f611cc7-ea8b-4d22-f6e0-1c2d2fb698bb" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "DatasetDict({\n", + " train: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 624\n", + " })\n", + " test: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 156\n", + " })\n", + "})" + ] + }, + "execution_count": 4, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "from datasets import load_dataset\n", + "\n", + "dataset = load_dataset(\"emre570/breastcancer-ultrasound-images\")\n", + "dataset" + ] + }, + { + "cell_type": "markdown", + "id": "3b0461c4", + "metadata": {}, + "source": [] + }, + { + "cell_type": "markdown", + "id": "bf3176b2-65ff-44ea-bb1e-cd75b2d7609d", + "metadata": { + "id": "bf3176b2-65ff-44ea-bb1e-cd75b2d7609d" + }, + "source": [ + "데이터셋을 불러왔지만, 현재 검증 세트는 없습니다.\n", + "\n", + "검증 세트를 만들기 위해 테스트 세트의 크기를 기준으로 훈련 세트의 일부를 나누어 검증 세트를 생성할 것입니다.\n", + "\n", + "그 후 기존 훈련 세트를 새로운 훈련 세트와 검증 세트로 분할합니다." + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "id": "4d385bab-dad0-462d-9339-11205fcd2e63", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "4d385bab-dad0-462d-9339-11205fcd2e63", + "outputId": "a634094c-6de2-4c55-b9f6-decd620236f8" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "DatasetDict({\n", + " train: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 468\n", + " })\n", + " test: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 156\n", + " })\n", + "})" + ] + }, + "execution_count": 5, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "# Get the numbers of each set\n", + "test_num = len(dataset[\"test\"])\n", + "train_num = len(dataset[\"train\"])\n", + "\n", + "val_size = test_num / train_num\n", + "\n", + "train_val_split = dataset[\"train\"].train_test_split(test_size=val_size)\n", + "train_val_split" + ] + }, + { + "cell_type": "markdown", + "id": "7dacfc60-6262-4e91-b9e9-e2af43210fde", + "metadata": { + "id": "7dacfc60-6262-4e91-b9e9-e2af43210fde" + }, + "source": [ + "분할된 훈련 세트를 준비했습니다. 이제 이를 테스트 세트와 함께 병합해보겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "id": "b43bf130-49ad-4a4d-8230-436649045a16", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "b43bf130-49ad-4a4d-8230-436649045a16", + "outputId": "151731e9-6502-43b3-d198-1b64404d73ac" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "DatasetDict({\n", + " train: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 468\n", + " })\n", + " validation: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 156\n", + " })\n", + " test: Dataset({\n", + " features: ['image', 'label'],\n", + " num_rows: 156\n", + " })\n", + "})" + ] + }, + "execution_count": 6, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "from datasets import DatasetDict\n", + "\n", + "dataset = DatasetDict({\n", + " \"train\": train_val_split[\"train\"],\n", + " \"validation\": train_val_split[\"test\"],\n", + " \"test\": dataset[\"test\"]\n", + "})\n", + "dataset" + ] + }, + { + "cell_type": "markdown", + "id": "4a0d7a89-099e-4925-97a5-51c91cdb7046", + "metadata": { + "id": "4a0d7a89-099e-4925-97a5-51c91cdb7046" + }, + "source": [ + "잘하셨습니다! 이제 데이터셋 준비가 완료되었습니다.\n", + "\n", + "각 하위 데이터셋을 서로 다른 변수에 할당해봅시다. (나중에 쉽게 참조할 수 있도록 하기 위함입니다.)" + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "id": "9462e82b-0a12-4b0c-b73e-8dba76041ee6", + "metadata": { + "id": "9462e82b-0a12-4b0c-b73e-8dba76041ee6" + }, + "outputs": [], + "source": [ + "train_ds = dataset['train']\n", + "val_ds = dataset['validation']\n", + "test_ds = dataset['test']" + ] + }, + { + "cell_type": "markdown", + "id": "27e5451f-e2fb-4d29-b63a-a8960686dcc2", + "metadata": { + "id": "27e5451f-e2fb-4d29-b63a-a8960686dcc2" + }, + "source": [ + "이미지를 확인해보면 'PIL.Image' 형식이며 이에 연결된 라벨이 함께 존재하는 것을 확인할 수 있습니다." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "1d8ffe26-f128-4f63-962e-56349d45ff23", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "1d8ffe26-f128-4f63-962e-56349d45ff23", + "outputId": "411f3640-4150-44ae-e05e-bee054cbc606" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "{'image': ,\n", + " 'label': 1}" + ] + }, + "execution_count": 8, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "train_ds[0]" + ] + }, + { + "cell_type": "markdown", + "id": "384a09b0-1c47-411f-b91a-00acdd88b06b", + "metadata": { + "id": "384a09b0-1c47-411f-b91a-00acdd88b06b" + }, + "source": [ + "훈련 세트의 특성도 확인할 수 있습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "id": "1e09647b-44e9-4f5f-800c-c333b0523b85", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "1e09647b-44e9-4f5f-800c-c333b0523b85", + "outputId": "287da3c7-0fe9-498f-d44c-ca7b9c9701ae" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "{'image': Image(mode=None, decode=True, id=None),\n", + " 'label': ClassLabel(names=['benign', 'malignant', 'normal'], id=None)}" + ] + }, + "execution_count": 9, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "train_ds.features" + ] + }, + { + "cell_type": "markdown", + "id": "a3fedab5-0e80-492c-9408-f629b230351d", + "metadata": { + "id": "a3fedab5-0e80-492c-9408-f629b230351d" + }, + "source": [ + "데이터셋에서 각 클래스별로 하나씩 이미지를 출력해봅시다." + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "id": "5c901865-a876-4b4b-b1f2-8895b494cafb", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 248 + }, + "id": "5c901865-a876-4b4b-b1f2-8895b494cafb", + "outputId": "d9c1aef7-a4a4-427c-d902-63ef790d7c21" + }, + "outputs": [ + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "\n", + "# Initialize a set to keep track of shown labels\n", + "shown_labels = set()\n", + "\n", + "# Initialize the figure for plotting\n", + "plt.figure(figsize=(10, 10))\n", + "\n", + "# Loop through the dataset and plot the first image of each label\n", + "for i, sample in enumerate(train_ds):\n", + " label = train_ds.features['label'].names[sample['label']]\n", + " if label not in shown_labels:\n", + " plt.subplot(1, len(train_ds.features['label'].names), len(shown_labels) + 1)\n", + " plt.imshow(sample['image'])\n", + " plt.title(label)\n", + " plt.axis('off')\n", + " shown_labels.add(label)\n", + " if len(shown_labels) == len(train_ds.features['label'].names):\n", + " break\n", + "\n", + "plt.show()" + ] + }, + { + "cell_type": "markdown", + "id": "0300a4b7-4f8f-4155-bad8-42df6673eddc", + "metadata": { + "id": "0300a4b7-4f8f-4155-bad8-42df6673eddc" + }, + "source": [ + "\n", + "\n", + "## 데이터 전처리\n", + "데이터셋은 준비되었지만 아직 파인튜닝을 위한 준비는 완료되지 않았습니다. 아래와 같은 절차를 순차적으로 따라갈 것입니다:\n", + "\n", + "- **레이블 매핑 (Label Mapping)** : 레이블 ID와 해당 클래스 이름 간의 매핑을 수행합니다. 이는 모델 학습과 평가 시 유용하게 사용됩니다.\n", + "\n", + "- **이미지 전처리 (Image Processing)** : ViTImageProcessor를 사용해 입력 이미지의 크기를 표준화하고, 사전 학습된 모델에 맞는 정규화를 적용합니다. 또한, torchvision을 활용해 훈련, 검증, 테스트용으로 서로 다른 변환을 정의하여 모델의 일반화를 향상시킵니다.\n", + "\n", + "- **변환 함수 정의 (Transform Functions)** : ViT 모델에 맞는 형식과 크기로 이미지를 변환하기 위한 함수를 구현합니다.\n", + "\n", + "- **데이터 로딩 (Data Loading)** : 이미지와 라벨을 올바르게 배치할 수 있도록 사용자 정의 collate 함수를 설정하고, 학습 과정에서 효율적인 데이터 로딩과 배치를 위해 DataLoader를 구성합니다.\n", + "\n", + "- **배치 준비 (Batch Preparation)** : 샘플 배치의 데이터 형태(shape)를 확인하여 변환이 제대로 되었는지, 그리고 모델 입력으로 사용할 준비가 되었는지 검증합니다." + ] + }, + { + "cell_type": "markdown", + "id": "1463c15d-5b73-47dc-8113-a910e3cd38b9", + "metadata": { + "id": "1463c15d-5b73-47dc-8113-a910e3cd38b9" + }, + "source": [ + "### 레이블 매핑 (Label Mapping)" + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "id": "43a6187f-0ba0-4cd9-a9ec-f06fca3a91bf", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "43a6187f-0ba0-4cd9-a9ec-f06fca3a91bf", + "outputId": "e9c81dd9-94a6-4cea-fe8d-47805a432bfd" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "({0: 'benign', 1: 'malignant', 2: 'normal'}, 'malignant')" + ] + }, + "execution_count": 11, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "id2label = {id:label for id, label in enumerate(train_ds.features['label'].names)}\n", + "label2id = {label:id for id,label in id2label.items()}\n", + "id2label, id2label[train_ds[0]['label']]" + ] + }, + { + "cell_type": "markdown", + "id": "0be0b208-5aad-48ff-97f5-ea484cfc8ad7", + "metadata": { + "id": "0be0b208-5aad-48ff-97f5-ea484cfc8ad7" + }, + "source": [ + "### 이미지 전처리 (Image Processing)" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "id": "a2d04160-93aa-425e-a06d-58c09ec6ffbd", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 49, + "referenced_widgets": [ + "b7ea8f8585354f9bb4f11f43a6f1a8ac", + "15a9e8f3433d478ba8f73dd158515e7d", + "d4335bbecd3f4a9693a8c2742a765a4c", + "cec02057108742e0b0f5bf5704cf6c6d", + "5d2b2e10194043efadf1377e961b1e41", + "041c9438afa94e878b5678111b1cc87c", + "0bc23ea7af8046788212dd03fa6679f9", + "2658dc163a3942608f583622c44f28ea", + "9519479ac1234c50ac6b5459cb2db76b", + "8f0a3034925d409f85c64f5271187923", + "e0cb22c893ae4ed88b24224347751da7" + ] + }, + "id": "a2d04160-93aa-425e-a06d-58c09ec6ffbd", + "outputId": "de82d69b-8010-4c23-d892-4fbe8353f151" + }, + "outputs": [], + "source": [ + "from transformers import ViTImageProcessor\n", + "\n", + "model_name = \"google/vit-large-patch16-224\"\n", + "processor = ViTImageProcessor.from_pretrained(model_name)" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "id": "136d114f-a054-467e-a034-cdddf9bf574b", + "metadata": { + "id": "136d114f-a054-467e-a034-cdddf9bf574b" + }, + "outputs": [], + "source": [ + "from torchvision.transforms import CenterCrop, Compose, Normalize, RandomHorizontalFlip, RandomResizedCrop, ToTensor, Resize\n", + "\n", + "image_mean, image_std = processor.image_mean, processor.image_std\n", + "size = processor.size[\"height\"]\n", + "\n", + "normalize = Normalize(mean=image_mean, std=image_std)\n", + "\n", + "train_transforms = Compose([\n", + " RandomResizedCrop(size),\n", + " RandomHorizontalFlip(),\n", + " ToTensor(),\n", + " normalize,\n", + "])\n", + "val_transforms = Compose([\n", + " Resize(size),\n", + " CenterCrop(size),\n", + " ToTensor(),\n", + " normalize,\n", + "])\n", + "test_transforms = Compose([\n", + " Resize(size),\n", + " CenterCrop(size),\n", + " ToTensor(),\n", + " normalize,\n", + "])" + ] + }, + { + "cell_type": "markdown", + "id": "9e910499-84bf-4672-bbf0-ca78915b2821", + "metadata": { + "id": "9e910499-84bf-4672-bbf0-ca78915b2821" + }, + "source": [ + "### 변환 함수 생성 (Transform Functions)" + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "id": "5ddc7ad4-bd09-4c76-ac00-ca7dafbd8417", + "metadata": { + "id": "5ddc7ad4-bd09-4c76-ac00-ca7dafbd8417" + }, + "outputs": [], + "source": [ + "def apply_train_transforms(examples):\n", + " examples['pixel_values'] = [train_transforms(image.convert(\"RGB\")) for image in examples['image']]\n", + " return examples\n", + "\n", + "def apply_val_transforms(examples):\n", + " examples['pixel_values'] = [val_transforms(image.convert(\"RGB\")) for image in examples['image']]\n", + " return examples\n", + "\n", + "def apply_test_transforms(examples):\n", + " examples['pixel_values'] = [val_transforms(image.convert(\"RGB\")) for image in examples['image']]\n", + " return examples" + ] + }, + { + "cell_type": "markdown", + "id": "1ac74835-f883-46a3-877c-26265b27a325", + "metadata": { + "id": "1ac74835-f883-46a3-877c-26265b27a325" + }, + "source": [ + "### 각 데이터셋에 변환 함수 적용" + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "id": "45f2b765-5258-4b44-b2ce-6bff952bdd1b", + "metadata": { + "id": "45f2b765-5258-4b44-b2ce-6bff952bdd1b" + }, + "outputs": [], + "source": [ + "train_ds.set_transform(apply_train_transforms)\n", + "val_ds.set_transform(apply_val_transforms)\n", + "test_ds.set_transform(apply_test_transforms)" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "id": "ce586ef6-5f48-4554-8dc4-48797a977674", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "ce586ef6-5f48-4554-8dc4-48797a977674", + "outputId": "0d6b46d7-9fd9-4825-f8ac-8b0eb0e5a273" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "{'image': Image(mode=None, decode=True, id=None),\n", + " 'label': ClassLabel(names=['benign', 'malignant', 'normal'], id=None)}" + ] + }, + "execution_count": 16, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "train_ds.features" + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "id": "731fccb7-7311-4175-8ce1-67141a662b1e", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "731fccb7-7311-4175-8ce1-67141a662b1e", + "outputId": "68be9976-f736-45dc-bf06-86255e9209a9" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "{'image': ,\n", + " 'label': 1,\n", + " 'pixel_values': tensor([[[ 0.0431, 0.0667, 0.0902, ..., -0.2863, -0.2706, -0.2549],\n", + " [ 0.0196, 0.0353, 0.0353, ..., -0.3647, -0.3725, -0.3647],\n", + " [ 0.0510, 0.0275, 0.0039, ..., -0.3333, -0.3490, -0.3569],\n", + " ...,\n", + " [-0.9373, -0.9059, -0.8745, ..., -0.7882, -0.7804, -0.7725],\n", + " [-0.9059, -0.9059, -0.8824, ..., -0.8196, -0.8118, -0.7961],\n", + " [-0.8196, -0.8431, -0.8667, ..., -0.8431, -0.8588, -0.8431]],\n", + " \n", + " [[ 0.0431, 0.0667, 0.0902, ..., -0.2863, -0.2706, -0.2549],\n", + " [ 0.0196, 0.0353, 0.0353, ..., -0.3647, -0.3725, -0.3647],\n", + " [ 0.0510, 0.0275, 0.0039, ..., -0.3333, -0.3490, -0.3569],\n", + " ...,\n", + " [-0.9373, -0.9059, -0.8745, ..., -0.7882, -0.7804, -0.7725],\n", + " [-0.9059, -0.9059, -0.8824, ..., -0.8196, -0.8118, -0.7961],\n", + " [-0.8196, -0.8431, -0.8667, ..., -0.8431, -0.8588, -0.8431]],\n", + " \n", + " [[ 0.0431, 0.0667, 0.0902, ..., -0.2863, -0.2706, -0.2549],\n", + " [ 0.0196, 0.0353, 0.0353, ..., -0.3647, -0.3725, -0.3647],\n", + " [ 0.0510, 0.0275, 0.0039, ..., -0.3333, -0.3490, -0.3569],\n", + " ...,\n", + " [-0.9373, -0.9059, -0.8745, ..., -0.7882, -0.7804, -0.7725],\n", + " [-0.9059, -0.9059, -0.8824, ..., -0.8196, -0.8118, -0.7961],\n", + " [-0.8196, -0.8431, -0.8667, ..., -0.8431, -0.8588, -0.8431]]])}" + ] + }, + "execution_count": 17, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "train_ds[0]" + ] + }, + { + "cell_type": "markdown", + "id": "49b06fa4-6f28-4e45-8af4-779c424583fe", + "metadata": { + "id": "49b06fa4-6f28-4e45-8af4-779c424583fe" + }, + "source": [ + "픽셀 값이 텐서 값으로 잘 변환하였습니다.\n", + "\n", + "### 데이터 로딩" + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "id": "3f47f263-2046-4847-952d-728fa3fe5cf4", + "metadata": { + "id": "3f47f263-2046-4847-952d-728fa3fe5cf4" + }, + "outputs": [], + "source": [ + "import torch\n", + "from torch.utils.data import DataLoader\n", + "\n", + "def collate_fn(examples):\n", + " pixel_values = torch.stack([example[\"pixel_values\"] for example in examples])\n", + " labels = torch.tensor([example[\"label\"] for example in examples])\n", + " return {\"pixel_values\": pixel_values, \"labels\": labels}\n", + "\n", + "train_dl = DataLoader(train_ds, collate_fn=collate_fn, batch_size=4)" + ] + }, + { + "cell_type": "markdown", + "id": "aed986b0-e661-4c57-ad58-4fa73d795828", + "metadata": { + "id": "aed986b0-e661-4c57-ad58-4fa73d795828" + }, + "source": [ + "### 배치 준비" + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "id": "14c6d3f8-48e6-423f-8193-7571f986f103", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/" + }, + "id": "14c6d3f8-48e6-423f-8193-7571f986f103", + "outputId": "eb04bfbd-040b-4c78-d8ae-e8f302dfb9d3" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "pixel_values torch.Size([4, 3, 224, 224])\n", + "labels torch.Size([4])\n" + ] + } + ], + "source": [ + "batch = next(iter(train_dl))\n", + "for k,v in batch.items():\n", + " if isinstance(v, torch.Tensor):\n", + " print(k, v.shape)" + ] + }, + { + "cell_type": "markdown", + "id": "35379d35-e567-4a30-8b91-6eac80b79044", + "metadata": { + "id": "35379d35-e567-4a30-8b91-6eac80b79044" + }, + "source": [ + "완벽합니다! 이제 파인튜닝 과정을 진행할 준비가 되었습니다." + ] + }, + { + "cell_type": "markdown", + "id": "45056d5e-8bca-4ece-b29b-bc772aeef49f", + "metadata": { + "id": "45056d5e-8bca-4ece-b29b-bc772aeef49f" + }, + "source": [ + "## 모델 파인튜닝\n", + "이어서 모델을 설정하고 파인튜닝하는 과정을 진행하겠습니다.\n", + "\n", + "우선, 특정 라벨 매핑과 사전 학습 설정(pre-trained settings)을 사용해 모델을 초기화하고, 크기 불일치를 조정해줍니다. 그다음, 학습 과정을 정의하기 위해 저장 전략, 배치 크기, 학습 epoch 등의 학습 파라미터를 설정하고, Weights & Biases를 통해 학습 결과를 로깅합니다.\n", + "이후 Hugging Face의 Trainer가 인스턴스화되어 학습과 평가를 관리하며, 커스텀 데이터 콜레이터와 모델에 내장된 프로세서를 함께 사용합니다. 마지막으로, 학습이 완료된 모델을 테스트 데이터셋으로 평가하고, 정확도를 확인하기 위한 지표(metrics)를 출력합니다.\n", + "\n", + "\n", + "\n", + "첫번째로, 모델을 먼저 호출해보겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": 20, + "id": "97d0b588-3e41-4852-9307-9e2ec7d5bb0b", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 205, + "referenced_widgets": [ + "a507faf3af4a4b599008d6fde6558326", + "3aad39f8cc6f4c7aa04eae1e29c82cf2", + "6bc38493a08a4fdfb1a5c337bf9a56ea", + "a8f641150053483898246602e54592e1", + "2261070b86c7497fb2221e41ab323cce", + "5fb8aa77c7a14cf38f87eb4df6457a37", + "f511728e7deb40029950ff8019742162", + "00314085ba794a5d87eeca3dc7991a0c", + "40a209ad433f4c71803eab2d8a3a2f69", + "cb0206ba72d7496c91e2737a057f1fe1", + "9ede96f2fe244364980dd74861978874", + "ec03ea80c45b452fa9365c13eaafec35", + "8b2007e92a2f48e38c52e14a9e647528", + "e3c612d1b46f45cbbe35ecdc39df73bf", + "87af41d1980245e1a3edacfb4a0b2b12", + "b564a6710ab1477ba5aef3a87961913b", + "d88bcb77112743ed9c68f14af86d15f7", + "fb7a5bc6781c4794a8bef2ab3a7b9116", + "6e53b375bc41426788d7a094287fbc22", + "f3f6c7337c9c48eabc5ad3ba9a417dc1", + "b0eb68fadae24f569b813fb28d1f4611", + "cef9fd8581614026950f8495952ccd03", + "2b4abfd0f59e41309b99ae604e96738f", + "f1a5e1f980d9427095d24629d2a83ae4", + "a4efbed77ded4c4facbd3d79239d64d8", + "678e7fc2f9c24281a5e823a85847178e", + "2826ad430729434ea93ddf45280bdd29", + "c74b88aa20f846dda524c0a5e03dc66e", + "03871e390dfd485198461b5e3ba6faed", + "1d4ed206e715459989fed43f495ba8c2", + "3bc7a168ed034c6e8067af549b8979d8", + "8219eed6c80e4128a47d6f1489e92859", + "602cd980010d477ea5824d8cc6417bb0" + ] + }, + "id": "97d0b588-3e41-4852-9307-9e2ec7d5bb0b", + "outputId": "28597115-735d-48b4-ca15-05aa557be02b" + }, + "outputs": [ + { + "name": "stderr", + "output_type": "stream", + "text": [ + "Some weights of ViTForImageClassification were not initialized from the model checkpoint at google/vit-large-patch16-224 and are newly initialized because the shapes did not match:\n", + "- classifier.weight: found shape torch.Size([1000, 1024]) in the checkpoint and torch.Size([3, 1024]) in the model instantiated\n", + "- classifier.bias: found shape torch.Size([1000]) in the checkpoint and torch.Size([3]) in the model instantiated\n", + "You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.\n" + ] + } + ], + "source": [ + "from transformers import ViTForImageClassification\n", + "\n", + "model = ViTForImageClassification.from_pretrained(model_name, id2label=id2label, label2id=label2id, ignore_mismatched_sizes=True)" + ] + }, + { + "cell_type": "markdown", + "id": "2f773e18-63e8-41bd-885f-7ba95d074a3d", + "metadata": { + "id": "2f773e18-63e8-41bd-885f-7ba95d074a3d" + }, + "source": [ + "여기에는 미묘한 디테일이 하나 있습니다. 바로 `ignore_mismatched_sizes` 파라미터 입니다.\n", + "\n", + "사전 학습된(pre-trained) 모델을 새로운 데이터셋에 파인튜닝할 때, 종종 이미지의 입력 크기나 모델 구조(예: 분류 레이어의 클래스 수 등)가 원래 모델이 학습된 환경과 완전히 일치하지 않을 수 있습니다.\n", + "이러한 상황은 다양한 이유로 발생할 수 있는데, 예를 들어 ImageNet처럼 자연 이미지로 학습된 모델을 의료 영상이나 특수 카메라 이미지처럼 전혀 다른 유형의 이미지에 적용하려고 할 때 발생할 수 있습니다.\n", + "\n", + "\n", + "이때, `ignore_mismatched_sizes` 를 `True` 로 설정하면, 사이즈가 일치하지 않더라도 오류 없이 레이어를 자동으로 조정해 사용할 수 있게 해줍니다.\n", + "\n", + "\n", + "예를 들어, 해당 모델은 1000개의 클래스로 학습되어 있어서 출력 크기가 `torch.Size([1000])` 이고 입력 또한 `torch.Size([1000])` 클래스를 기대합니다. 그런데 우리가 사용하는 데이터셋은 클래스가 3개로 `torch.Size([3])`입니다. 이 경우 모델에 직접 입력하면 클래스 수가 맞지 않기 때문에 오류가 발생하게 됩니다." + ] + }, + { + "cell_type": "markdown", + "id": "e2c671bf-9978-46d8-82ef-0906d4e89d03", + "metadata": { + "id": "e2c671bf-9978-46d8-82ef-0906d4e89d03" + }, + "source": [ + "그다음 Google에서 제공하는 학습 인자(arguments)를 정의합니다." + ] + }, + { + "cell_type": "markdown", + "id": "d473af8a-4070-48d7-aecb-1a5a90f0b63f", + "metadata": { + "id": "d473af8a-4070-48d7-aecb-1a5a90f0b63f" + }, + "source": [ + "(선택 사항) `report_to` 파라미터를 `wandb`로 설정했기 때문에, 평가 지표는 Weights & Biases(W&B)에 저장됩니다. W&B는 API 키를 요구하므로 계정과 API 키를 미리 생성해두어야 합니다. 만약 W&B를 사용하고 싶지 않다면, `report_to` 파라미터를 제거하면 됩니다." + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "id": "f16fc568-9fdc-4c60-acec-6ed3dbb85aef", + "metadata": { + "id": "f16fc568-9fdc-4c60-acec-6ed3dbb85aef" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "'\\n현재 환경에서 TrainingArguments가 해당 인자들을 인식하지 못하는 오류(TypeError)가 발생하여\\n최소한의 설정만으로 Trainer가 동작하도록 수정한 버전임.\\n(중간값 저장이나 자동 평가 없이 단순 학습만 수행됨.)\\n'" + ] + }, + "execution_count": 21, + "metadata": {}, + "output_type": "execute_result" + } + ], + "source": [ + "from transformers import TrainingArguments, Trainer\n", + "import numpy as np\n", + "\n", + "train_args = TrainingArguments(\n", + " output_dir = \"output-models\",\n", + " #save_total_limit=2,\n", + " #report_to=\"wandb\",\n", + " #save_strategy=\"epoch\",\n", + " #evaluation_strategy=\"epoch\",\n", + " learning_rate=2e-5,\n", + " per_device_train_batch_size=10,\n", + " per_device_eval_batch_size=4,\n", + " num_train_epochs=40,\n", + " weight_decay=0.01,\n", + " #load_best_model_at_end=True,\n", + " logging_dir='logs',\n", + " remove_unused_columns=False,\n", + " report_to=\"none\"\n", + ")\n", + "\n", + "\"\"\"\n", + "현재 환경에서 TrainingArguments가 해당 인자들을 인식하지 못하는 오류(TypeError)가 발생하여\n", + "최소한의 설정만으로 Trainer가 동작하도록 수정한 버전임.\n", + "(중간값 저장이나 자동 평가 없이 단순 학습만 수행됨.)\n", + "\"\"\"\n" + ] + }, + { + "cell_type": "markdown", + "id": "f74d4457-49fd-4e1b-9842-a3759ec524c9", + "metadata": { + "id": "f74d4457-49fd-4e1b-9842-a3759ec524c9" + }, + "source": [ + "이제 Trainer을 사용해 파인튜닝을 시작할 수 있습니다.\n", + "\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "5a117d62-9054-4e14-b7b2-0703de17a741", + "metadata": { + "colab": { + "base_uri": "https://localhost:8080/", + "height": 181 + }, + "id": "5a117d62-9054-4e14-b7b2-0703de17a741", + "outputId": "55c9e8b4-eaf0-431a-a132-28af2227e059" + }, + "outputs": [], + "source": [ + "trainer = Trainer(\n", + " model,\n", + " train_args,\n", + " train_dataset=train_ds,\n", + " eval_dataset=val_ds,\n", + " data_collator=collate_fn,\n", + " tokenizer=processor,\n", + ")\n", + "trainer.train()" + ] + }, + { + "cell_type": "markdown", + "id": "e154fd79-1de7-4169-a6af-402b12881042", + "metadata": { + "id": "e154fd79-1de7-4169-a6af-402b12881042" + }, + "source": [ + "| Epoch | Training Loss | Validation Loss | Accuracy |\n", + "|-------|---------------|-----------------|----------|\n", + "| 40 | 0.174700 | 0.596288 | 0.903846 |\n", + "\n", + "파인튜닝이 완료되었습니다. 이제 테스트 세트를 사용해 모델을 평가해보겠습니다." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "c19b6d99-0a89-45ac-a6d9-ec3e79edc041", + "metadata": { + "id": "c19b6d99-0a89-45ac-a6d9-ec3e79edc041", + "outputId": "2f5ab46c-d605-4cdb-e164-0bd8908462a4" + }, + "outputs": [], + "source": [ + "outputs = trainer.predict(test_ds)\n", + "print(outputs.metrics)" + ] + }, + { + "cell_type": "markdown", + "id": "2c4ddecb-7ab0-493e-90b9-44bf4e2a530e", + "metadata": { + "id": "2c4ddecb-7ab0-493e-90b9-44bf4e2a530e" + }, + "source": [ + "`{'test_loss': 0.3219967782497406, 'test_accuracy': 0.9102564102564102, 'test_runtime': 4.0543, 'test_samples_per_second': 38.478, 'test_steps_per_second': 9.619}`" + ] + }, + { + "cell_type": "markdown", + "id": "0be50a0b", + "metadata": { + "id": "0be50a0b" + }, + "source": [ + "### (선택 사항) 모델을 Hugging Face Hub에 업로드하기\n", + "\n", + "\n", + "\n", + "`push_to_hub`을 사용하면 Hugging Face Hub에 모델을 업로드할 수 있습니다." + ] + }, + { + "cell_type": "code", + "execution_count": null, + "id": "f1d55e6a", + "metadata": { + "id": "f1d55e6a" + }, + "outputs": [], + "source": [ + "model.push_to_hub(\"your_model_name\")" + ] + }, + { + "cell_type": "markdown", + "id": "5f74c058-e2a5-4c9c-8d70-1c2c574b933f", + "metadata": { + "id": "5f74c058-e2a5-4c9c-8d70-1c2c574b933f" + }, + "source": [ + "좋습니다! 이제 결과를 시각화해봅시다.\n", + "\n", + "## 결과\n", + "파인튜닝을 마쳤으니, 이제 모델이 각 클래스를 어떻게 예측했는지 확인해보겠습니다.\n", + "이를 위해 scikit-learn의 Confusion Matrix Display를 사용하고, Recall 점수도 함께 확인해보겠습니다." + ] + }, + { + "cell_type": "markdown", + "id": "ade5321d-ff63-4308-8317-d1e4da2219df", + "metadata": { + "id": "ade5321d-ff63-4308-8317-d1e4da2219df" + }, + "source": [ + "### Confusion Matrix 란?\n", + "Confusion Matrix(혼동 행렬)는 알고리즘, 특히 지도 학습 모델이 실제 정답을 알고 있는 테스트 데이터에 대해 얼마나 잘 작동하는지를 시각적으로 보여주는 표 형식입니다.\n", + "예측된 라벨과 실제 라벨의 빈도를 나타내므로, 분류 모델의 성능을 평가할 때 특히 유용합니다.\n", + "\n", + "우리 모델의 Confusion Matrix를 그려봅시다." + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "id": "8efb0ece-92b3-498d-b47b-0f9c04d4ebb8", + "metadata": { + "id": "8efb0ece-92b3-498d-b47b-0f9c04d4ebb8", + "outputId": "eee6b79f-898b-466f-91c5-2c6dff61cf1f" + }, + "outputs": [ + { + "data": { + "text/plain": [ + "" + ] + }, + "execution_count": 25, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "", + "text/plain": [ + "
" + ] + }, + "metadata": {}, + "output_type": "display_data" + } + ], + "source": [ + "from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay\n", + "\n", + "y_true = outputs.label_ids\n", + "y_pred = outputs.predictions.argmax(1)\n", + "\n", + "labels = train_ds.features['label'].names\n", + "cm = confusion_matrix(y_true, y_pred)\n", + "disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=labels)\n", + "disp.plot(xticks_rotation=45)" + ] + }, + { + "cell_type": "markdown", + "id": "9178d2d1-b828-45a6-8873-039abc0419c2", + "metadata": { + "id": "9178d2d1-b828-45a6-8873-039abc0419c2" + }, + "source": [ + "### Recall Score 란?\n", + "Recall Score(재현율)는 분류 작업에서 모델이 실제로 긍정 클래스(Positive Class)인 샘플을 얼마나 잘 찾아냈는지를 측정하는 성능 지표입니다.\n", + "즉, 실제 정답 중에서 모델이 올바르게 예측한 비율을 나타냅니다.\n", + "\n", + "이제 scikit-learn을 사용해 재현율 점수를 출력해봅시다." + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "id": "48d87ca7-8458-41d5-a773-38e2c9522f64", + "metadata": { + "id": "48d87ca7-8458-41d5-a773-38e2c9522f64", + "outputId": "da9056ed-1b64-4923-ba11-9752d5b596b3" + }, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Recall for benign: 0.89\n", + "Recall for malignant: 0.90\n", + "Recall for normal: 0.81\n" + ] + } + ], + "source": [ + "from sklearn.metrics import recall_score\n", + "\n", + "# Calculate the recall scores\n", + "# 'None' calculates recall for each class separately\n", + "recall = recall_score(y_true, y_pred, average=None)\n", + "\n", + "# Print the recall for each class\n", + "for label, score in zip(labels, recall):\n", + " print(f'Recall for {label}: {score:.2f}')\n" + ] + }, + { + "cell_type": "markdown", + "id": "c8b1a1b1-7de4-4eb6-98bf-de87e8cbbcec", + "metadata": { + "id": "c8b1a1b1-7de4-4eb6-98bf-de87e8cbbcec" + }, + "source": [ + "`Recall for benign: 0.90,\n", + "Recall for malignant: 0.86,\n", + "Recall for normal: 0.78`" + ] + }, + { + "cell_type": "markdown", + "id": "67b76567-039d-467b-9cfc-0837fb3e1a1b", + "metadata": { + "id": "67b76567-039d-467b-9cfc-0837fb3e1a1b" + }, + "source": [ + "## 결론\n", + "이 cookbook에서는 의료 데이터셋을 활용해 ViT 모델을 학습하는 과정을 다루었습니다.\n", + "데이터셋 준비, 이미지 전처리, 모델 구성, 학습, 평가, 그리고 결과 시각화까지의 핵심 단계들을 모두 포함하고 있습니다.\n", + "\n", + "Hugging Face의 Transformers 라이브러리와 scikit-learn, PyTorch의 Torchvision을 활용하여 효율적인 모델 학습과 평가가 가능하며, 이를 통해 바이오메디컬 이미지를 얼마나 정확하게 분류할 수 있는지에 대한 유용한 통찰을 제공합니다." + ] + } + ], + "metadata": { + "accelerator": "GPU", + "colab": { + "gpuType": "T4", + "provenance": [] + }, + "kernelspec": { + "display_name": "hf", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.11.11" + }, + "widgets": { + "application/vnd.jupyter.widget-state+json": { + "00314085ba794a5d87eeca3dc7991a0c": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "03871e390dfd485198461b5e3ba6faed": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "039241d8c1c34103a655fbcb6de51ae6": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "041c9438afa94e878b5678111b1cc87c": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "04fb4c819c3c44b59184c54ea44456bf": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "09d1ea0c40184e648c75b10ee22f23e7": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_4b411454d68a436cbf04d8a97e2fe7da", + "IPY_MODEL_a2f5fb56b54f4b7383fd85aed9920bcb", + "IPY_MODEL_2a4a870ca4404c23bd92f9b1117d9a0e" + ], + "layout": "IPY_MODEL_c9077c3acb6342f2a248876f3ebf7464" + } + }, + "0bc23ea7af8046788212dd03fa6679f9": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "0fe075d0db0445aeb7e4d275860d39f2": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_64b29e54431246e98aeadf09c705b684", + "IPY_MODEL_323db282be654fdeb25bf9a5b9f1733b", + "IPY_MODEL_2d7ebc94bae04034aee3ee10f800c1df" + ], + "layout": "IPY_MODEL_33694de53716463b8c5b07720a40e067" + } + }, + "1173f9c2411640078fb20331845d2c87": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "15a9e8f3433d478ba8f73dd158515e7d": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_041c9438afa94e878b5678111b1cc87c", + "placeholder": "​", + "style": "IPY_MODEL_0bc23ea7af8046788212dd03fa6679f9", + "value": "preprocessor_config.json: 100%" + } + }, + "1b8330ce7031406c95eac80280936dae": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "1d4ed206e715459989fed43f495ba8c2": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "1eccd922da6e4b1682bdb061716ed27b": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "2261070b86c7497fb2221e41ab323cce": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "228c08de964d48fdbb3594c1f2ecde09": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "2658dc163a3942608f583622c44f28ea": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "27297aa211ef4564bcb9a23bd6e073c5": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_28e427d0fb3c42c0b9d55f9076f18918", + "IPY_MODEL_9155b025badd40c284c07fbc87175169", + "IPY_MODEL_40c47070f79b48d088622696128531cb" + ], + "layout": "IPY_MODEL_41a800c6e6c547a9ab528ee96e1ce137" + } + }, + "2826ad430729434ea93ddf45280bdd29": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "28e427d0fb3c42c0b9d55f9076f18918": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_43c0527631a64c89b171c2a0664dfa8b", + "placeholder": "​", + "style": "IPY_MODEL_95d5ad27410b4a689734c1593f71d02b", + "value": "README.md: 100%" + } + }, + "2a4a870ca4404c23bd92f9b1117d9a0e": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_482d168e5e104fd48c5c762450c02930", + "placeholder": "​", + "style": "IPY_MODEL_466dfa0cc1344aa58bb1a4a8b8cf9aba", + "value": " 53.6M/53.6M [00:00<00:00, 158MB/s]" + } + }, + "2b4abfd0f59e41309b99ae604e96738f": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_f1a5e1f980d9427095d24629d2a83ae4", + "IPY_MODEL_a4efbed77ded4c4facbd3d79239d64d8", + "IPY_MODEL_678e7fc2f9c24281a5e823a85847178e" + ], + "layout": "IPY_MODEL_2826ad430729434ea93ddf45280bdd29" + } + }, + "2d028e6a22194fa28419e88e87573421": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "2d7ebc94bae04034aee3ee10f800c1df": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_1173f9c2411640078fb20331845d2c87", + "placeholder": "​", + "style": "IPY_MODEL_db8dd16fc27a45d5a1ab81380b305389", + "value": " 624/624 [00:01<00:00, 538.15 examples/s]" + } + }, + "2ddd4fe77259428aaf7d6a56ed0b223e": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_387d13f078f747fea3c747f55e0458f5", + "placeholder": "​", + "style": "IPY_MODEL_8454a7ef8c1140a78f544465577d7532", + "value": " 156/156 [00:00<00:00, 362.72 examples/s]" + } + }, + "2f48026c77c9415292364602bff4ca18": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "323db282be654fdeb25bf9a5b9f1733b": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_1eccd922da6e4b1682bdb061716ed27b", + "max": 624, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_9b238f957be24a8e99b46baaa664cb5c", + "value": 624 + } + }, + "33694de53716463b8c5b07720a40e067": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "387d13f078f747fea3c747f55e0458f5": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "3aad39f8cc6f4c7aa04eae1e29c82cf2": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_5fb8aa77c7a14cf38f87eb4df6457a37", + "placeholder": "​", + "style": "IPY_MODEL_f511728e7deb40029950ff8019742162", + "value": "config.json: 100%" + } + }, + "3bc7a168ed034c6e8067af549b8979d8": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "40a209ad433f4c71803eab2d8a3a2f69": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "40c47070f79b48d088622696128531cb": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_8e67e87040944a878618f01a98294681", + "placeholder": "​", + "style": "IPY_MODEL_f3267441b9dc4f029a3bfdffaf491842", + "value": " 1.18k/1.18k [00:00<00:00, 64.1kB/s]" + } + }, + "4113c7318d5d4484b3990dcbdb9bc1cd": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "41a800c6e6c547a9ab528ee96e1ce137": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "4358acace42c41519fc83cc67e814961": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_aa9365c6057a4137bb678ce4d05c448d", + "max": 211624597, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_741d79cc18ae44259621f030e454ab99", + "value": 211624597 + } + }, + "43c0527631a64c89b171c2a0664dfa8b": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "466dfa0cc1344aa58bb1a4a8b8cf9aba": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "482d168e5e104fd48c5c762450c02930": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "4901091780124b3dbba924779868f4c8": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "4b411454d68a436cbf04d8a97e2fe7da": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_c99b9fb60a4042b58b07a8524f8f555e", + "placeholder": "​", + "style": "IPY_MODEL_2f48026c77c9415292364602bff4ca18", + "value": "test-00000-of-00001.parquet: 100%" + } + }, + "566b4b97be32448fb502520a93976501": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "5aa5164fa3d040bc8180b122eb029d94": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "5d2b2e10194043efadf1377e961b1e41": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "5fb8aa77c7a14cf38f87eb4df6457a37": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "602cd980010d477ea5824d8cc6417bb0": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "64b29e54431246e98aeadf09c705b684": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_566b4b97be32448fb502520a93976501", + "placeholder": "​", + "style": "IPY_MODEL_c83d52312d02407a8ea124fa25ebddb7", + "value": "Generating train split: 100%" + } + }, + "678e7fc2f9c24281a5e823a85847178e": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_8219eed6c80e4128a47d6f1489e92859", + "placeholder": "​", + "style": "IPY_MODEL_602cd980010d477ea5824d8cc6417bb0", + "value": " 1.22G/1.22G [00:06<00:00, 267MB/s]" + } + }, + "6bc38493a08a4fdfb1a5c337bf9a56ea": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_00314085ba794a5d87eeca3dc7991a0c", + "max": 69667, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_40a209ad433f4c71803eab2d8a3a2f69", + "value": 69667 + } + }, + "6e53b375bc41426788d7a094287fbc22": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "741d79cc18ae44259621f030e454ab99": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "8219eed6c80e4128a47d6f1489e92859": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "8454a7ef8c1140a78f544465577d7532": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "87af41d1980245e1a3edacfb4a0b2b12": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_b0eb68fadae24f569b813fb28d1f4611", + "placeholder": "​", + "style": "IPY_MODEL_cef9fd8581614026950f8495952ccd03", + "value": " 1.22G/1.22G [00:06<00:00, 187MB/s]" + } + }, + "8b2007e92a2f48e38c52e14a9e647528": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_d88bcb77112743ed9c68f14af86d15f7", + "placeholder": "​", + "style": "IPY_MODEL_fb7a5bc6781c4794a8bef2ab3a7b9116", + "value": "pytorch_model.bin: 100%" + } + }, + "8e67e87040944a878618f01a98294681": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "8f0a3034925d409f85c64f5271187923": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "9155b025badd40c284c07fbc87175169": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_99893feb6a184879891978d111ebde49", + "max": 1175, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_fe8fca891aff479a9fb11aeeb1971e2d", + "value": 1175 + } + }, + "9519479ac1234c50ac6b5459cb2db76b": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "95d5ad27410b4a689734c1593f71d02b": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "99893feb6a184879891978d111ebde49": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "9b238f957be24a8e99b46baaa664cb5c": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "9ede96f2fe244364980dd74861978874": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "a2f5fb56b54f4b7383fd85aed9920bcb": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_c162aa27a92f496192a2335ab0496bc8", + "max": 53566328, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_4901091780124b3dbba924779868f4c8", + "value": 53566328 + } + }, + "a4efbed77ded4c4facbd3d79239d64d8": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_1d4ed206e715459989fed43f495ba8c2", + "max": 1217353096, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_3bc7a168ed034c6e8067af549b8979d8", + "value": 1217353096 + } + }, + "a507faf3af4a4b599008d6fde6558326": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_3aad39f8cc6f4c7aa04eae1e29c82cf2", + "IPY_MODEL_6bc38493a08a4fdfb1a5c337bf9a56ea", + "IPY_MODEL_a8f641150053483898246602e54592e1" + ], + "layout": "IPY_MODEL_2261070b86c7497fb2221e41ab323cce" + } + }, + "a86b7af977bc40fea33a27748e57f432": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "a8f641150053483898246602e54592e1": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_cb0206ba72d7496c91e2737a057f1fe1", + "placeholder": "​", + "style": "IPY_MODEL_9ede96f2fe244364980dd74861978874", + "value": " 69.7k/69.7k [00:00<00:00, 5.43MB/s]" + } + }, + "aa9365c6057a4137bb678ce4d05c448d": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "b0eb68fadae24f569b813fb28d1f4611": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "b564a6710ab1477ba5aef3a87961913b": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "b7ea8f8585354f9bb4f11f43a6f1a8ac": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_15a9e8f3433d478ba8f73dd158515e7d", + "IPY_MODEL_d4335bbecd3f4a9693a8c2742a765a4c", + "IPY_MODEL_cec02057108742e0b0f5bf5704cf6c6d" + ], + "layout": "IPY_MODEL_5d2b2e10194043efadf1377e961b1e41" + } + }, + "c162aa27a92f496192a2335ab0496bc8": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "c74b88aa20f846dda524c0a5e03dc66e": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "c83d52312d02407a8ea124fa25ebddb7": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "c9077c3acb6342f2a248876f3ebf7464": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "c99b9fb60a4042b58b07a8524f8f555e": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "cb0206ba72d7496c91e2737a057f1fe1": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "cec02057108742e0b0f5bf5704cf6c6d": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_8f0a3034925d409f85c64f5271187923", + "placeholder": "​", + "style": "IPY_MODEL_e0cb22c893ae4ed88b24224347751da7", + "value": " 160/160 [00:00<00:00, 13.2kB/s]" + } + }, + "cef9fd8581614026950f8495952ccd03": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "d0422dfef6a846c5bbd9045b7019ffb8": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_039241d8c1c34103a655fbcb6de51ae6", + "placeholder": "​", + "style": "IPY_MODEL_fbcd9fb015d24543aedb6dbdb8e3d87a", + "value": " 212M/212M [00:01<00:00, 148MB/s]" + } + }, + "d14c61501c7d49ce90cb3c1d073cbaa8": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_d91cdc1965a74b7790e44126f204c708", + "placeholder": "​", + "style": "IPY_MODEL_2d028e6a22194fa28419e88e87573421", + "value": "Generating test split: 100%" + } + }, + "d4335bbecd3f4a9693a8c2742a765a4c": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_2658dc163a3942608f583622c44f28ea", + "max": 160, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_9519479ac1234c50ac6b5459cb2db76b", + "value": 160 + } + }, + "d88bcb77112743ed9c68f14af86d15f7": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "d91cdc1965a74b7790e44126f204c708": { + "model_module": "@jupyter-widgets/base", + "model_module_version": "1.2.0", + "model_name": "LayoutModel", + "state": { + "_model_module": "@jupyter-widgets/base", + "_model_module_version": "1.2.0", + "_model_name": "LayoutModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "LayoutView", + "align_content": null, + "align_items": null, + "align_self": null, + "border": null, + "bottom": null, + "display": null, + "flex": null, + "flex_flow": null, + "grid_area": null, + "grid_auto_columns": null, + "grid_auto_flow": null, + "grid_auto_rows": null, + "grid_column": null, + "grid_gap": null, + "grid_row": null, + "grid_template_areas": null, + "grid_template_columns": null, + "grid_template_rows": null, + "height": null, + "justify_content": null, + "justify_items": null, + "left": null, + "margin": null, + "max_height": null, + "max_width": null, + "min_height": null, + "min_width": null, + "object_fit": null, + "object_position": null, + "order": null, + "overflow": null, + "overflow_x": null, + "overflow_y": null, + "padding": null, + "right": null, + "top": null, + "visibility": null, + "width": null + } + }, + "db8dd16fc27a45d5a1ab81380b305389": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "e0cb22c893ae4ed88b24224347751da7": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "e3c612d1b46f45cbbe35ecdc39df73bf": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_6e53b375bc41426788d7a094287fbc22", + "max": 1217466031, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_f3f6c7337c9c48eabc5ad3ba9a417dc1", + "value": 1217466031 + } + }, + "ec03ea80c45b452fa9365c13eaafec35": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_8b2007e92a2f48e38c52e14a9e647528", + "IPY_MODEL_e3c612d1b46f45cbbe35ecdc39df73bf", + "IPY_MODEL_87af41d1980245e1a3edacfb4a0b2b12" + ], + "layout": "IPY_MODEL_b564a6710ab1477ba5aef3a87961913b" + } + }, + "ee4079637e6643d48a9feba34c30d0d7": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "FloatProgressModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "FloatProgressModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "ProgressView", + "bar_style": "success", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_4113c7318d5d4484b3990dcbdb9bc1cd", + "max": 156, + "min": 0, + "orientation": "horizontal", + "style": "IPY_MODEL_1b8330ce7031406c95eac80280936dae", + "value": 156 + } + }, + "ef44e725caed4ef38e9cc25621b76406": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_5aa5164fa3d040bc8180b122eb029d94", + "placeholder": "​", + "style": "IPY_MODEL_04fb4c819c3c44b59184c54ea44456bf", + "value": "train-00000-of-00001.parquet: 100%" + } + }, + "f1a5e1f980d9427095d24629d2a83ae4": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HTMLModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HTMLModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HTMLView", + "description": "", + "description_tooltip": null, + "layout": "IPY_MODEL_c74b88aa20f846dda524c0a5e03dc66e", + "placeholder": "​", + "style": "IPY_MODEL_03871e390dfd485198461b5e3ba6faed", + "value": "model.safetensors: 100%" + } + }, + "f2566e5e755e4a72acbebab9c938aa34": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_d14c61501c7d49ce90cb3c1d073cbaa8", + "IPY_MODEL_ee4079637e6643d48a9feba34c30d0d7", + "IPY_MODEL_2ddd4fe77259428aaf7d6a56ed0b223e" + ], + "layout": "IPY_MODEL_a86b7af977bc40fea33a27748e57f432" + } + }, + "f3267441b9dc4f029a3bfdffaf491842": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "f3f6c7337c9c48eabc5ad3ba9a417dc1": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "f511728e7deb40029950ff8019742162": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "fb7a5bc6781c4794a8bef2ab3a7b9116": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "fbcd9fb015d24543aedb6dbdb8e3d87a": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "DescriptionStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "DescriptionStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "description_width": "" + } + }, + "fe8fca891aff479a9fb11aeeb1971e2d": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "ProgressStyleModel", + "state": { + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "ProgressStyleModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/base", + "_view_module_version": "1.2.0", + "_view_name": "StyleView", + "bar_color": null, + "description_width": "" + } + }, + "ff9d81edcfe9421bb1398ca284a197cc": { + "model_module": "@jupyter-widgets/controls", + "model_module_version": "1.5.0", + "model_name": "HBoxModel", + "state": { + "_dom_classes": [], + "_model_module": "@jupyter-widgets/controls", + "_model_module_version": "1.5.0", + "_model_name": "HBoxModel", + "_view_count": null, + "_view_module": "@jupyter-widgets/controls", + "_view_module_version": "1.5.0", + "_view_name": "HBoxView", + "box_style": "", + "children": [ + "IPY_MODEL_ef44e725caed4ef38e9cc25621b76406", + "IPY_MODEL_4358acace42c41519fc83cc67e814961", + "IPY_MODEL_d0422dfef6a846c5bbd9045b7019ffb8" + ], + "layout": "IPY_MODEL_228c08de964d48fdbb3594c1f2ecde09" + } + } + } + } + }, + "nbformat": 4, + "nbformat_minor": 5 +} diff --git a/notebooks/ko/index.md b/notebooks/ko/index.md index c68982d8..034075df 100644 --- a/notebooks/ko/index.md +++ b/notebooks/ko/index.md @@ -6,6 +6,7 @@ 최근 추가된 노트북을 살펴보세요: +- [Custom Biomedical Dataset으로 Vision Transformer 모델 Fine-tuning 하기](fine_tuning_vit_custom_dataset_ko) - [한국어 Advanced RAG 구현: Hugging Face와 LangChain 활용한 Cookbook](advanced_ko_rag) - [구조화된 생성으로 근거 강조 표시가 있는 RAG 시스템 구축하기](structured_generation) - [지식 그래프를 활용한 RAG 추론 향상](ko_rag_with_knowledge_graphs_neo4j) From 2bb56bf372617735227e090903b82e2efd58e5b2 Mon Sep 17 00:00:00 2001 From: HyunZ118 <156191095+HyunZ118@users.noreply.github.com> Date: Mon, 9 Jun 2025 22:59:55 +0900 Subject: [PATCH 2/2] Edited part of the translation --- .../fine_tuning_vit_custom_dataset_ko.ipynb | 157 ++++++++++-------- 1 file changed, 91 insertions(+), 66 deletions(-) diff --git a/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb b/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb index fc5712ed..53a4cc71 100644 --- a/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb +++ b/notebooks/ko/fine_tuning_vit_custom_dataset_ko.ipynb @@ -42,7 +42,7 @@ }, { "cell_type": "code", - "execution_count": 1, + "execution_count": null, "id": "7093dd4f-d0cb-44dc-935d-d54435187901", "metadata": { "colab": { @@ -56,6 +56,16 @@ "# !pip install datasets transformers accelerate torch torchvision scikit-learn matplotlib wandb" ] }, + { + "cell_type": "code", + "execution_count": null, + "id": "eec0007b", + "metadata": {}, + "outputs": [], + "source": [ + "# !pip install --upgrade datasets # Updated by HJ (colab 환경에서 실험 중일 경우 최신 버전 사용을 위해 업그레이드 필요)" + ] + }, { "cell_type": "markdown", "id": "9b5019a8-d130-4c08-9503-cd8415f50ae9", @@ -93,23 +103,7 @@ }, "source": [ "## 데이터셋 준비\n", - "'datasets' 라이브러리는 데이터셋에서 이미지와 클래스를 자동으로 불러옵니다. 자세한 내용은 [`이 링크`](https://huggingface.co/docs/datasets/image_load).를 참고하세요." - ] - }, - { - "cell_type": "code", - "execution_count": null, - "id": "C2f-_NcrnYil", - "metadata": { - "colab": { - "base_uri": "https://localhost:8080/" - }, - "id": "C2f-_NcrnYil", - "outputId": "27112e94-72ec-4dba-d848-a870d6699737" - }, - "outputs": [], - "source": [ - "# pip install --upgrade datasets # update by HJ" + "`datasets` 라이브러리는 데이터셋에서 이미지와 클래스를 자동으로 불러옵니다. 자세한 내용은 [이 링크](https://huggingface.co/docs/datasets/image_load)를 참고하세요." ] }, { @@ -209,12 +203,6 @@ "dataset" ] }, - { - "cell_type": "markdown", - "id": "3b0461c4", - "metadata": {}, - "source": [] - }, { "cell_type": "markdown", "id": "bf3176b2-65ff-44ea-bb1e-cd75b2d7609d", @@ -222,16 +210,16 @@ "id": "bf3176b2-65ff-44ea-bb1e-cd75b2d7609d" }, "source": [ - "데이터셋을 불러왔지만, 현재 검증 세트는 없습니다.\n", + "데이터셋을 불러왔지만, 해당 데이터셋에는 검증 세트가 분할되어 있지 않은 상황입니다.\n", "\n", - "검증 세트를 만들기 위해 테스트 세트의 크기를 기준으로 훈련 세트의 일부를 나누어 검증 세트를 생성할 것입니다.\n", + "검증 세트를 만들기 위해 테스트 세트의 크기를 기준으로 훈련 세트의 일부를 나누어 검증 세트를 생성하려고 합니다.\n", "\n", "그 후 기존 훈련 세트를 새로운 훈련 세트와 검증 세트로 분할합니다." ] }, { "cell_type": "code", - "execution_count": 5, + "execution_count": null, "id": "4d385bab-dad0-462d-9339-11205fcd2e63", "metadata": { "colab": { @@ -262,7 +250,7 @@ } ], "source": [ - "# Get the numbers of each set\n", + "# 각 세트의 데이터 수를 구해봅니다\n", "test_num = len(dataset[\"test\"])\n", "train_num = len(dataset[\"train\"])\n", "\n", @@ -336,9 +324,9 @@ "id": "4a0d7a89-099e-4925-97a5-51c91cdb7046" }, "source": [ - "잘하셨습니다! 이제 데이터셋 준비가 완료되었습니다.\n", + "좋습니다! 이제 데이터셋 준비가 완료되었네요 👍🏻\n", "\n", - "각 하위 데이터셋을 서로 다른 변수에 할당해봅시다. (나중에 쉽게 참조할 수 있도록 하기 위함입니다.)" + "나중에 쉽게 참조할 수 있도록 각 하위 집합을 변수에 할당해 둡시다." ] }, { @@ -362,7 +350,7 @@ "id": "27e5451f-e2fb-4d29-b63a-a8960686dcc2" }, "source": [ - "이미지를 확인해보면 'PIL.Image' 형식이며 이에 연결된 라벨이 함께 존재하는 것을 확인할 수 있습니다." + "이미지를 확인해보면 `PIL.Image` 형식이며 이에 연결된 레이블이 함께 존재하는 것을 확인할 수 있습니다." ] }, { @@ -443,7 +431,7 @@ }, { "cell_type": "code", - "execution_count": 10, + "execution_count": null, "id": "5c901865-a876-4b4b-b1f2-8895b494cafb", "metadata": { "colab": { @@ -468,13 +456,13 @@ "source": [ "import matplotlib.pyplot as plt\n", "\n", - "# Initialize a set to keep track of shown labels\n", + "# 표시된 레이블을 추적할 수 있게 set를 초기화해줍니다\n", "shown_labels = set()\n", "\n", - "# Initialize the figure for plotting\n", + "# 그래프를 그리기 위해 figure를 초기화해줍니다\n", "plt.figure(figsize=(10, 10))\n", "\n", - "# Loop through the dataset and plot the first image of each label\n", + "# 데이터셋을 하나씩 살펴보면서 각 라벨마다 첫 번째 이미지를 그려줍니다\n", "for i, sample in enumerate(train_ds):\n", " label = train_ds.features['label'].names[sample['label']]\n", " if label not in shown_labels:\n", @@ -499,11 +487,11 @@ "\n", "\n", "## 데이터 전처리\n", - "데이터셋은 준비되었지만 아직 파인튜닝을 위한 준비는 완료되지 않았습니다. 아래와 같은 절차를 순차적으로 따라갈 것입니다:\n", + "데이터셋은 준비되었지만 파인튜닝을 위한 준비는 아직 완료되지 않았습니다. 아래와 같은 절차를 순차적으로 따라가보겠습니다!\n", "\n", "- **레이블 매핑 (Label Mapping)** : 레이블 ID와 해당 클래스 이름 간의 매핑을 수행합니다. 이는 모델 학습과 평가 시 유용하게 사용됩니다.\n", "\n", - "- **이미지 전처리 (Image Processing)** : ViTImageProcessor를 사용해 입력 이미지의 크기를 표준화하고, 사전 학습된 모델에 맞는 정규화를 적용합니다. 또한, torchvision을 활용해 훈련, 검증, 테스트용으로 서로 다른 변환을 정의하여 모델의 일반화를 향상시킵니다.\n", + "- **이미지 전처리 (Image Processing)** : `ViTImageProcessor`를 사용해 입력 이미지의 크기를 표준화하고, 사전 학습된 모델에 맞는 정규화를 적용합니다. 또한, `torchvision`을 활용해 훈련, 검증, 테스트용으로 서로 다른 변환을 정의하여 모델의 일반화를 향상시킵니다.\n", "\n", "- **변환 함수 정의 (Transform Functions)** : ViT 모델에 맞는 형식과 크기로 이미지를 변환하기 위한 함수를 구현합니다.\n", "\n", @@ -772,8 +760,14 @@ "id": "49b06fa4-6f28-4e45-8af4-779c424583fe" }, "source": [ - "픽셀 값이 텐서 값으로 잘 변환하였습니다.\n", - "\n", + "픽셀 값이 텐서로 잘 변환되었네요 👍🏻" + ] + }, + { + "cell_type": "markdown", + "id": "74b6c684", + "metadata": {}, + "source": [ "### 데이터 로딩" ] }, @@ -842,7 +836,9 @@ "id": "35379d35-e567-4a30-8b91-6eac80b79044" }, "source": [ - "완벽합니다! 이제 파인튜닝 과정을 진행할 준비가 되었습니다." + "완벽합니다👏🏻 이제 파인튜닝 진행을 위한 모든 준비가 되었습니다.\n", + "\n", + "이어서 모델을 설정하고 파인튜닝하는 과정을 진행하겠습니다." ] }, { @@ -853,13 +849,17 @@ }, "source": [ "## 모델 파인튜닝\n", - "이어서 모델을 설정하고 파인튜닝하는 과정을 진행하겠습니다.\n", - "\n", - "우선, 특정 라벨 매핑과 사전 학습 설정(pre-trained settings)을 사용해 모델을 초기화하고, 크기 불일치를 조정해줍니다. 그다음, 학습 과정을 정의하기 위해 저장 전략, 배치 크기, 학습 epoch 등의 학습 파라미터를 설정하고, Weights & Biases를 통해 학습 결과를 로깅합니다.\n", - "이후 Hugging Face의 Trainer가 인스턴스화되어 학습과 평가를 관리하며, 커스텀 데이터 콜레이터와 모델에 내장된 프로세서를 함께 사용합니다. 마지막으로, 학습이 완료된 모델을 테스트 데이터셋으로 평가하고, 정확도를 확인하기 위한 지표(metrics)를 출력합니다.\n", - "\n", "\n", + "우선, 특정 레이블 매핑과 사전 학습 설정(pre-trained settings)을 사용해 모델을 초기화하고, 크기 불일치를 조정해줍니다. 그 다음, 학습 과정을 정의하기 위해 저장 전략, 배치 크기, 학습 epoch 등의 학습 파라미터를 설정하고, Weights & Biases를 통해 학습 결과를 로깅합니다.\n", "\n", + "이후 Hugging Face의 Trainer가 인스턴스화되어 학습과 평가를 관리하며, 커스텀 데이터 collator와 모델에 내장된 Processor를 함께 사용합니다. 마지막으로 학습이 완료된 모델을 테스트 데이터셋으로 평가하고, 정확도를 확인하기 위한 지표(metrics)를 출력합니다.\n" + ] + }, + { + "cell_type": "markdown", + "id": "bfb2482b", + "metadata": {}, + "source": [ "첫번째로, 모델을 먼저 호출해보겠습니다." ] }, @@ -935,16 +935,14 @@ "id": "2f773e18-63e8-41bd-885f-7ba95d074a3d" }, "source": [ - "여기에는 미묘한 디테일이 하나 있습니다. 바로 `ignore_mismatched_sizes` 파라미터 입니다.\n", - "\n", - "사전 학습된(pre-trained) 모델을 새로운 데이터셋에 파인튜닝할 때, 종종 이미지의 입력 크기나 모델 구조(예: 분류 레이어의 클래스 수 등)가 원래 모델이 학습된 환경과 완전히 일치하지 않을 수 있습니다.\n", - "이러한 상황은 다양한 이유로 발생할 수 있는데, 예를 들어 ImageNet처럼 자연 이미지로 학습된 모델을 의료 영상이나 특수 카메라 이미지처럼 전혀 다른 유형의 이미지에 적용하려고 할 때 발생할 수 있습니다.\n", + "이 부분에서 언급하고 싶은 디테일이 있습니다.`ignore_mismatched_sizes` 파라미터에 주목해주세요 👀\n", "\n", + "사전 학습된(pre-trained) 모델을 새로운 데이터셋에 파인튜닝할 때, 종종 이미지의 입력 크기나 모델 구조(예: 분류 레이어의 클래스 수 등)가 원래 모델이 학습된 환경과 완전히 일치하지 않을 수 있습니다. 이러한 상황은 다양한 이유로 발생할 수 있습니다. 예를 들어 ImageNet처럼 자연 이미지로 학습된 모델을 의료 영상이나 특수 카메라 이미지처럼 전혀 다른 유형의 이미지에 적용하려고 할 때 발생하는데요.\n", "\n", "이때, `ignore_mismatched_sizes` 를 `True` 로 설정하면, 사이즈가 일치하지 않더라도 오류 없이 레이어를 자동으로 조정해 사용할 수 있게 해줍니다.\n", "\n", "\n", - "예를 들어, 해당 모델은 1000개의 클래스로 학습되어 있어서 출력 크기가 `torch.Size([1000])` 이고 입력 또한 `torch.Size([1000])` 클래스를 기대합니다. 그런데 우리가 사용하는 데이터셋은 클래스가 3개로 `torch.Size([3])`입니다. 이 경우 모델에 직접 입력하면 클래스 수가 맞지 않기 때문에 오류가 발생하게 됩니다." + "예를 들어, 해당 모델은 1000개의 클래스로 학습되어 있어서 출력 크기가 `torch.Size([1000])` 이고 입력 또한 `torch.Size([1000])` 클래스를 기대합니다. 그런데 우리가 사용하는 데이터셋은 클래스가 3개 `torch.Size([3])`이고, 이 경우 모델에 직접 입력하면 클래스 수가 맞지 않기 때문에 오류가 발생하게 됩니다." ] }, { @@ -954,7 +952,7 @@ "id": "e2c671bf-9978-46d8-82ef-0906d4e89d03" }, "source": [ - "그다음 Google에서 제공하는 학습 인자(arguments)를 정의합니다." + "그다음 Google에서 제공하는 학습 인자(arguments)를 정의해봅시다." ] }, { @@ -969,7 +967,7 @@ }, { "cell_type": "code", - "execution_count": 21, + "execution_count": null, "id": "f16fc568-9fdc-4c60-acec-6ed3dbb85aef", "metadata": { "id": "f16fc568-9fdc-4c60-acec-6ed3dbb85aef" @@ -1008,9 +1006,10 @@ ")\n", "\n", "\"\"\"\n", - "현재 환경에서 TrainingArguments가 해당 인자들을 인식하지 못하는 오류(TypeError)가 발생하여\n", - "최소한의 설정만으로 Trainer가 동작하도록 수정한 버전임.\n", - "(중간값 저장이나 자동 평가 없이 단순 학습만 수행됨.)\n", + "# Updated by HJ\n", + "(현재 환경에서 TrainingArguments가 해당 인자들을 인식하지 못하는 오류(TypeError)가 발생하여\n", + "최소한의 설정만으로 Trainer가 동작하도록 수정한 버전임. \n", + "중간값 저장이나 자동 평가 없이 단순 학습만 수행됨.)\n", "\"\"\"\n" ] }, @@ -1121,10 +1120,17 @@ "id": "5f74c058-e2a5-4c9c-8d70-1c2c574b933f" }, "source": [ - "좋습니다! 이제 결과를 시각화해봅시다.\n", - "\n", + "좋습니다! 이제 결과를 시각화해볼까요?" + ] + }, + { + "cell_type": "markdown", + "id": "49f0ce76", + "metadata": {}, + "source": [ "## 결과\n", "파인튜닝을 마쳤으니, 이제 모델이 각 클래스를 어떻게 예측했는지 확인해보겠습니다.\n", + "\n", "이를 위해 scikit-learn의 Confusion Matrix Display를 사용하고, Recall 점수도 함께 확인해보겠습니다." ] }, @@ -1137,9 +1143,15 @@ "source": [ "### Confusion Matrix 란?\n", "Confusion Matrix(혼동 행렬)는 알고리즘, 특히 지도 학습 모델이 실제 정답을 알고 있는 테스트 데이터에 대해 얼마나 잘 작동하는지를 시각적으로 보여주는 표 형식입니다.\n", - "예측된 라벨과 실제 라벨의 빈도를 나타내므로, 분류 모델의 성능을 평가할 때 특히 유용합니다.\n", - "\n", - "우리 모델의 Confusion Matrix를 그려봅시다." + "예측된 라벨과 실제 라벨의 빈도를 나타내므로 분류 모델의 성능을 평가할 때 특히 유용합니다." + ] + }, + { + "cell_type": "markdown", + "id": "014ff009", + "metadata": {}, + "source": [ + "우리 모델의 Confusion Matrix를 시각화해봅시다." ] }, { @@ -1200,7 +1212,7 @@ }, { "cell_type": "code", - "execution_count": 26, + "execution_count": null, "id": "48d87ca7-8458-41d5-a773-38e2c9522f64", "metadata": { "id": "48d87ca7-8458-41d5-a773-38e2c9522f64", @@ -1220,11 +1232,11 @@ "source": [ "from sklearn.metrics import recall_score\n", "\n", - "# Calculate the recall scores\n", - "# 'None' calculates recall for each class separately\n", + "# Recall score 계산\n", + "# ‘None’으로 설정하면 각 클래스별로 개별적으로 recall을 계산합니다.\n", "recall = recall_score(y_true, y_pred, average=None)\n", "\n", - "# Print the recall for each class\n", + "# 각 클래스별로 recall score를 출력합니다.\n", "for label, score in zip(labels, recall):\n", " print(f'Recall for {label}: {score:.2f}')\n" ] @@ -1250,10 +1262,23 @@ "source": [ "## 결론\n", "이 cookbook에서는 의료 데이터셋을 활용해 ViT 모델을 학습하는 과정을 다루었습니다.\n", - "데이터셋 준비, 이미지 전처리, 모델 구성, 학습, 평가, 그리고 결과 시각화까지의 핵심 단계들을 모두 포함하고 있습니다.\n", "\n", - "Hugging Face의 Transformers 라이브러리와 scikit-learn, PyTorch의 Torchvision을 활용하여 효율적인 모델 학습과 평가가 가능하며, 이를 통해 바이오메디컬 이미지를 얼마나 정확하게 분류할 수 있는지에 대한 유용한 통찰을 제공합니다." + "데이터셋 준비, 이미지 전처리, 모델 구성, 학습, 평가, 그리고 결과 시각화까지의 핵심 단계들을 모두 포함하고 있습니다." + ] + }, + { + "cell_type": "markdown", + "id": "9f359f99", + "metadata": {}, + "source": [ + "Hugging Face의 `transformers` 라이브러리와 `scikit-learn`, PyTorch의 `torchvision`을 활용하여 효율적인 모델 학습과 평가가 가능하며, 이를 통해 바이오 메디컬 이미지를 얼마나 정확하게 분류할 수 있는지에 대한 유용한 인사이트를 제공합니다." ] + }, + { + "cell_type": "markdown", + "id": "009f90ee", + "metadata": {}, + "source": [] } ], "metadata": {