Closes #63 | Create dataloader for MongabayConservation by megasiska86 · Pull Request #538 · SEACrowd/seacrowd-datahub

megasiska86 · 2024-03-18T08:34:35Z

Please name your PR title and the first line of PR message after the issue it will close. You can use the following examples:

Title: Closes #63| Add/Update Dataloader Mongabay

First line PR Message: Closes #63

where you replace the {ISSUE_NUMBER} with the one corresponding to your dataset.

Checkbox

Confirm that this PR is linked to the dataset issue.
Create the dataloader script seacrowd/sea_datasets/{my_dataset}/{my_dataset}.py (please use only lowercase and underscore for dataset folder naming, as mentioned in dataset issue) and its __init__.py within {my_dataset} folder.
Provide values for the _CITATION, _DATASETNAME, _DESCRIPTION, _HOMEPAGE, _LICENSE, _LOCAL, _URLs, _SUPPORTED_TASKS, _SOURCE_VERSION, and _SEACROWD_VERSION variables.
Implement _info(), _split_generators() and _generate_examples() in dataloader script.
Make sure that the BUILDER_CONFIGS class attribute is a list with at least one SEACrowdConfig for the source schema and one for a seacrowd schema.
Confirm dataloader script works with datasets.load_dataset function.
Confirm that your dataloader script passes the test suite run with python -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py or python -m tests.test_seacrowd seacrowd/sea_datasets/<my_dataset>/<my_dataset>.py --subset_id {subset_name_without_source_or_seacrowd_suffix}.
If my dataset is local, I have provided an output of the unit-tests in the PR (please copy paste). This is OPTIONAL for public datasets, as we can test these without access to the data files.

jensan-1

Hello @megasiska86, thank you for implementing the dataloader for MongabayConservation.

Tested and works fine! Just some minor fix to the nits, which are provided in the suggestion.
Also, it's okay to remove the README.md as the instruction to call the data will be provided in the SEACrowd catalogue later.

jensan-1 · 2024-03-27T09:30:09Z

+ (positive, neutral, negative) based on related topics.
+"""
+
+_HOMEPAGE = ""


Suggested change

_HOMEPAGE = ""

_HOMEPAGE = "https://huggingface.co/datasets/Datasaur/mongabay-experiment"

jensan-1 · 2024-03-27T09:30:34Z

+
+_HOMEPAGE = ""
+
+_LICENSE = "The Unlicense (unlicense)"


Suggested change

_LICENSE = "The Unlicense (unlicense)"

_LICENSE = Licenses.UNLICENSE.value

jensan-1 · 2024-03-27T09:40:26Z

+
+from seacrowd.utils import schemas
+from seacrowd.utils.configs import SEACrowdConfig
+from seacrowd.utils.constants import Tasks


Suggested change

from seacrowd.utils.constants import Tasks

from seacrowd.utils.constants import Tasks, Licenses

akhdanfadh · 2024-03-28T01:35:41Z

Here is my general review of the dataloader:

Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

akhdanfadh

Some nitpicks

akhdanfadh · 2024-03-28T01:41:51Z

+        ),
+    ]
+
+    DEFAULT_CONFIG_NAME = f"{_DATASETNAME}_source"


This should be one of the config name defined previously.

akhdanfadh · 2024-03-28T01:42:04Z

+_HOMEPAGE = ""
+
+_LICENSE = "The Unlicense (unlicense)"
+


Suggested change

_LOCAL = False

holylovenia · 2024-04-01T05:13:17Z

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

megasiska86 · 2024-04-03T05:39:31Z

Here is my general review of the dataloader:

Why do you use t2t schema? It is clearly not a 'text-to-text' task. Instead, it is a labeling task, either to tags or sentiments. Thus, please use text schema and pass the label names for tags or sentiments to the label_names argument. Also, the task is not Tasks.PARAPHRASING.
Even if you use t2t schema, the loaded data does not match the data type that should be (see the test result below). For example, the label field should be an array and not a string.

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?
Though this is not about the dataloader, as a data constructor yourself, please provide information on your HF data card. It is difficult to understand what the label field corresponds to. For example, sentiment label (softmaxed) corresponds to ['negative', 'neutral', 'positive'], etc.

tag-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'label': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

sentiment-classification test result

INFO:__main__:Dataset sample [source]
{'text': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'tags': "['Aparatur Sipil Negara' 'masyarakat desa' 'konflik' 'perusahaan'\n 'tambang']",
'label': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]'}
INFO:__main__:Dataset sample [seacrowd_t2t]
{'id': '0',
'text_1': 'Pandemi, Momentum bagi Negara Serius Lindungi Hak Masyarakat Adat | [CLS] \xa0\xa0\xa0\xa0Hutan adalah gudang segala ada bagi masyarakat adat. Mau cari bahan pangan, obat, sampai segala perlengkapkan ritual budaya, semua ada di hutan. Pandemi Coronavirus Disease 2019 (COVID-19) ini, memperlihatkan, masyarakat adat yang memiliki hutan dan terjaga tahan terhadap krisis kesehatan ini. Mereka punya sumber pangan dan obat-obatan. Untuk itu, masa pandemi ini hendaknya jadi pendorong pemerintah serius memberikan kepastian pengakuan dan perlindungan hak kepada masyarakat adat, antara lain lewat pengesahan RUU Masyarakat Adat.Apai Janggut, tokoh adat dari sekaligus kepala rumah panjang Sungai Utik mengatakan, dalam situasi krisis ini, masyarakat masih memiliki hutan yang jadi supermarket. Di sana, ada bahan pangan dan obat-obatan yang sudah ada turun temurun. Mereka tidak merasa kesulitan.“Kami tidak mau hutan kami rusak, tak mau air kami tercemar dan meminum limbah. Karena sungai adalah ibu kami dan hutan adalah bapak kami,” katanya dalam Bahasa asli Dayak Iban dalam diskusi Hari Masyarakat Adat Sedunia (HIMAS) 2020, 9 Agustus.Untuk itulah, mereka terus kuat menjaga dan melindungi wilayah adat dari kerusakan termasuk oleh perusahaan.Baca juga: Cerita Perempuan Adat Hadapi PandemiSetiap 9 Agustus, dunia memperingati Hari Masyarakat Adat Sedunia (HIMAS). Tahun ini, HIMAS berlangsung di tengah pandemi corona. Di masa ini, PBB angkat tema,” Masyarakat Adat dan COVID-19.” Di Indonesia, Aliansi Masyarakat Adat Nusantara (AMAN) beri tema “COVID-19 dan Resiliensi Masyarakat Adat sebagai cermin dari situasi yang dihadapi oleh masyarakat adat.”Rukka Sombolingi, Sekretaris Jenderal AMAN mengatakan, situasi saat ini jadi sejarah baru, dimana kapitalisme sedang mengalami krisis sangat besar.“Paradigma pembangunan yang mengandalkan ekonomi-politik neoliberalisme yang dipraktikkan rezim kapitalisme global gagal total. Gagal membangun kesejahteraan bagi kita semua,” katanya.',
'text_2': '[1.0, 1.4414156535025313e-09, 1.3204033422198336e-09]',
'text_1_name': 'text',
'text_2_name': 'weak_label'}

Thank you for the review.

At the beginning I tried to use TEXT schema since my dataset belongs to text classification task. But I got issue regarding my training set that use probability per class as label (since my training set type is weak-labeled dataset). So I proposed to use this t2t schema that's more flexible and suitable for my label type

I unified the label type to string due to vary label format I used. For tags classification, the label example is something like this:
Training

[0.1111111119389534, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.1111111119389534, 0.0, 0.0, 0.1111111119389534, 0.0, 0.0, 0.0]

Valid & Test

[1.0, 0.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 1.0, 1.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0, 1.0,  0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0]

And for sentiment classification, the label example is something like:
Training

[0.999, 0.0, 0.0]

Valid & Test

negative

cc: @akhdanfadh

megasiska86 · 2024-04-03T05:54:46Z

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?

cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia
I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

holylovenia · 2024-04-06T03:50:09Z

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

holylovenia · 2024-04-17T06:14:29Z

A friendly reminder for @megasiska86 to address the suggestions. 🙏

holylovenia · 2024-05-02T04:47:34Z

Hi @megasiska86, is there anything we can help you with for the dataloader?

megasiska86 · 2024-05-02T13:36:45Z

Here are my comments of the dataset:

The HF URL in the datasheet for this dataloader (Create dataset loader for MongabayConservationDataset #63) is mongabay-experiment in which the provided field on that dataset is for sentiment classification only. Yet, in this dataloader, you add tags classification by providing another HF URL and use another HF URL for the sentiment classification. I understand that the tags classification is also in the paper, so what do you think @holylovenia @jen-santoso ? Updating the datasheet URL to each task's dataset or just sticking to the sentiment task?

In that vein, I also have a question. As the dataset owner and the paper author, is there a reason why you used separate URLs for the subsets (e.g., Mongabay-tags-classification, Mongabay-sentiment-classification, mongabay-experiment) rather than using this unified dataset URL, @megasiska86?
cc: @akhdanfadh @jen-santoso

Nice concern @holylovenia I created mongabay_collection as an alternative before knowing our dataset can be called per subset. When I found we can call dataloader per subset dataset, I prefer to use separated links Mongabay-tags-classification, Mongabay-sentiment-classification for organized and tidied purpose

I see. Could you use mongabay_collectionas the URL for this dataloader for simplicity?

Okay, will do it in the end of this week. thank you

holylovenia · 2024-05-07T08:02:16Z

Okay, will do it in the end of this week. thank you

Thanks @megasiska86! Feel free to ask @akhdanfadh and @jen-santoso if you have any questions or concerns!

holylovenia · 2024-05-13T07:27:30Z

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) by 30 May, so it'd be great if we could wrap up the reviewing and merge this PR before then.

holylovenia · 2024-05-30T04:39:14Z

Hi @megasiska86, I would like to let you know that we plan to finalize the calculation of the open contributions (e.g., dataloader implementations) in 31 hours, so it'd be great if we could wrap up the reviewing and merge this PR before then.

holylovenia · 2024-07-08T06:11:16Z

Hi @megasiska86, thank you for contributing to SEACrowd! I would like to let you know that we are still looking forward to completing this PR (and dataloader issues) and maintaining SEACrowd Data Hub. We hope to enable access to as many standardized dataloaders as possible for SEA datasets. ☺️

Feel free to continue the PR whenever you're available, and if you would like to re-assign this dataloader to someone else, just let us know and we can help. 💪

Thanks again!

cc: @akhdanfadh @jen-santoso

megasiska86 added 3 commits March 18, 2024 13:41

add seacrowd/sea_datasets/mongabay/mongabay.py

8c4ab6d

add seacrowd/sea_datasets/mongabay/README.md

1cccca0

change _SUPOORTED_TASKS

6c1cce8

megasiska86 requested review from MJonibek, SamuelCahyawijaya, danjohnvelasco, gentaiscool, holylovenia, jamesjaya, jensan-1, ljvmiranda921, sabilmakbar, tellarin and yongzx as code owners March 18, 2024 08:34

holylovenia changed the title ~~Mongabay~~ Closes #63 | Create dataloader for MongabayConservation Mar 20, 2024

holylovenia requested review from akhdanfadh and removed request for MJonibek, SamuelCahyawijaya, danjohnvelasco, gentaiscool, holylovenia, jamesjaya, ljvmiranda921, sabilmakbar, tellarin and yongzx March 25, 2024 09:33

holylovenia assigned jensan-1 and akhdanfadh Mar 25, 2024

jensan-1 requested changes Mar 27, 2024

View reviewed changes

akhdanfadh reviewed Mar 28, 2024

View reviewed changes

github-actions Bot added the need-fu-pr label May 2, 2024

github-actions Bot removed the need-fu-pr label May 3, 2024

github-actions Bot added the need-fu-pr label Jun 14, 2024

github-actions Bot removed the need-fu-pr label Jul 9, 2024

github-actions Bot added the need-fu-pr label Jul 23, 2024

	_HOMEPAGE = ""
	_HOMEPAGE = "https://huggingface.co/datasets/Datasaur/mongabay-experiment"

	_LICENSE = "The Unlicense (unlicense)"
	_LICENSE = Licenses.UNLICENSE.value

	from seacrowd.utils.constants import Tasks
	from seacrowd.utils.constants import Tasks, Licenses

Conversation

megasiska86 commented Mar 18, 2024

Checkbox

Uh oh!

jensan-1 left a comment

Choose a reason for hiding this comment

Uh oh!

jensan-1 Mar 27, 2024

Choose a reason for hiding this comment

Uh oh!

jensan-1 Mar 27, 2024

Choose a reason for hiding this comment

Uh oh!

jensan-1 Mar 27, 2024

Choose a reason for hiding this comment

Uh oh!

akhdanfadh commented Mar 28, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

tag-classification test result

sentiment-classification test result

Uh oh!

akhdanfadh left a comment

Choose a reason for hiding this comment

Uh oh!

akhdanfadh Mar 28, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Choose a reason for hiding this comment

Uh oh!

akhdanfadh Mar 28, 2024

Choose a reason for hiding this comment

Uh oh!

holylovenia commented Apr 1, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

megasiska86 commented Apr 3, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

tag-classification test result

sentiment-classification test result

Uh oh!

megasiska86 commented Apr 3, 2024

Uh oh!

holylovenia commented Apr 6, 2024

Uh oh!

holylovenia commented Apr 17, 2024

Uh oh!

holylovenia commented May 2, 2024

Uh oh!

megasiska86 commented May 2, 2024

Uh oh!

holylovenia commented May 7, 2024

Uh oh!

holylovenia commented May 13, 2024 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

holylovenia commented May 30, 2024

Uh oh!

holylovenia commented Jul 8, 2024

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

akhdanfadh commented Mar 28, 2024 •

edited

Loading

akhdanfadh Mar 28, 2024 •

edited

Loading

holylovenia commented Apr 1, 2024 •

edited

Loading

megasiska86 commented Apr 3, 2024 •

edited

Loading

holylovenia commented May 13, 2024 •

edited

Loading