Giter Site home page Giter Site logo

Data Quality Issue about flan HOT 2 CLOSED

google-research avatar google-research commented on August 15, 2024
Data Quality Issue

from flan.

Comments (2)

shayne-longpre avatar shayne-longpre commented on August 15, 2024

@feiyu87yeah: Let me look into this.

The Natural Instructions v2 submixture compiles a very wide range of tasks, a few of which are language translation/identification, and cover tens of languages. It looks like some of these may have encoding issues. This comprises a small minority of examples in the overall mixture, but thank you for bringing it to our attention -- I'll take a look.

from flan.

lehougoogle avatar lehougoogle commented on August 15, 2024

There are likely problems in niv2_zs_noopt_train.jsonl.gz

I do not know where the problem is. Might be from the FLAN v2 codebase, or from how way niv2_zs_noopt_train.jsonl.gz is prepared.

For this particular case, what I see on my side has the right language.

The raw string is:
"Statement: \u0d08\u0d38\u0d4d\u0d31\u0d4d\u0d31\u0d47\u0d7a \u0d15\u0d3e\u0d31\u0d4d\u0d31\u0d3f\u0d7d \u0d08\u0d17\u0d4d\u0d30\u0d31\u0d4d\u0d31\u0d4d (B. i. coromandus) - 1783 - \u0d7d \u0d2a\u0d40\u0d31\u0d4d\u0d31\u0d7c \u0d2c\u0d4a\u0d21\u0d47\u0d7c\u0d1f\u0d4d\u0d1f\u0d4d \u0d06\u0d23\u0d4d \u0d06\u0d26\u0d4d\u0d2f\u0d2e\u0d3e\u0d2f\u0d3f \u0d35\u0d3f\u0d35\u0d30\u0d23\u0d02 \u0d28\u0d32\u0d4d\u0d15\u0d3f\u0d2f\u0d24\u0d4d. \u0d0f\u0d37\u0d4d\u0d2f\u0d2f\u0d3f\u0d32\u0d46\u0d2f\u0d41\u0d02 \u0d06\u0d2b\u0d4d\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d2f\u0d3f\u0d32\u0d46\u0d2f\u0d41\u0d02 \u0d38\u0d19\u0d4d\u0d15\u0d30\u0d35\u0d7c\u0d17\u0d4d\u0d17\u0d02 \u0d06\u0d23\u0d4d. \u0d24\u0d46\u0d15\u0d4d\u0d15\u0d41\u0d15\u0d3f\u0d34\u0d15\u0d4d\u0d15\u0d7b \u0d0f\u0d37\u0d4d\u0d2f\u0d2f\u0d3f\u0d7d \u0d28\u0d3f\u0d28\u0d4d\u0d28\u0d4d , \u0d1c\u0d2a\u0d4d\u0d2a\u0d3e\u0d28\u0d3f\u0d32\u0d47\u0d2f\u0d4d\u0d15\u0d4d\u0d15\u0d41\u0d02 \u0d38\u0d1e\u0d4d\u0d1a\u0d30\u0d3f\u0d15\u0d4d\u0d15\u0d41\u0d28\u0d4d\u0d28\u0d41. \u0d06\u0d38\u0d4d\u0d1f\u0d4d\u0d30\u0d47\u0d32\u0d3f\u0d2f\u0d2f\u0d3f\u0d32\u0d47\u0d2f\u0d4d\u0d15\u0d4d\u0d15\u0d41\u0d02, \u0d28\u0d4d\u0d2f\u0d42\u0d38\u0d4d \u0d32\u0d3e\u0d28\u0d4d\u0d31\u0d3f\u0d32\u0d47\u0d2f\u0d4d\u0d15\u0d4d\u0d15\u0d41\u0d02 \u0d2d\u0d3e\u0d17\u0d3f\u0d15\u0d2e\u0d3e\u0d2f\u0d3f \u0d26\u0d47\u0d36\u0d3e\u0d1f\u0d28\u0d02 \u0d28\u0d1f\u0d24\u0d4d\u0d24\u0d41\u0d28\u0d4d\u0d28\u0d41.\n\n Option A: \u0d06\u0d38\u0d4d\u0d1f\u0d4d\u0d30\u0d47\u0d32\u0d3f\u0d2f\u0d2f\u0d3f\u0d32\u0d46\n\n Option B: \u0d2a\u0d3e\u0d15\u0d3f\u0d38\u0d4d\u0d24\u0d3e\u0d28\u0d3f\u0d32\u0d47\u0d2f\u0d4d\u0d15\u0d4d\u0d15\u0d41\u0d02\n\n Option C: \u0d15\u0d4b\u0d2e\u0d4b\u0d31\u0d4b\u0d38\u0d4d\n\n Option D: \u0d05\u0d7c\u0d1c\u0d28\u0d4d\u0d31\u0d40\u0d28\u0d2f\u0d3f\u0d32\u0d41\u0d02"

If printing it out:
Statement: ഈസ്റ്റേൺ കാറ്റിൽ ഈഗ്രറ്റ് (B. i. coromandus) - 1783 - ൽ പീറ്റർ ബൊഡേർട്ട് ആണ് ആദ്യമായി വിവരണം നല്കിയത്. ഏഷ്യയിലെയും ആഫ്രിക്കയിലെയും സങ്കരവർഗ്ഗം ആണ്. തെക്കുകിഴക്കൻ ഏഷ്യയിൽ നിന്ന് , ജപ്പാനിലേയ്ക്കും സഞ്ചരിക്കുന്നു. ആസ്ട്രേലിയയിലേയ്ക്കും, ന്യൂസ് ലാന്റിലേയ്ക്കും ഭാഗികമായി ദേശാടനം നടത്തുന്നു.

Option A: ആസ്ട്രേലിയയിലെ

Option B: പാകിസ്താനിലേയ്ക്കും

Option C: കോമോറോസ്

Option D: അർജന്റീനയിലും

from flan.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.