Data Science·Hacker News·0 lượt xem

Matadisco – Khám phá dữ liệu phi tập trung

Matadisco – Decentralized Data Discovery

AI Summary

Matadisco là một mạng lưới mở, phi tập trung mới, xây dựng trên AT Protocol, chuyên về việc khám phá các bộ dữ liệu (datasets). Nó giải quyết vấn đề các cổng dữ liệu bị cô lập (siloed data portals) bằng cách cho phép bất kỳ ai cũng có thể đăng tải siêu dữ liệu (metadata) về bất kỳ bộ dữ liệu nào, giúp người khác dễ dàng tìm thấy. Các developer có thể tận dụng Matadisco bằng cách xây dựng các "producer" để lập chỉ mục (index) các nguồn dữ liệu hiện có và các "consumer" để tạo ra các cổng dữ liệu do cộng đồng quản lý, tất cả đều với lượng code tối thiểu. Điểm mấu chốt là nó tách biệt việc khám phá dữ liệu khỏi việc lưu trữ, cho phép khả năng tương tác (interoperability) và sự đóng góp của cộng đồng để quản lý các bộ dữ liệu khổng lồ, trước đây khó tiếp cận.

Một mạng mở, phi tập trung để khám phá dữ liệu. Xuất bản siêu dữ liệu về bất kỳ tập dữ liệu nào lên Giao thức AT. Xây dựng cổng thông tin cộng đồng. Tìm những gì quan trọng. Dữ liệu mở chỉ hữu ích khi...

Một mạng mở, phi tập trung để khám phá dữ liệu. Xuất bản siêu dữ liệu về bất kỳ tập dữ liệu nào lên AT Protocol. Xây dựng cổng thông tin cộng đồng. Tìm những gì quan trọng.

Dữ liệu mở chỉ hữu ích khi nó có thể được khám phá

Hàng petabyte hình ảnh vệ tinh, mô hình khí hậu và trình tự bộ gen nằm trong các kho lưu trữ công cộng — tuy nhiên, việc tìm ra dữ liệu đúng đồng nghĩa với việc điều hướng hàng chục cổng riêng biệt, mỗi cổng có giao diện, API và điểm mù khác nhau.

Nếu bạn tạo một tập dữ liệu phái sinh hoặc dọn sạch một tập dữ liệu hiện có thì thường không có cách nào để có thể tìm thấy nó. Cổng thông tin chính phủ quyết định những gì được xuất bản. Bộ tổng hợp được tập trung. Đóng góp của cộng đồng bị mất.

Matadisco hoạt động như thế nào

Matadisco tách biệt việc khám phá dữ liệu với việc lưu trữ dữ liệu. Ba phần phối hợp với nhau:

Giao thức AT

Matadisco được xây dựng trên Giao thức AT, một giao thức xã hội mở. Mọi bản ghi đều được ký bằng mật mã. Không một thực thể duy nhất nào kiểm soát mạng và tất cả các thành phần đều là nguồn mở và có thể tự lưu trữ.

Nhà sản xuất

Ghi bản ghi Matadisco vào PDS (Máy chủ dữ liệu cá nhân). Bản ghi là một con trỏ nhẹ tới siêu dữ liệu — một liên kết, bản xem trước tùy chọn và dấu thời gian — để lược đồ hoạt động với mọi tiêu chuẩn siêu dữ liệu: STAC, DataCite, IIIF, RSS, v.v. Nhà sản xuất thường xem danh mục hoặc nguồn dữ liệu hiện có và tự động xuất bản các bản ghi.

Người tiêu dùng

Đọc các bản ghi từ mạng thông qua PDS hoặc Jetstream, lọc những gì có liên quan và hiển thị chúng dưới dạng cổng thông tin dựa trên web cho người dùng. Cổng hình ảnh vệ tinh, trung tâm dữ liệu khoa học, kho lưu trữ di sản văn hóa — mỗi cổng được xây dựng bằng khoảng 100 dòng mã.

Lược đồ

Bản ghi Matadisco được xác định là ATProto Lexicon. Trong cú pháp MLF:

cx.vmx.matadisco

/// Một bản ghi Matadisco
kỷ lục matadisco {
    /// Thời điểm siêu dữ liệu/dữ liệu gốc được xuất bản
    đã xuất bảnAt!: Ngày giờ,
    /// URI liên kết đến tài nguyên chứa siêu dữ liệu
    tài nguyên!: Uri,
     /// Xem trước dữ liệu
    xem trước: {
        /// Loại phương tiện mà bản xem trước có
        mimeType!: chuỗi,
        /// URL tới bản xem trước
        url: Uri,
    },

Chỉ cần có resourcepublishdAt. Bản xem trước là tùy chọn — đối với hình ảnh vệ tinh, đó là hình thu nhỏ, đối với bài viết là bản tóm tắt, đối với podcast là đoạn âm thanh.

Duyệt bản ghi · Xem từ vựng đã xuất bản

Xem nó hoạt động

matadisco-viewer truyền phát các bản ghi ATProto mới trong thời gian thực và hiển thị chúng. Hiện đang hiển thị hình ảnh vệ tinh Copernicus Sentinel-2:

Xem trước hình ảnh vệ tinh Sentinel-2 từ trình xem Matadisco
Cảnh Sentinel-2 L2A · siêu dữ liệu · độ phân giải đầy đủ (253 MiB)

Nhà sản xuất & Người tiêu dùng

Nhà sản xuất ghi hồ sơ vào mạng; người tiêu dùng đọc và hiển thị chúng. Nguyên mẫu thể hiện cả hai vai trò:

Vì các hồ sơ lưu chuyển qua mạng mở nên các tổ chức quản lý danh mục của họ một cách độc lập trong khi tham gia khám phá chung.

Nghệ thuật & ảnh hưởng trước đó

Bắt đầu

Matadisco mang tính thử nghiệm - mọi thứ có thể bị hỏng hoặc thay đổi. Điều đó cũng có nghĩa là có chỗ để định hình nó. Đây là cách để tham gia:

Tiếp theo là gì

  • Các nguồn dựa trên hình ảnh như bộ sưu tập GLAM sử dụng IIIF
  • Nguồn không phải hình ảnh — podcast, tập dữ liệu nghiên cứu, ấn phẩm
  • Sự phát triển của lược đồ được thông báo bằng cách sử dụng trong thế giới thực trên các miền khác nhau

Xuất bản các bản ghi trong không gian tên của riêng bạn, xây dựng cổng thông tin cho cộng đồng của bạn hoặc đề xuất các thay đổi đối với lược đồ. Chúng tôi rất mong nhận được ý kiến ​​từ bất kỳ ai làm việc về dữ liệu mở, tiêu chuẩn siêu dữ liệu hoặc cơ sở hạ tầng khoa học.

Tác giả: biggestfan

#discussion