Matadisco – Khám phá dữ liệu phi tập trung
Matadisco – Decentralized Data Discovery
Matadisco là một mạng lưới mở, phi tập trung mới, xây dựng trên AT Protocol, chuyên về việc khám phá các bộ dữ liệu (datasets). Nó giải quyết vấn đề các cổng dữ liệu bị cô lập (siloed data portals) bằng cách cho phép bất kỳ ai cũng có thể đăng tải siêu dữ liệu (metadata) về bất kỳ bộ dữ liệu nào, giúp người khác dễ dàng tìm thấy. Các developer có thể tận dụng Matadisco bằng cách xây dựng các "producer" để lập chỉ mục (index) các nguồn dữ liệu hiện có và các "consumer" để tạo ra các cổng dữ liệu do cộng đồng quản lý, tất cả đều với lượng code tối thiểu. Điểm mấu chốt là nó tách biệt việc khám phá dữ liệu khỏi việc lưu trữ, cho phép khả năng tương tác (interoperability) và sự đóng góp của cộng đồng để quản lý các bộ dữ liệu khổng lồ, trước đây khó tiếp cận.
Một mạng mở, phi tập trung để khám phá dữ liệu. Xuất bản siêu dữ liệu về bất kỳ tập dữ liệu nào lên Giao thức AT. Xây dựng cổng thông tin cộng đồng. Tìm những gì quan trọng. Dữ liệu mở chỉ hữu ích khi...
Một mạng mở, phi tập trung để khám phá dữ liệu. Xuất bản siêu dữ liệu về bất kỳ tập dữ liệu nào lên AT Protocol. Xây dựng cổng thông tin cộng đồng. Tìm những gì quan trọng.
Dữ liệu mở chỉ hữu ích khi nó có thể được khám phá
Hàng petabyte hình ảnh vệ tinh, mô hình khí hậu và trình tự bộ gen nằm trong các kho lưu trữ công cộng — tuy nhiên, việc tìm ra dữ liệu đúng đồng nghĩa với việc điều hướng hàng chục cổng riêng biệt, mỗi cổng có giao diện, API và điểm mù khác nhau.
Nếu bạn tạo một tập dữ liệu phái sinh hoặc dọn sạch một tập dữ liệu hiện có thì thường không có cách nào để có thể tìm thấy nó. Cổng thông tin chính phủ quyết định những gì được xuất bản. Bộ tổng hợp được tập trung. Đóng góp của cộng đồng bị mất.
Matadisco hoạt động như thế nào
Matadisco tách biệt việc khám phá dữ liệu với việc lưu trữ dữ liệu. Ba phần phối hợp với nhau:
Giao thức AT
Matadisco được xây dựng trên Giao thức AT, một giao thức xã hội mở. Mọi bản ghi đều được ký bằng mật mã. Không một thực thể duy nhất nào kiểm soát mạng và tất cả các thành phần đều là nguồn mở và có thể tự lưu trữ.
Nhà sản xuất
Ghi bản ghi Matadisco vào PDS (Máy chủ dữ liệu cá nhân). Bản ghi là một con trỏ nhẹ tới siêu dữ liệu — một liên kết, bản xem trước tùy chọn và dấu thời gian — để lược đồ hoạt động với mọi tiêu chuẩn siêu dữ liệu: STAC, DataCite, IIIF, RSS, v.v. Nhà sản xuất thường xem danh mục hoặc nguồn dữ liệu hiện có và tự động xuất bản các bản ghi.
Người tiêu dùng
Đọc các bản ghi từ mạng thông qua PDS hoặc Jetstream, lọc những gì có liên quan và hiển thị chúng dưới dạng cổng thông tin dựa trên web cho người dùng. Cổng hình ảnh vệ tinh, trung tâm dữ liệu khoa học, kho lưu trữ di sản văn hóa — mỗi cổng được xây dựng bằng khoảng 100 dòng mã.
Lược đồ
Bản ghi Matadisco được xác định là ATProto Lexicon. Trong cú pháp MLF:
cx.vmx.matadisco
/// Một bản ghi Matadisco
kỷ lục matadisco {
/// Thời điểm siêu dữ liệu/dữ liệu gốc được xuất bản
đã xuất bảnAt!: Ngày giờ,
/// URI liên kết đến tài nguyên chứa siêu dữ liệu
tài nguyên!: Uri,
/// Xem trước dữ liệu
xem trước: {
/// Loại phương tiện mà bản xem trước có
mimeType!: chuỗi,
/// URL tới bản xem trước
url: Uri,
},
Chỉ cần có resource và publishdAt. Bản xem trước là tùy chọn — đối với hình ảnh vệ tinh, đó là hình thu nhỏ, đối với bài viết là bản tóm tắt, đối với podcast là đoạn âm thanh.
Xem nó hoạt động
matadisco-viewer truyền phát các bản ghi ATProto mới trong thời gian thực và hiển thị chúng. Hiện đang hiển thị hình ảnh vệ tinh Copernicus Sentinel-2:
Nhà sản xuất & Người tiêu dùng
Nhà sản xuất ghi hồ sơ vào mạng; người tiêu dùng đọc và hiển thị chúng. Nguyên mẫu thể hiện cả hai vai trò:
- sentinel-to-atproto (nhà sản xuất) — nghe Danh mục STAC Tìm kiếm Trái đất của Element 84 cho hình ảnh Sentinel-2 mới và ghi bản ghi vào PDS.
- gdi-de-csw-to-atproto (nhà sản xuất) — nhập siêu dữ liệu từ Danh mục dữ liệu địa lý của Đức (GDI-DE) qua CSW và xuất bản các bản ghi lên ATProto.
- matadisco-viewer (người tiêu dùng) — đăng ký Bluesky Jetstream chuyển tiếp hoặc đọc từ PDS, lọc các bản ghi Matadisco và hiển thị chúng dưới dạng một cổng có các bản xem trước.
- matadisco-geo-viewer (người tiêu dùng) — một trình xem chuyên dùng cho các bản ghi siêu dữ liệu không gian địa lý có hỗ trợ siêu dữ liệu STAC, hiển thị các bản xem trước không gian trên bản đồ. Hỗ trợ tiêu thụ từ cả Jetstream và PDS.
Vì các hồ sơ lưu chuyển qua mạng mở nên các tổ chức quản lý danh mục của họ một cách độc lập trong khi tham gia khám phá chung.
Nghệ thuật & ảnh hưởng trước đó
- FROST của Tom Nicholas - Cơ quan đăng ký liên bang về các vấn đề khoa học. bài luận tạo động lực của ông về lý do tại sao khoa học cần mạng xã hội để lưu trữ dữ liệu là điểm khởi đầu tuyệt vời.
- Edward Silverton khám phá của ATProto dành cho dữ liệu IIIF và GLAM.
- Các cuộc thảo luận của cộng đồng về siêu dữ liệu dành cho nội dung dạng dài và khả năng khám phá trên nhiều nền tảng.
Bắt đầu
Matadisco mang tính thử nghiệm - mọi thứ có thể bị hỏng hoặc thay đổi. Điều đó cũng có nghĩa là có chỗ để định hình nó. Đây là cách để tham gia:
Tiếp theo là gì
- Các nguồn dựa trên hình ảnh như bộ sưu tập GLAM sử dụng IIIF
- Nguồn không phải hình ảnh — podcast, tập dữ liệu nghiên cứu, ấn phẩm
- Sự phát triển của lược đồ được thông báo bằng cách sử dụng trong thế giới thực trên các miền khác nhau
Xuất bản các bản ghi trong không gian tên của riêng bạn, xây dựng cổng thông tin cho cộng đồng của bạn hoặc đề xuất các thay đổi đối với lược đồ. Chúng tôi rất mong nhận được ý kiến từ bất kỳ ai làm việc về dữ liệu mở, tiêu chuẩn siêu dữ liệu hoặc cơ sở hạ tầng khoa học.
Tác giả: biggestfan