دیتاست ها

در این بخش هم دیتاست های(dataset) مختلفی که در زمینه یادگیری عمیق(deep learning) میتونید استفاده کنید‌ رو میبینید.

دیتاست هایی که بولد (توپر- پررنگ)!‌ کردم از دیتاست های خیلی مهم و کاربردی هستن که مشخصا تو حوزه کامپیوتر ویژن (بینایی کامیپوتر) ازشون استفاده میشه .من تو بقیه زمینه ها کار نکردم ولی دیتاست های مختلف رو قرار میدم .تو زمینه هایی که کار کردم یا اطلاعات دارم سعی میکنم بیشتر توضیح بدم (اونایی که بولد شدن رو بعدا انشاالله بصورت اختصاصی توضیح میدم.)

قبل از هر چیزی این پست در مورد بهشت دیتاست ها رو حتما بخونید

دیتاستها

مخزن های بزرگ

دیتاست تصاویر طبیعی

MNIST: دیتاست ارقام دست نویس انگلیسی (خیلی معروف و پرکاربرد)
دیتاست هدا: دیتاست ارقام دست نویس فارسی (۶۰ هزار تصویر)
NIST: مثل MNIST‌ اما بزرگتر.
Perturbed NIST: دیتاستی که در کلاس Yoshua ایجاد شد (همون دیتاست NIST‌هست به اضافه مقدار زیادی deformation یا تغییر شکل (یعنی تصاویر همون دیتاست رو با تغییرات مختلف ذخیره کرده و دیتاست بزرگتری رو ایجاد کرد)
CIFAR10 / CIFAR100: این دوتا دیتاست در اصل یکی هستند و تفاوت اونها در تعداد دسته های اونهاست. این دیتاست شامل تصاویر رنگی با اندازه ۳۲*۳۲ هست و شامل ۶۰ هزار تصویر میشه.
Caltech 101: دیتاستی شامل تصاویری از اشیاء در ۱۰۰ دسته مختلف ()
Caltech 256: این دیتاست هم شامل تصاویری از اشیاء مختلف در ۲۵۶ دسته هست
Caltech Silhouettes: این دیتاست همونطو رکه از اسمش مشخصه حاوی تصاویر دودویی شده دیتاست Caltech 101 با اندازه ۲۸*۲۸ هست
STL-10 :این دیتاست هم مثل CIFAR10 برای استفاده در زمینه های unsupervised feature learning,deep learning, self taught learning مورد استفاده قرار میگیره ,فرقش با CIFAR10‌در اینه که تغییرات (modification های) بیشتری داره.)
The Street View House Numbers (SVHN) Dataset:‌ این دیتاست هم شماره پلاک خونه ها هست.
NORB: تصاویر گرفته شده با دوربین از اسباب بازیها تحت حالتها و شدت نورهای مختلف .( منظورم اینجور تصاویر هست کلیک کنید تا یه نمونه رو ببینید)
Imagenet: ایمیج نت در اصل اسم یک رقابت تو حوزه تشخیص تصاویر هست که دیتاست های مختلفی داره . هر سال هم برگزار میشه و در اصل تو رقابت سال ۲۰۱۲ اون بود که الکس کریژوسکی و جف هینتون تونستن با دیپ لرنینگ و استفاده از شبکه کانولوشن مقام اول رو بدست بیارن و دیپ لرنینگ اینطور متولد بشه !.در حال حاضر معروف ترین و پر استفاده ترین دیتاست تصاویر طبیعی که بیش از یک میلیون تصویر در ۱۰۰۰ دسته داره و اندازه تصاویر ۲۲۷ در ۲۲۷ شروع میشه مربوط به دیتاست سال ۲۰۱۲ اون هست. انواع مختلفی از دیتاستهاهست که از نظر حجمی و تعداد و… متفاوت هستند. حجم این دیتاست (سال ۲۰۱۲ ) بیش از ۱۵۰ گیگابایت هست. ورژن ۲۰۱۵ اون هم با احتساب همه زمینه ها بیش از ۱ ترابایت هست.(بعدا در این مورد بیشتر توضیح میدم)
Pascal VOC: این هم مثل ایمیج نت یه رقابت تو حوزه کامپیوتر ویژن هست که دیتاست های مختلفی داره.
Labelme: یه دیتاست بزرگ از تصاویر حاشیه نویسی شده (اصطلاحا میگن annotated images که خیلی کاربردی هست(توضیحات بعدا!))
COIL 20: اشیاء مختلف در ۲۰ دسته که در تمامی زوایا۳۶۰ درجه عکس برداری شده ازشون
COIL100: مثل بالایی با این تفاوت که اینجا ۱۰۰ دسته وجود داره

دیتاست های مصنوعی (بصورت مصنوعی ایجاد میشن)

Arcade Universe – یه جنریتور (تولید کننده ) دیتاست مصنوعی هست که با استفاده از تصاویر شامل sprite‌های بازی هایی مثل تتریس پنتومینو و تترومینو تصویر جدید تولید میکنه. این جنریتور بر اساس نمونه ایجاد شده توسط o.Breleux بنام bugland ‌ایجاد شده.
در زیر هم مجموعه ای از دیتاست هایی که با ایده از BabyAISchool ایجاد شدند میبینید :‌
- BabyAIShapesDatasets : تمایز بین سه شکل ساده
- BabyAIImageAndQuestionDatasets :یه دیتاست سوال-تصویر-جواب
(DeepVsShallowComparisonICML2007) : دیتاست هایی که منحصرا برای ارزیابی معماری های عمیق ایجاد شدند:
- MnistVariations : این دیتاست شامل تغییرات کنترل شده در دیتاستMNIST هست
- RectanglesData : تمایز بین مستطیل های عریض و بلند
- ConvexNonConvex :تمایز بین اشکال convex و غیر convex ( همون اشکال کاسه شکل(محدب) و غیر کاسه شکل(غیرمحدب!)!)
- BackgroundCorrelation : دیتاست شامل درجه کنترل شده ارتباط (correlation‌)در پس زمینه های نویزی MNIST‌ هست.

دیتاست های تصاویر صورت

Labelled Faces in the Wild: یکی از دیتاست های پرکاربرد که شامل ۱۳ هزار تصویر از افراد مختلف هست که از اینترنت (وب) جمع آوری شده و با نام هر فرد برچسب گذاری شده
Toronto Face Dataset :دیتاست تصاویر صورت دانشگاه تورونتو
Olivetti: تعدادی تصویر از افراد مختلف
Multi-Pie: دیتابیس صورت مالتی پای یا The CMU Multi-PIE Face Database
Face-in-Action
JACFEE: تصاویر صورت افراد ژاپنی و قفقازی به همراه حالات مختلف احساسی
FERET: دیتابیس فناوری تشخیص صورت یا همون The Facial Recognition Technology Database
mmifacedb: دیتابیس حالات صورت MMI ‌یا همون MMI Facial Expression Database
IndianFaceDatabase: دیتابیس از تصاویر صورت افراد هندی !
Yale Face Database و Yale Face Database B

متن

۲۰ newsgroups: عمل دسته بندی,‌ نگاشت تکرر کلمات به شناسه newsgroup
Reuters (RCV*) Corpuses: پیش بینی متن/موضوع یا text/topic prediction
Penn Treebank : برای پیش بینی کلمه یا کاراکتر بعدی مورد استفاده قرار میگیره.
Broadcast News:یه دیتاست بزرگ متنی که بطور کلاسیک برای پیش بینی کلمه بعدی مورد استفاده قرار میگیرفت.
دیتاست ویکی پیدیا!
Multidomain sentiment analysis dataset:دیتاست تحلیل نیت چند دامنه ای

صدا

TIMIT Speech Corpus: دسته بندی واج ها (اصوات) یا همون phoneme classification
Aurora : تیممیت (Timit) به همراه نویز و اطلاعات اضافی

Symbolic Music Datasets

Piano-midi.de: قطعات کلاسیک پیانو
Nottingham : بیش از هزار فولک تون
MuseData: کتابخانه الکترونیکی از امتیازات موسیقی کلاسیک
JSB Chorales: مجموعه ای از کورالزهای ۴ بخشی هارمونیک

Recommendation Systems

MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
Jester: این دیتاست شامل ۴٫۱ میلیون رتبه بندی پیوسته (از -۱۰٫۰۰ تا +۱۰٫۰۰ ) از ۱۰۰تا جوک هست که توسط ۷۳۴۲۱ کاربر داده شده .
Netflix Prize: نت فلیکس یک ورژن از دیتاست رتبه بندی فیلمهاش رو ارايه کرده که شامل ۱۰۰ میلیون رتبه بندی هست که توسط ۴۸۰ هزار کاربر انجام شده که بین ۱ تا تمام ۱۷۷۷۰ فیلم را رتبه بندی کردند.
Book-Crossing dataset: این دیتاست از انجمن Book-Crossing هست که شامل ۲۷۸۸۵۸ کاربره که ۱۱۴۹۷۸۰ امتیاز رو در مورد ۲۷۱۳۷۹ کتاب دادند .

متفرقه

دیتاست Musk
CMU دیتابیس Motion capture هست !
Brodatz dataset: یه دیتاست برای texture modeling هست!
Million Song dataset: یک دیتاست شامل ۱ میلیون آهنگ!
Merck Molecular Activity رقابت فعالیت مولکولی مرک!
دیتاست های مختلف در زمینه Sentiment analysis

دیتاست های پزشکی

نکته : اگر دیتاستی رو اینجا پیدا نکردید ازمخازن دیتاست که در بالا لینکشون قرار داده شده استفاده کنید.

Pulmonary hypertension Datasets : این سایت دارای دسته های مختلف برای انواع مختلفی از سرطان هاست (هم انسان و هم حیوان و…) و دیتاست بسیار بزرگی رو شامل میشه (بیش از هزاران نمونه )
Visual Concept Extraction Challenge in Radiology ا(VISCERAL) :تصاویر رادیولوژی از ساختارهای آناتومیکال (مثل ششها ،کلیه ها و… ) به فرمتهای مختلف (CT یا MR ) که بصورت دستی حاشیه نویسی شده اند.
The Cancer Imaging Archive: دیتاست های مختلف از انواع سرطان ها (سرطان شش ، myeloma، carcinoma و…) با فرمت های مختلف
Grand Challenges in Biomedical Image Analysis: مجموعه ای از رقابتهای بیومدیکال که به منظور تسهیل قیاس بین راه حل ها و روشهای موجود و جدید ایجاد شده . در حال حاضر (زمان نگارش این مطلب) ۹۲ رقابت وجود دراه . هر رقابت دارای دیتاست خاص خود میباشد.
The Lung Image Database Consortium : مجموعه تصاویر (LIDC-IDRI )که . یک مجموعه از تصاویر سی تی اسکن از سرطان شش با ضایعات (lesions)حاشیه نویسی شده
Kaggle diabetic retinopathy. تصاویر شبکیه چشم (retinal ) با کیفیت بالا که به منظور تشخیص retinopathy دیابتی مورد استفاده قرار میگیرند و از مقیاس شدت ۰ تا ۴ توسط تکنسین ها حاشیه نویسی شده اند.
International Symposium on Biomedical Imaging :ا(۲۰۱۵) رقابت بزرگ بین المللی که دارای دیتاست های خاص خود هستند.
Multiple sclerosis lesion segmentation : مجموعه ای از تصاویر MRI مغز برای تشخیص ضایعات مربوط به بیماری ام اس (MS lesions ).
Multimodal Brain Tumor Segmentation Challenge: ا (BRATS)دیتاست بزرگی از اسکنهای رزونانس مغناطیسی تومور مغزی ( brain tumor magnetic resonance scan) این دیتاست از سال ۲۰۱۲ در حال گسترش هست (هر ساله!)
Coding4Cancer: تصاویر ماموگرافی دیجیتا و تشخیص سرطان شش

دیتاست های متفرقه (بدون ترتیب )

مجموعه ای از آدرس سایت های دیتابیس و دیتاست :(از گروه تلگرام دیپ لرنینگ (لینک در بخش منابع یادگیری اومده))

بخش دوم (نا مرتب)

Google House Numbers from street view
CIFAR-10 and CIFAR-100
IMAGENET
Tiny Images 80 Million tiny images6.
Flickr Data 100 Million Yahoo dataset
Berkeley Segmentation Dataset 500
UC Irvine Machine Learning Repository
Flickr 8k
Flickr 30k
Microsoft COCO
VQA
Image QA
AT&T Laboratories Cambridge face database
AVHRR Pathfinder
Air Freight – The Air Freight data set is a ray-traced image sequence along with ground truth segmentation based on textural characteristics. (455 images + GT, each 160×120 pixels). (Formats: PNG)
Amsterdam Library of Object Images – ALOI is a color image collection of one-thousand small objects, recorded for scientific purposes. In order to capture the sensory variation in object recordings, we systematically varied viewing angle, illumination angle, and illumination color for each object, and additionally captured wide-baseline stereo images. We recorded over a hundred images of each object, yielding a total of 110,250 images for the collection. (Formats: png)
Annotated face, hand, cardiac & meat images – Most images & annotations are supplemented by various ASM/AAM analyses using the AAM-API. (Formats: bmp,asf)
Image Analysis and Computer Graphics
Brown University Stimuli – A variety of datasets including geons, objects, and “greebles”. Good for testing recognition algorithms. (Formats: pict)
CAVIAR video sequences of mall and public space behavior – 90K video frames in 90 sequences of various human activities, with XML ground truth of detection and behavior classification (Formats: MPEG2 & JPEG)
Machine Vision Unit
CCITT Fax standard images – 8 images (Formats: gif)
CMU CIL’s Stereo Data with Ground Truth – 3 sets of 11 images, including color tiff images with spectroradiometry (Formats: gif, tiff)
CMU PIE Database – A database of 41,368 face images of 68 people captured under 13 poses, 43 illuminations conditions, and with 4 different expressions.
CMU VASC Image Database – Images, sequences, stereo pairs (thousands of images) (Formats: Sun Rasterimage)
Caltech Image Database – about 20 images – mostly top-down views of small objects and toys. (Formats: GIF)
Columbia-Utrecht Reflectance and Texture Database – Texture and reflectance measurements for over 60 samples of 3D texture, observed with over 200 different combinations of viewing and illumination directions. (Formats: bmp)
Computational Colour Constancy Data – A dataset oriented towards computational color constancy, but useful for computer vision in general. It includes synthetic data, camera sensor data, and over 700 images. (Formats: tiff)
Computational Vision Lab
Content-based image retrieval database – 11 sets of color images for testing algorithms for content-based retrieval. Most sets have a description file with names of objects in each image. (Formats: jpg)
Efficient Content-based Retrieval Group
Densely Sampled View Spheres – Densely sampled view spheres – upper half of the view sphere of two toy objects with 2500 images each. (Formats: tiff)
Computer Science VII (Graphical Systems)
Digital Embryos – Digital embryos are novel objects which may be used to develop and test object recognition systems. They have an organic appearance. (Formats: various formats are available on request)
Univerity of Minnesota Vision Lab
El Salvador Atlas of Gastrointestinal VideoEndoscopy – Images and Videos of his-res of studies taken from Gastrointestinal Video endoscopy. (Formats: jpg, mpg, gif)
FG-NET Facial Aging Database – Database contains 1002 face images showing subjects at different ages. (Formats: jpg)
FVC2000 Fingerprint Databases – FVC2000 is the First International Competition for Fingerprint Verification Algorithms. Four fingerprint databases constitute the FVC2000 benchmark (3520 fingerprints in all).
Biometric Systems Lab – University of Bologna
Face and Gesture images and image sequences – Several image datasets of faces and gestures that are ground truth annotated for benchmarking
German Fingerspelling Database – The database contains 35 gestures and consists of 1400 image sequences that contain gestures of 20 different persons recorded under non-uniform daylight lighting conditions. (Formats: mpg,jpg)
Language Processing and Pattern Recognition
Groningen Natural Image Database – 4000+ 1536×1024 (16 bit) calibrated outdoor images (Formats: homebrew)
ICG Testhouse sequence – 2 turntable sequences from ifferent viewing heights, 36 images each, resolution 1000×750, color (Formats: PPM)
Institute of Computer Graphics and Vision
IEN Image Library – 1000+ images, mostly outdoor sequences (Formats: raw, ppm)
INRIA’s Syntim images database – 15 color image of simple objects (Formats: gif)
INRIA
INRIA’s Syntim stereo databases – 34 calibrated color stereo pairs (Formats: gif)
Image Analysis Laboratory – Images obtained from a variety of imaging modalities — raw CFA images, range images and a host of “medical images”. (Formats: homebrew)
Image Analysis Laboratory
Image Database – An image database including some textures
JAFFE Facial Expression Image Database – The JAFFE database consists of 213 images of Japanese female subjects posing 6 basic facial expressions as well as a neutral pose. Ratings on emotion adjectives are also available, free of charge, for research purposes. (Formats: TIFF Grayscale images.)
ATR Research, Kyoto, Japan
JISCT Stereo Evaluation – 44 image pairs. These data have been used in an evaluation of stereo analysis, as described in the April 1993 ARPA Image Understanding Workshop paper The JISCT Stereo Evaluation” by R.C.Bolles, H.H.Baker, and M.J.Hannah, 263–274 (Formats: SSI)
MIT Vision Texture – Image archive (100+ images) (Formats: ppm)
MIT face images and more – hundreds of images (Formats: homebrew)
Machine Vision – Images from the textbook by Jain, Kasturi, Schunck (20+ images) (Formats: GIF TIFF)
Mammography Image Databases – 100 or more images of mammograms with ground truth. Additional images available by request, and links to several other mammography databases are provided. (Formats: homebrew)
ftp://ftp.cps.msu.edu/pub/prip – many images (Formats: unknown)
Middlebury Stereo Data Sets with Ground Truth – Six multi-frame stereo data sets of scenes containing planar regions. Each data set contains 9 color images and subpixel-accuracy ground-truth data. (Formats: ppm)
Middlebury Stereo Vision Research Page – Middlebury College
Modis Airborne simulator, Gallery and data set – High Altitude Imagery from around the world for environmental modeling in support of NASA EOS program (Formats: JPG and HDF)
NIST Fingerprint and handwriting – datasets – thousands of images (Formats: unknown)
NIST Fingerprint data – compressed multipart uuencoded tar file
NLM HyperDoc Visible Human Project – Color, CAT and MRI image samples – over 30 images (Formats: jpeg)
National Design Repository – Over 55,000 3D CAD and solid models of (mostly) mechanical/machined engineerign designs. (Formats: gif,vrml,wrl,stp,sat)
Geometric & Intelligent Computing Laboratory
OSU (MSU) 3D Object Model Database – several sets of 3D object models collected over several years to use in object recognition research (Formats: homebrew, vrml)
OSU (MSU/WSU) Range Image Database – Hundreds of real and synthetic images (Formats: gif, homebrew)
OSU/SAMPL Database: Range Images, 3D Models, Stills, Motion Sequences – Over 1000 range images, 3D object models, still images and motion sequences (Formats: gif, ppm, vrml, homebrew)
Signal Analysis and Machine Perception Laboratory
Otago Optical Flow Evaluation Sequences – Synthetic and real sequences with machine-readable ground truth optical flow fields, plus tools to generate ground truth for new sequences. (Formats: ppm,tif,homebrew)
Vision Research Group
ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ – Real and synthetic image sequences used for testing a Particle Image Velocimetry application. These images may be used for the test of optical flow and image matching algorithms. (Formats: pgm (raw))
LIMSI-CNRS/CHM/IMM/vision
LIMSI-CNRS
Photometric 3D Surface Texture Database – This is the first 3D texture database which provides both full real surface rotations and registered photometric stereo data (30 textures, 1680 images). (Formats: TIFF)
SEQUENCES FOR OPTICAL FLOW ANALYSIS (SOFA) – 9 synthetic sequences designed for testing motion analysis applications, including full ground truth of motion and camera parameters. (Formats: gif)
Computer Vision Group
Sequences for Flow Based Reconstruction – synthetic sequence for testing structure from motion algorithms (Formats: pgm)
Stereo Images with Ground Truth Disparity and Occlusion – a small set of synthetic images of a hallway with varying amounts of noise added. Use these images to benchmark your stereo algorithm. (Formats: raw, viff (khoros), or tiff)
Stuttgart Range Image Database – A collection of synthetic range images taken from high-resolution polygonal models available on the web (Formats: homebrew)
Department Image Understanding
The AR Face Database – Contains over 4,000 color images corresponding to 126 people’s faces (70 men and 56 women). Frontal views with variations in facial expressions, illumination, and occlusions. (Formats: RAW (RGB 24-bit))
Purdue Robot Vision Lab
The MIT-CSAIL Database of Objects and Scenes – Database for testing multiclass object detection and scene recognition algorithms. Over 72,000 images with 2873 annotated frames. More than 50 annotated object classes. (Formats: jpg)
The RVL SPEC-DB (SPECularity DataBase) – A collection of over 300 real images of 100 objects taken under three different illuminaiton conditions (Diffuse/Ambient/Directed). — Use these images to test algorithms for detecting and compensating specular highlights in color images. (Formats: TIFF )
Robot Vision Laboratory
The Xm2vts database – The XM2VTSDB contains four digital recordings of 295 people taken over a period of four months. This database contains both image and video data of faces.
Centre for Vision, Speech and Signal Processing
Traffic Image Sequences and ‘Marbled Block’ Sequence – thousands of frames of digitized traffic image sequences as well as the ‘Marbled Block’ sequence (grayscale images) (Formats: GIF)
IAKS/KOGS
U Bern Face images – hundreds of images (Formats: Sun rasterfile)
U Michigan textures (Formats: compressed raw)
U Oulu wood and knots database – Includes classifications – 1000+ color images (Formats: ppm)
UCID – an Uncompressed Colour Image Database – a benchmark database for image retrieval with predefined ground truth. (Formats: tiff)
UMass Vision Image Archive – Large image database with aerial, space, stereo, medical images and more. (Formats: homebrew)
UNC’s 3D image database – many images (Formats: GIF)
USF Range Image Data with Segmentation Ground Truth – 80 image sets (Formats: Sun rasterimage)
University of Oulu Physics-based Face Database – contains color images of faces under different illuminants and camera calibration conditions as well as skin spectral reflectance measurements of each person.
Machine Vision and Media Processing Unit
University of Oulu Texture Database – Database of 320 surface textures, each captured under three illuminants, six spatial resolutions and nine rotation angles. A set of test suites is also provided so that texture segmentation, classification, and retrieval algorithms can be tested in a standard manner. (Formats: bmp, ras, xv)
Machine Vision Group
Usenix face database – Thousands of face images from many different sites (circa 994)
View Sphere Database – Images of 8 objects seen from many different view points. The view sphere is sampled using a geodesic with 172 images/sphere. Two sets for training and testing are available. (Formats: ppm)
PRIMA, GRAVIR
Vision-list Imagery Archive – Many images, many formats
Wiry Object Recognition Database – Thousands of images of a cart, ladder, stool, bicycle, chairs, and cluttered scenes with ground truth labelings of edges and regions. (Formats: jpg)
۳D Vision Group
Yale Face Database – 165 images (15 individuals) with different lighting, expression, and occlusion configurations.
Yale Face Database B – 5760 single light source images of 10 subjects each seen under 576 viewing conditions (9 poses x 64 illumination conditions). (Formats: PGM)
Center for Computational Vision and Control
DeepMind QA Corpus – Textual QA corpus from CNN and DailyMail. More than 300K documents in total. Paper for reference.

منبع و برای چک بروزآوری های بعدی

با گوگل کردن هم میتونید به دیتاست های مختلفی برسید اما پیشنهاد میکنم اگه برای مقاله و… قصد تحقیق دارید اول سرچ کنید و دیتاست های مطرح حوزه خودتون رو پیدا کنید و روی اونها کار کنید.خصوصا اون پست بهشت دیتاستها روببنید. من هر زمان که فرصت پیدا کنم و به نکته جدیدی برسم این بخش رو بروز میکنم . شما هم اگر اطلاعاتی دارید که فکر میکنید اینجا میتونه برای دیگران مفید باشه لطفا اون رو در اختیار من قرار بدید تا با ذکر اسم خودتون اینجا قرار بگیره .

اگر هم مشکلی /اشتباهی در موارد بالا دیدید خوشحال میشم اشاره کنید تا رفع بشه.

با تشکر

سید حسین حسن پور

آخرین آپدیت شنبه ۱۸ اردیبهشت ۱۳۹۸

109 نظرات

دانشجوی امیرکبیر می گوید 9 سال پیش

داداش خعلی گلی

پاسخ
آذرخش می گوید 9 سال پیش

سپاس
استفاده کردم

پاسخ
سمیه می گوید 9 سال پیش

با سلام
اگر امکانش هست دیتاست AR که در ارتباط با تشخیص چهره هست هم اینجا قرار دهید.

پاسخ
هاجر می گوید 9 سال پیش

باسلام
ممنونم.بسیار مفید بود
اگر امکان داره در مورد دیتاست پزشکیBRATS توضیحاتی بر روی سایت قرار دهید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 9 سال پیش
  
  سلام
  لطفا اینجا رو چک کنید : http://braintumorsegmentation.org/
  
  پاسخ
هاجر می گوید 9 سال پیش

از لطف شما ممنونم

پاسخ
علی می گوید 8 سال پیش

دیتاست یاهو انسر هم به کار پژوهش‌های یادگیری عمیق می‌خوره؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام خود من تو حوزه متن وارد نشدم نمیدونم الزاماتش چیه اما اگر دیتاست نسبتا جامعیه بله
  پیشنهاد میکنم در سایت پرسش و پاسخ بپرسید که دوستانی که با متن کار کردن و حوزه پردازش زبان طبیعی راهنمایی کنن
  
  پاسخ
سامان می گوید 8 سال پیش

سلام
دیتا ست از شبکه های اجتماعی خصوصاً تلگرام برای تحلیل انتخابات. اگه امکانش بود ممنون میشم

پاسخ
محسن می گوید 8 سال پیش

سلام
من نیاز به تصاویر پشه سفید و آفات گیاهی دارم ولی دیتا ست مشخصی نداره
ممنون میشم کمکم کنید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام
  اولین قدم شما باید چک کردن مقالات حوزه خودتون باشه (اگر چیزی باشه) و بعد از طریق رفرنس به دیتاست اونها دسترسی پیدا کنید یا درخواست بدید بهشون که در اختیارتون بزارن
  اگر موارد بالا نیست خودتون یا باید از طریق گوگل و… دیتاست بسازید یا اینکه خودتون دستی برید و از افات و… تصاویر یا دیتای مورد نیاز رو تهیه کنید.
  
  پاسخ
  1. محسن می گوید 8 سال پیش
    
    ممنون
    
    پاسخ
آرزو حیدری می گوید 8 سال پیش

سلام وقتتون بخیر
پروژه من تشخیص عابر بایادگیری عمیق ولی دقیقا نمیدونم از کدوم دیتا ست استفاده کنم اول میخواستم از inria استفاده کنم ولی داده های برچسب گذاری شده نداره اگه امکانش هست منو راهنمایی کنید ممنون

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام
  میتونید از Caltech Pedestrian detection استفاده کنید‌که معروف تره . همینطور میتونید از دیتاست eth‌ و Diamler‌هم استفاده کنید
  http://www.vision.ee.ethz.ch/en/datasets/
  از پاسکال وک و ms coco‌ هم استفاده میشه .
  راحت ترین کار معمولا دیدن مقالات مربتط با کارتون هست اینطور بخوبی میتونید دیتاست مطرح حوزه خودتون رو مشخص کنید.
  
  پاسخ
فروغ می گوید 8 سال پیش

سلام روزتون بخیر
پروژه من تشخیص کشتی در تصاویر SAR هست مقالات از دیتاست های مختلفی استفاده کردن،آیا جایی هست که بتونم دیتاست ها رو ازش دانلود کنم ، چطور میتونم خودم در متلب یک دیتاست بسازم؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام.
  برای دانلود دیتاست که مشاهده میکنید لینکهای بالا هست. علاوه بر اون بهشت دیتاست ها رو هم چک کنید.
  دیتاست نکته خاصی نداره ساختنش. یکسری تصاویر باید تهیه کنید و برای ترینینگ و تست ( و یا ولیدیشن ) کنار بزارید . برچسب تولید کنید برای هرکدوم و بعد ترینینگ رو استارت بزنید.
  
  پاسخ
  1. سارا می گوید 5 سال پیش
    
    سلام. لطف می کنید آموزش اینکه چه طوری دیتا ست بسازیم ولیبل گذاری کنیم ولود کردنش رو هم بگید
    
    پاسخ
    1. سید حسین حسن پور متی کلایی می گوید 5 سال پیش
      
      سلام.
      این کار در فریم ورکهای مختلف بصورت های مختلفی انجام میشه. برای همین شما باید بر اساس همون فریم ورکی که قراره ازش استفاده کنید پیش برید.
      همه اونها آموزشی برای اینکار دارند. (فریم ورکهای قدیمی مثل کفی و برخی از روشهای ابتدایی تنسورفلو البته در بخش پرسش و پاسخ قبلا بهشون پرداخته شده هرچند بسیار پیشنهاد میکنم برای نسخه های جدید فریم ورکهایی مثل تنسورفلو
      حتما از مستندات فعلی اون استفاده کنید)
      
      پاسخ
فروغ نوروزی می گوید 8 سال پیش

سلام
دیتاست Caltech Pedestrian detection را نمیتونم دانلود کنم. با چند تا فیلترشکن مختلفم امتحان کردم. میشه بگین چجوری دانلودش کنم؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام
  لینکهای دانلود هیچ مشکلی ندارن تست کردم خودم. از این لینک دانلود کنید
  
  پاسخ
sara می گوید 8 سال پیش

سلام دیتاست R6A – Yahoo! Front Page Today Module User Click Log Dataset, version 1.0 (1.1 GB) را نیاز دارم اما با درخواستم موافقت نشده با اینکه ایمیل دانشگاهی دارم .
حالا چطور میتونم به دیتاست برسم برام خیلی مهمه
ممنون

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام
  
  یا باید از اعضای هییت علمی یا دانشجوی یه دانشگاه معتبر باشید یا یه شرکت معتبر
  از استادتون بخوایید براتون درخواست بدن و دیتاست رو براتون فراهم کنن
  
  پاسخ
rEzA می گوید 8 سال پیش

با سلام و خسته نباشید.
ببخشید منم با کتابخانه تنسور و برنامه نویسی پایتون دارم کار می کنم .
میخوام از دیتاست استفاده کنم اما بلد نیستم چطوری باید دیتا ست خودم درست کنم .
من رکورد هامو دارم و ویژگی هایی هم که نیاز دارم در آوردم ولی نمیدونم چطوری باید فرمتش بنویسم که داخل محیط برنامه نویسی به صورت صحیح بشناسش .
هرجا سرچ زدم چیزی در مورد درست کردن دیتا ست نبود همش دیتا ست آماده بودند .
ممنون میشم راهنمایی کنید.

پاسخ
1. rEzA می گوید 8 سال پیش
  
  اگر لینک آموزشی معرفی کنید که مرحله به مرحله توضیح بده ممنون میشم.
  رکورد من از مشتریان شرکت اینترنتی هست.
  مرسی
  
  پاسخ
2. سید حسین حسن پور متی کلایی می گوید 8 سال پیش
  
  سلام .شیوه اینکار که تو سایت رسمی تنسورفلو هم اومده. اگر فارسی هم سرچ کرده باشید باید موارد زیر رو دیده باشید اگر نه این موارد رو چک کنید :
  http://qa.deeplearning.ir/1681/مراحل-لیبل-زدن-دیتاست-در-تنسورفلو
  http://qa.deeplearning.ir/3285/شیوه-ارائه-دیتاست-در-فریم-ورک-تنسورفلو-و-کراس
  http://qa.deeplearning.ir/1508/نحوه-خواندن-دیتاست-در-تنسورفلو
  
  این لینکها هم میتونه مناسب باشه براتون :
  https://towardsdatascience.com/how-to-use-dataset-in-tensorflow-c758ef9e4428
  http://adventuresinmachinelearning.com/tensorflow-dataset-tutorial/
  https://www.dlology.com/blog/an-easy-guide-to-build-new-tensorflow-datasets-and-estimator-with-keras-model/
  https://www.youtube.com/watch?v=bqeUmLCgsVw
  
  پاسخ
  1. rEzA می گوید 8 سال پیش
    
    بسیار ممنون . با این موضوع جستجو نکرده بودم .
    خیلی لطف کردید.
    
    پاسخ
سیاوش می گوید 7 سال پیش

برای دسته‌بندی تصویر به اینکه عدد دستنویس هست یا خیر، دیتاستی وجود داره؟ (دیتاستی متشکل از اعداد دستنویس و چیزهای مختلف دیگه)

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام . دیتاست mnist و فارسیش که قکر میکنم هدی باشه میتنید استفاده کنید
  
  پاسخ
نسیم می گوید 7 سال پیش

سلام ممنون از توضیحات خوبتون
اگر دسته بندب دیتاست ها بر اساس کاربردشون مثلا در رگرسیون و … راهم یک پست مختصر هم توضیح بدهید بسیار مفید خواهد بود
با تشکر

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام.
  متوجه منظورشما نشدم کمی بیشتر توضیح بدید لطفا.
  
  پاسخ
Zahra می گوید 7 سال پیش

سلام
من دیتاست روند بهبودی بیماری های سرطانی رو میخوام میشه کمکم کنید لطفا

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام اینجا رو چک کنید
  
  پاسخ
زهرا می گوید 7 سال پیش

سلام من دنبال دیتاست روند بهبودی بیماران سرطانی رو میخوام میشه کمکم کنید
دارم روی پایانامه کار میکنم

پاسخ
a می گوید 7 سال پیش

سلام
ببخشید دیتاست در مورد پلاک خودروهای ایرانی و دیتاست در مورد میخوام. لطفا جواب بدین

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام.
  من متاسفانه نمونه ای ندارم. باید در گروه یادگیری عمیق (سایت پرسش و پاسخ و یا گروه تلگرام ) بپرسید راهنماییتون کنند.
  
  پاسخ
l می گوید 7 سال پیش

با سلام

شما دیتاست همشهری(Hamshahri Dataset) رو دارین؟ برای دانشگاه تهرانه

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام خیر متاسفانه
  
  پاسخ
بهروز می گوید 7 سال پیش

سلام جناب حسن پور
ممنون از سایت خوبتون و اطلاعات مفیدی که در اختیار علاقمندان قرار میدید
اگه میشه بنده رو راهنمایی بفرمایید
من می خوام دیتاست BIDMC به آدرس https://www.physionet.org/physiobank/database/chfdb/ رو در گوگل کولب import کنم. توی اون آدرس فایل های زیادی هست کدوم فایل ها رو باید import کنم بعد چجوری اونها رو load کنم و ازشون استفاده کنم یعنی بخش های train و test رو چجوری تعریف کنم؟
ممنون از پاسخ شما

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام
  من متاسفانه اطلاعی ندارم در رابطه با اون دیتاست باید داکیومنتهای مرتبط رو بخونید ببینید چی هستن و با چه فرمتی ذخیره شدن و چطور باید باهاشون کار کرد. اما برای بحث انتقال دیتاست با همه فایلهاش یکی از راحت ترین راه ها اینه اون فایلها رو منتقل کنید به یه repository github بعد تو گوگل کولب خیلی راحت git clone کنید . بعد هر کاری خواستید میتونید انجام بدید تفکیک کنید ویرایش کنید و…
  
  پاسخ
امیر می گوید 7 سال پیش

سلام ظاهرا دیتا ست brats به سادگی در دسرتس عموم نیست ، کی میتونه کمکم کنه ؟

پاسخ
marjan می گوید 7 سال پیش

سلام . من دیتاستی میخواهم که فقط شامل اعداد باینری باشد . لطفا راهنمایی میکنید ؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام .
  منظورتون چیه ؟
  
  پاسخ
مجید می گوید 7 سال پیش

دیتا ست برای تصاویر هوایی هم موجود هست ؟
ممنون

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام
  بله. دنبال چه تصویری هستید؟ سرچ کردید خودتون؟
  
  پاسخ
طیبه می گوید 7 سال پیش

سلام . لطفا دیتاست مربوط به تشخیص اشیا به کمک شبکه عصبی عمیق را قرار می دهید. با تشکر از زحمات شما

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام
  دیتاست های زیادن. باید ببینید چه رسته ای برای موضوع شما مناسب هست.
  
  پاسخ
سپیده می گوید 7 سال پیش

باسلام . من دیتاست سیگنال EEG برای بیماران پارکینسون رو میخواستم اما تو هیچ سایتی پیدا نمیکنم.

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  برای پارکینسون میتونید از اینجا استفاده کنید : https://archive.ics.uci.edu/ml/datasets/parkinsons
  
  پاسخ
علی می گوید 7 سال پیش

سلام
آیا از طریق یادگیری عمیق بازار بورس و بازارهای مالی قابل پیش بینی هست؟
آیا معاملات الگوریتمی با شبکه عصبی ارتباطی داره؟
چطور میتونم به دیتاست بازارهای مالی دسترسی داشته باشم؟
ممنون از پاسخگوییتون

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام
  بله
  متوجه نشدم
  دیتاستهای مختلفی هست اگر بر مبنای مقالات کار میکنید باید با توجه به رفرنس داده شده پیش برید. در غیر اینصورت بخش دیتاست ها (مخازن ) رو چک کنید
  
  پاسخ
مرتضی می گوید 7 سال پیش

سلام وقتتون بخیر. ممنون از آموزشتون.
من به دنبال یک دیتاست تصویر خوب برتی بیماری های دهان و دندان هستم، اما تا حالا نتونستم دیتاست خوبی پیدا کنم. ممنون میشم راهنمایی کنید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام
  یه نگاهی به مخزن دیتاستهای یادگیری ماشین دانشگاه UCI بندازید (ابتدای همین بخش رو ببینید)
  
  پاسخ
رویا می گوید 7 سال پیش

سلام من دنبال یک دیتاست خوب برای دسته بندی ترافیک شبکه میگردم که با یادگیری عمیق انجامش بدم.

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام. سه تا لینک مرجع برای سرچ دیتاست همون ابتدای من قرار دادم که تقریبا میشه گفت هرچیزی لازم داشته باشید از طریق اینها میتونید پیدا کنید. لطفا از همونها استفاده کنید.
  بطور خاص لینک اول (گوگل دیتاست سرچ ) و سوم رو چک کنید نسبت به دوم احتمال بیشتری هست که به چیزی که میخوایید برسید.
  
  پاسخ
سید اسماعیل می گوید 7 سال پیش

سلام خسته نباشید
من تازه این ترم پایان نامه دارم و استادم میگه حتما باید ی دیتا ست باید پیدا کنی اول
منم نمیدونم چ دیتا ستی از کجا پیدا کنم با چ موضوعی که راحت انجام بشه بره خوبم باشه
لطفا راهنماییم کنین، اگه میشه با ایمیل در تماس باشیم با تشکر

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام.
  قبل از دیتاست باید حوزه کاری خودتون رو مشخص کنید . یعنی در چه حوزه ای دوست دارید کار کنید . بینایی کامپیوتر یا پردازش زبان طبیعی و…
  بعد از اون باید ببینید کدوم زیرحوزه یا کاربرد از این حوزه انتخابی برای شما جذابه مثلا بینایی کامپیوتر رو اگر انتخاب کنید چه زیربخشی میخوایید فعالیت کنید کلسیفیکیشن دیتکشن سگمنتیشن یا ….
  بعد یک یا چندتا رو که انتخاب کردید حالا با نگاه به پیش نیازهاش و اینکه وضعیت شما چطوره یکی رو انتخاب میکنید اونوقت میرید کارهای مرتبط رو میخونید ببینید شیوه ارزیابی چیه از چه دیتاست یا دیتاست هایی استفاده میکنن و بعد برید سراغ دیتاست .
  برای ایمیل میتونید از بخش تماس با من پیامتون رو ارسال کنید و من جواب میدم خدمتتون.
  
  پاسخ
باران می گوید 7 سال پیش

با سلام و احترام
من مطالب سایت را در زمینه word embedding مطالعه کردم و بسیار استفاده کرد.
میخواستم درخواست کنم دیتاست هایی از توییتر را اگر ممکن هست به اشتراک بگذارید.
با احترام

پاسخ
حمید می گوید 7 سال پیش

با سلام و خسته نباشید…
من در زمینه ی شناسایی اسکناس فعالیت میکنم خواستم بدونم در این زمینه دیتاستی موجود هست؟؟؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 7 سال پیش
  
  سلام. من شخصا چیزی ندیدم اما قبلش به منابعی که در بالا دادم مراجعه کنید و اونجا سرچ کنید.
  اگر چیزی نبود ایجاد دیتاستی که مد نظرتونه کار سختی نباید باشه و باید بتونید خودتون انجام بدید.
  
  پاسخ
الهام می گوید 7 سال پیش

سلام خسته نباشید
دیتاست (Sunnybrook of left ventricle (LV، رو اگه امکانش هست می خواستم.
ممنون

پاسخ
محمدیار می گوید 6 سال پیش

سلام وقت بخیر
ممنون از سایت فوق العادتون، موضوع پایان نامه ارشد من مرتبط با یادگیری عمیقه و من تا الان خیلی از سایت شما استفاده کردم مخصوصا مقالات مربوط به شبکه های RNN. بی نهایت از مطالب فوق العاده مفیدی که گذاشتید ممنونم خدا خیرتون بده.
فقط سوالی که داشتم این بود که من به دنبال دیتاست سیگنال های EEG خواب هستم. تو بهشت دیتاست ها گشتم و چیزی نبود، تو سایت های دیگه هم حقیقتش چیز خاصی پیدا نکردم
میخواستم ببینم شما میتونید راهنمایی دقیق تری بکنید که من یه دیتاست کامل برای سیگنال های EEG خواب بدست بیارم؟
با تشکر

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام
  تو بخش دیتاست ابتدای بخش من سه تا مرجع برای دیتاست معرفی کردم حتما میتونید چیزی که میخوایید رو اونجا پیدا کنید.
  یکی دیتاست گوگل هست (بخش جدیدی که گوگل راه اندازی کرده برای همین کار) و دیگری هم مخزن دیتاست دانشگاه ایروین کالیفرنیاست
  تعداد زیادی دیگه هم میبینید که لیست شدن بالا اگه اینجا پیدا نکردید به منبعی که لینک شدند دیتاست های مشابه مراجعه کنید یا رجوع کنید به مقاله مرجعتون .
  
  پاسخ
ارمان می گوید 6 سال پیش

سلام
ببخشید برای ارزیابی یک مدل تو سایت مربوطه مثلا ایمیج نت چه چیزی رو اپلود میکنن؟

پاسخ
1. ارمان می گوید 6 سال پیش
  
  و ممنون میشم اگر کمی در این مورد توضیح بدین
  
  پاسخ
2. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام سابقا یه اسکریپت ارائه میشد و افراد میتونستن روی تست ست نتایج رو کسب کنن و بعد ارسال کنن.
  دقت های بعدی روی ولیدیشن ست گزارش شده و میشه یعنی ملاک مقالاتی که نتایج روی ایمیج نت رو مطرح میکنن دقت کسب شده روی ولیدیشن ست هست
  
  پاسخ
  1. ارمان می گوید 6 سال پیش
    
    سلام نه منظورم تست و ولیدیشن ست نبود
    وقتی یک مدل طراحی میشه برای ارزیابی دقیق مدل میشه یه چیزی رو داخل سایتهای چالش مربوط به اون پایگاه داده، آپلود کرد تا مثلا دقیقا بگن دقت چند درصد هست
    حالا اون چیه که اپلود میکنن؟
    
    پاسخ
    1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
      
      سلام.
      من هم عرض کردم هر چلنجی یک مسیر برای سابمیت امتیاز داره. بسته به چلنج شما باید چند مورد رو سابمیت کنید من جمله مدلتون رو هم(بستگی به چلنج داره)
      در ایمیج نت یک Development kitیی وجود داشت که برای سابمیت امتیاز ازش استفاده میشد و صرفا پیش بینی ها به سرور ارسال میشد.
      اگه development kit رو دانلود کنید در خودش توضیحات کافی در مورد چگونگی ثبت امتیاز هست.
      
      پاسخ
      1. ارمان می گوید 6 سال پیش
        
        تشکر
        
        پاسخ
لیلا می گوید 6 سال پیش

سلام
وقتتون بخیر
دیتاست مربوط به تصاویر مدرک جواز دارید؟
ممنونم

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام
  متوجه فرمایشتون نشدم
  لطفا کمی دقیق تر بفرمایید تا ببینم کمکی از دست بنده بر میاد یا خیر
  
  پاسخ
کاوه می گوید 6 سال پیش

سلام وقت بخیر
من دارم روی تصاویر ماهواره ای کار میکنم ولی هرچقدر سرچ میزنم کدی رو نمیتونم پیدا کنم که یادگیری عمیق بر روی این تصاویر باشه و کدش رو گذاشته باشن و اجرا بشه

ممنون میشم اگه کد در این رابطه دارید برای ایمیل بنده ارسال کنید، چون نمیدونم فرایند دیتا دادن و اموزش بر روی این تصاویر چجوریه و شما هم تو سایتتون در مورد این تصاویر صحبتی نداشتید

ممنونم

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام کلیت کار با سایر موارد فرقی نداره و اتفاقا کد هم زیاده
  شما باید بر اساس فریم ورک سرچ کنید . مثلا لینکهای زیر چند نمونه از این موارد برای کراس/تنسورفلو هست . برای پای تورچ هم به همین شکل هست :
  https://github.com/zia207/Deep-Neural-Network-with-keras-Python-Satellite-Image-Classification
  https://github.com/xAbhidhar/Keras-Tensorflow-Satellite-Images-classification
  https://machinelearningmastery.com/how-to-develop-a-convolutional-neural-network-to-classify-satellite-photos-of-the-amazon-rainforest/
  
  پاسخ
خدابخشی می گوید 6 سال پیش

سلام وقتتون بخیر.من قرار هست روی دیتاست camvid با شبکه cnn کار کنم.جایی کدی پیدا نکردم.میشه راهنمایی بفرمایید

پاسخ
محمد می گوید 6 سال پیش

سلام
داداش اگه میشه راهنماییم کنید،در مورد یه پروژه.نیاز به دیتا ست دارم اینجا و توی وب پیداش نکردم.ایمیل روهم گذاشتم.

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام
  چه دیتاستی نیاز دارید؟
  چه پروژه ای دارید؟
  سایتهایی که بالا مشخص کردم چک کردید؟
  
  پاسخ
marzieh می گوید 6 سال پیش

سلام، من دیتاست نمرات دانشجویان با یک سری ویژگی(سال ورود، ترم ورود، سال تولد…) میخام. هر چه این ویژگی ها بیشتر بهتر….

پاسخ
نجفی می گوید 6 سال پیش

سلام. در مورد تشخیص ساختار کریستالی مواد دیتاست دارین ؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 6 سال پیش
  
  سلام از مخازن بالا جستجو کنید
  
  پاسخ
کرامت می گوید 5 سال پیش

سلام، ممنون از وب سایت خوبتون
من دارم روی تشخیص آنوریسم مغزی کار میکنم اما هرچه گشتم دیتاست مربوط رو پیدا نکرم
لطفا اگه امکانش هست راهنمایی کنید
ممنون

پاسخ
امین می گوید 5 سال پیش

سلام دوستان
من هم تصاویرآنوریسم مغزی جهت آموزش شبکه عصبی ایحتیاج داشتم

پاسخ
صادق می گوید 5 سال پیش

سلام خدمت شما
MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
چه جوری دانلود کنم از سایتش

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 5 سال پیش
  
  سلام باید از این لینک فرم رو بگیرید پر کنید و ارسال کنید.
  
  پاسخ
atra joudaki می گوید 4 سال پیش

سلام خسته نباشید
من میخوام طبقه بندی تومور های مغزی با استفاده از یادگیری عمیق انجام بدم ممنون میشم یک سایتی معرفی کنید برای دیتا.تصاویر ام ار ای مغزی

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  اولین قدم انتخاب یکسری مقاله مرجع برای کارتون هست و بعد دریافت دیتاست هایی که اونها استفاده کردن. البته اگر پابلیک باشن. اگر چیزی پابلیک نبود اونوقت از سایتهایی که بالا معرفی کردم میتونید استفاده کنید.
  علاوه بر اینها سایتهایی مثل ردیت و امثالهم هم هستن که برای پرسش و دریافت این قبیل موارد خیلی مناسب هستن (خصوصا ساب ردیت هایی مثل دیپ لرنینگ و دیتاست و…)
  
  پاسخ
پریسا می گوید 4 سال پیش

سلام وقت بخیر
من برای پایان نامم به تعدادی تصاویر rs-fMRI نیاز دارم(تعدادی مربوط به افراد سالم و تعدادی برای بیماران مبتلا به اختلال دو قطبی).که متاسفانه این دیتا ست ها عموما از مقالات خارجی قابل دسترس نیست(جز یه مورد که فرمت دیتا JSON هست و به فرمت تصویر تبدیل نمیشه). آزمایشگاه ملی نقشه برداری مغز ایران هم فقط تصاویر سالم در اختیار داره. نمیدونم چطور میتونم به این دیتاست ها دسترسی پیدا کنم.

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  از گروه تلگرام پیگیری کردید ؟
  در ساب ردیت dataset چک کردید یا مطرحش کردید؟ اگر نه این کارو بکنید.
  
  پاسخ
محمد می گوید 4 سال پیش

سلام وقت بخیر
من یه دیتاست میخوام از کلمات یا جملات مجزا به اضافه صوت آنها مخصوص زبان فارسی یا انگلیسی،
احیانا چیزی پینهاد میکنید؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام
  دیکشنری میتونید پیدا کنید هم لغات و عبارات هست و هم معمولا فایل صوتی
  
  پاسخ
میلاد می گوید 4 سال پیش

سلام وقت بخیر، من میخوام خطای ظاهری تو قطعات پرینت شده ۳ بعدی رو با استفاده از یک دوربین روی پرینتر انجام بدمم راهنمایی بفرماید دیتا ست از انواع خطاها تا به حال تهیه شده و اگر شده از کدوم مورد استفاده کنم.با تشکر

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام.
  من اطلاعی در این باره ندارم و نمیدونم چنین دیتاستی هست یا نه (بصورت مستقیم مربوط به حوزه کاری ما نمیشه)
  منتها تو ساختش نباید مشکلی داشته باشید. حداقلش اینه که بر اساس موتورهای جستجو قطعات و یا انواع خرابی مورد نظرتون رو سرچ کنید و دیتاست رو اینطور تهیه کنید
  یا خودتون بصورت مستقیم به ایجاد این دیتاست بپردازید.
  
  پاسخ
Hadise می گوید 4 سال پیش

سلام. دیتاست همشهری ۲ رو من ندیدم و نمیدونم از کجا و چطور دانلود کنم. ممنون میشم راهنمایی کنید

پاسخ
ساناز می گوید 4 سال پیش

سلام
من میخام در حوزه پیش بینی فروش ازش استفاده کنم چطور میتونم یک دیتاست درمورد آمار فروش یک محصول مثل لبنیات یا ماده غذایی پیدا کنم؟توی کگل و … پیدا نشد. و سوال بعد اینکه من نمیدونم یادگیری ماشین از کجا شروع کنم؟ممنون میشم راهنمایی بفرمایید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام.
  اتفاقا در کگل یک دیتاست برای محصولات لبنی بود مثل این https://www.kaggle.com/datasets/sohier/weekly-dairy-product-prices
  اینجا هم میتونید لینک اصلی رو ببینید : https://mpr.datamart.ams.usda.gov/menu.do?path=Products\Dairy\All%20Dairy
  برای یادگیری ماشین پیشنهاد میکنم از یک آموزش یادگیری ماشین شروع کنید و بعد در کنارش با تهیه کتاب و مطالعه بیشتر مطالب رو تعمیق کنید اینطور هم سریعتر براه میوفتید و هم خروجی سریعتری میتونید داشته باشید.
  برای شروع آموزش یادگیری ماشین اندرو ان جی مربوط به ۲۰۱۰ که مبانی اولیه و بعضی روشهای کلاسیک رو اموزش میده میتونه خوب باشه.
  اگر روشهای جدیدتر رو میخوایید میتونید آموزش یادگیری عمیق اندرو ان جی که تو ۵ فصل ارائه کرده از کورسیرا رو ببینید لینکش باید تو سایتهای فارسی باشه.
  علاوه بر اون آموزش یادگیری عمیق Udacity (پایتورچ و یا تنسورفلو) هم هست که با جهت یادگیری عمیق شروع میشه و مبانی اولیه یادگیری ماشین رو هم ارائه میکنه.
  یک کورس دیگه هم اختصاصی ماشین لرنینگ در Udacity هست که فکر میکنم مربوط به ۲۰۱۲ یا ۲۰۱۵ باشه اونم میتونه خوب باشه .
  
  پاسخ
مرتضی می گوید 4 سال پیش

سلام ممنون از اطلاعات مفیدتان
تفاوت این دو تا دیتاست چیه یکی cbsd68 و یکی bsd68
من چجوری دیتاست bsd68 را پیدا کنم و دانلودش کنم.؟
ممنون

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام
  متاسفانه آشنایی با این دیتاست ها ندارم.
  
  پاسخ
اسماعیل می گوید 4 سال پیش

سلام
از زحمات شما سپاسگزارم دوست عزیز
من دیتاست از سیگنالهای راداری نیاز دارم. میخوام از روشهای یادگیری عمیق تحلیل و شناسایی کنم. ممنونم

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام.
  باید حوزه رو دقیقتر مشخص کنید. عموما با پیگیری پیپرهای مرتبط براحتی باید بتونید به دیتاست مورد نظرتون دست پیدا کنید
  سایت https://data.world/datasets/radar رو بررسی کنید علاوه بر گوگل (چون موارد مختلفی هست)
  
  پاسخ
atefe می گوید 4 سال پیش

سلام من دیتا ست تشخیص میوه رو نیاز دارم لطفا راهنمایی کنید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 4 سال پیش
  
  سلام.
  یک سرچ ساده در گوگل بزنید موارد زیادی پیدا باید بکنید. علاوه بر اون براحتی خودتون هم باید بتونید یک دیتاست بسازید.
  به هر حال این یک نمونه از گاگل هست https://www.kaggle.com/datasets/moltean/fruits
  
  پاسخ
جمشیدی می گوید 3 سال پیش

سلام وقت بخیر . من به دنبال دیتاست درمان بیماری گیاهی هستم. آیا شما سراغ دارید؟

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 3 سال پیش
  
  سلام.
  نه متاسفانه. اما یک نگاهی به کاگل بندازید احتمال اینکه موردی مشابه پیدا کنید احتمالا هست.
  
  پاسخ
رضا می گوید 3 سال پیش

سلام
دست شما درد نکنه
درست بهترین زمان ممکن با سایت شما آشنا شدم
ممنون

پاسخ
امین می گوید 3 سال پیش

با سلام خدمت جناب حسن پور
دیتا ست سه بعدی دندان از کجا میتونم گیر بیارم ممنون میشم راهنمایی کنید.دیتا ست در زمینه سگمنت دندان و سه بعدی سازی دندان میخواستم.ممنون میشم کمکم کنید

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 3 سال پیش
  
  سلام. اولین قدم شما باید بررسی پیپرهای مرتبط با این حوزه باشه تا ببینید از چه دیتاستی استفاده کردن و بعد اونو تهیه کنید. مثل این پیپر:‌https://arxiv.org/abs/2206.08778
  به غیر از اون با همون کی وردهای مورد نظرتون باید به مواردی از قبیل https://darwin.v7labs.com/v7-campaigns/panoramic-dental برسید .
  
  پاسخ
محمد می گوید 3 سال پیش

دیتاست برای شبکه های نظیر به نظیر از کجا می تونم گیر بیارم؟
در حوزه Video Streaming کار میکنم

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 2 سال پیش
  
  سلام
  اولین جایی که باید بگردید paperswithcode هست و مقالات مرتبط با کارتون. از رفرنس اونها میتونید براحتی دیتاست های حوزه کاریتون رو مشخص کنید
  
  پاسخ
جواد می گوید 2 سال پیش

سلام وقت شما بخیر .من دنبال یک دیتاستی برای پردازش زبان طبیعی میگردم که شامل کامنت های افراد در رسانه های اجتماعی باشه که هر هشت حس چرخه پلاچیک رو شامل باشه .میشه راهنمایی بفرمایید از کجا پیداش کنم

پاسخ
برنامه نویس می گوید 2 سال پیش

من دنبال یه دیتا ست برای پردازش زبان طبیعی میگردم که داخلش حس های هشتگانه مانند ترس خوشحالی تعجب و … رو داشته باشه ممنون میشم کامنت منو جواب بدید دفعه قبل هم کامنتم حذف شد

پاسخ
1. سید حسین حسن پور متی کلایی می گوید 1 سال پیش
  
  سلام وقت شما بخیر
  نظرات شما پاک نمیشن. نظرات همه باید تایید بشن (برای جلوگیری از اسپم ها مجبورم نظرات رو بصورت دستی تایید کنم و چون دیر به دیر به سایت سر میزنم این متاسفانه زمانبر شده.)
  (بعضی اوقاتم البته سایت بک آپش ریستور میشه که خارج از اختیار منه و متاسفانه بخاطر دست گلهای هاست منه)
  برای جواب سوالتون هم من این چندتا دیتاستی که بهشون برخوردم رو خدمتتون عرض میکنم که با یه سرچ ساده میتونید اطلاعات بیشتر برای دانلود و… رو بدست بیارید(تو کاگل و هاگینگفیس باید بتونید راحت اینارو پیدا و دانلودکنید)
  Emoticons: دیتاست مال گوگل هست و حدود ۵۸ هزار جمله با ۲۷ حس مختلف رو داره.
  CrowdFlower: هم یه دیتاست حاوی توییت‌هایی با احساس های مختلف هست (ترس و…)
  Sentiment140: این دیتاست هم از ۱.۶ میلیون توییت با احساس های مختلف تشکیل شده.
  SemEval-2018: توییت‌هایی با ۱۱ حس مختلف؛ برای شناسایی چند حس تو یه جمله خوبه.
  Affective Text: مخصوص حس‌های پایه مثل شادی، غم، ترس و خشم.
  EmoReact: هم شامل ویدیو و متن هست واسه وقتی که می‌خواید احساس تو حالت چهره و متن رو با هم تشخیص بدید.
  
  پاسخ