دیتاست ها

در این بخش هم دیتاست های(dataset) مختلفی که در زمینه یادگیری عمیق(deep learning) میتونید استفاده کنید‌ رو میبینید.

دیتاست هایی که بولد (توپر- پررنگ)!‌ کردم از دیتاست های خیلی مهم و کاربردی هستن که مشخصا تو حوزه کامپیوتر ویژن (بینایی کامیپوتر) ازشون استفاده میشه .من تو بقیه زمینه ها کار نکردم ولی دیتاست های مختلف رو قرار میدم .تو زمینه هایی که کار کردم یا اطلاعات دارم سعی میکنم بیشتر توضیح بدم (اونایی که بولد شدن رو بعدا انشاالله بصورت اختصاصی توضیح میدم.)

 

قبل از هر چیزی این پست در مورد بهشت دیتاست ها رو حتما بخونید

 

دیتاست تصاویر طبیعی


  • MNIST: دیتاست ارقام دست نویس انگلیسی (خیلی معروف و پرکاربرد)
  • دیتاست هدا: دیتاست ارقام دست نویس فارسی (۶۰ هزار تصویر)
  • NIST: مثل MNIST‌ اما بزرگتر.
  • Perturbed NIST: دیتاستی که در کلاس Yoshua ایجاد شد (همون دیتاست NIST‌هست به اضافه مقدار زیادی  deformation یا تغییر شکل  (یعنی تصاویر همون دیتاست رو با تغییرات مختلف ذخیره کرده و دیتاست بزرگتری رو ایجاد کرد)
  • CIFAR10 / CIFAR100: این دوتا دیتاست در اصل یکی هستند و تفاوت اونها در تعداد دسته های اونهاست. این دیتاست شامل تصاویر رنگی با اندازه ۳۲*۳۲ هست و شامل ۶۰ هزار تصویر میشه.
  • Caltech 101: دیتاستی شامل تصاویری از اشیاء در ۱۰۰ دسته مختلف  ()
  • Caltech 256: این دیتاست هم شامل تصاویری از اشیاء مختلف در ۲۵۶ دسته هست
  • Caltech Silhouettes: این دیتاست همونطو رکه از اسمش مشخصه حاوی تصاویر دودویی شده دیتاست Caltech 101 با اندازه ۲۸*۲۸ هست
  • STL-10 :این دیتاست هم مثل CIFAR10 برای استفاده در زمینه های unsupervised feature learning,deep learning, self taught learning  مورد استفاده قرار میگیره ,فرقش با CIFAR10‌در اینه که تغییرات (modification های) بیشتری داره.)
  • The Street View House Numbers (SVHN) Dataset:‌ این دیتاست هم شماره پلاک خونه ها هست.
  • NORB: تصاویر گرفته شده با دوربین از اسباب بازیها تحت حالتها و شدت نورهای مختلف .( منظورم اینجور تصاویر هست کلیک کنید تا یه نمونه رو ببینید)
  • Imagenet: ایمیج نت در اصل اسم یک رقابت تو حوزه  تشخیص تصاویر هست که دیتاست های مختلفی داره . هر سال هم برگزار میشه و در اصل تو رقابت سال ۲۰۱۲ اون بود که الکس کریژوسکی و جف هینتون تونستن با دیپ لرنینگ و استفاده از شبکه کانولوشن مقام اول رو بدست بیارن و دیپ لرنینگ اینطور متولد بشه !.در حال حاضر معروف ترین و پر استفاده ترین دیتاست تصاویر طبیعی که بیش از یک میلیون تصویر در ۱۰۰۰ دسته داره و اندازه تصاویر ۲۲۷ در ۲۲۷ شروع میشه مربوط به دیتاست سال ۲۰۱۲ اون هست. انواع مختلفی از دیتاستهاهست که از نظر حجمی و تعداد و… متفاوت هستند. حجم این دیتاست (سال ۲۰۱۲ ) بیش از ۱۵۰ گیگابایت هست. ورژن ۲۰۱۵ اون هم با احتساب همه زمینه ها بیش از ۱ ترابایت هست.(بعدا در این مورد بیشتر توضیح میدم)
  • Pascal VOC: این هم مثل ایمیج نت یه رقابت تو حوزه کامپیوتر ویژن هست که دیتاست های مختلفی داره.
  • Labelme: یه دیتاست بزرگ از تصاویر حاشیه نویسی شده (اصطلاحا میگن annotated images که خیلی کاربردی هست(توضیحات بعدا!))
  • COIL 20: اشیاء مختلف در ۲۰ دسته که در تمامی زوایا۳۶۰ درجه عکس برداری شده ازشون
  • COIL100: مثل بالایی با این تفاوت که اینجا ۱۰۰ دسته وجود داره
دیتاست های مصنوعی (بصورت مصنوعی ایجاد میشن)

  • Arcade Universe – یه جنریتور (تولید کننده ) دیتاست مصنوعی هست که با استفاده از تصاویر شامل sprite‌های بازی هایی مثل تتریس پنتومینو و تترومینو تصویر جدید تولید میکنه. این جنریتور بر اساس نمونه ایجاد شده توسط o.Breleux بنام bugland ‌ایجاد شده.
  • در زیر هم مجموعه ای از دیتاست هایی که با ایده از BabyAISchool ایجاد شدند میبینید :‌
  •  (DeepVsShallowComparisonICML2007) : دیتاست هایی که منحصرا برای ارزیابی معماری های عمیق ایجاد شدند:
    • MnistVariations : این دیتاست شامل تغییرات کنترل شده در دیتاستMNIST هست
    • RectanglesData : تمایز بین مستطیل های عریض و بلند
    • ConvexNonConvex :تمایز بین اشکال convex و غیر convex ( همون اشکال کاسه شکل(محدب) و غیر کاسه شکل(غیرمحدب!)!)
    • BackgroundCorrelation : دیتاست شامل درجه کنترل شده ارتباط (correlation‌)در پس زمینه های نویزی MNIST‌ هست.

 

دیتاست های تصاویر صورت


  • Labelled Faces in the Wild: یکی از دیتاست های پرکاربرد که شامل ۱۳ هزار تصویر از افراد مختلف هست که از اینترنت (وب) جمع آوری شده و با نام هر فرد برچسب گذاری شده
  • Toronto Face Dataset :دیتاست تصاویر صورت دانشگاه تورونتو
  • Olivetti: تعدادی تصویر از افراد مختلف
  • Multi-Pie: دیتابیس صورت مالتی پای یا The CMU Multi-PIE Face Database
  • Face-in-Action
  • JACFEE: تصاویر صورت افراد ژاپنی و قفقازی به همراه حالات مختلف احساسی
  • FERET: دیتابیس فناوری تشخیص صورت یا همون The Facial Recognition Technology Database
  • mmifacedb: دیتابیس حالات صورت MMI ‌یا همون MMI Facial Expression Database
  • IndianFaceDatabase: دیتابیس از تصاویر صورت افراد هندی !
  • Yale Face Database و Yale Face Database B

متن


  • ۲۰ newsgroups: عمل دسته بندی,‌ نگاشت تکرر کلمات به شناسه newsgroup
  • Reuters (RCV*) Corpuses: پیش بینی متن/موضوع یا text/topic prediction
  • Penn Treebank : برای پیش بینی کلمه یا کاراکتر بعدی مورد استفاده قرار میگیره.
  • Broadcast News:یه دیتاست بزرگ متنی که بطور کلاسیک برای پیش بینی کلمه بعدی مورد استفاده قرار میگیرفت.
  • دیتاست ویکی پیدیا!
  • Multidomain sentiment analysis dataset:دیتاست تحلیل نیت چند دامنه ای

صدا


  • TIMIT Speech Corpus: دسته بندی واج ها (اصوات) یا همون phoneme classification
  • Aurora : تیممیت (Timit) به همراه نویز و اطلاعات اضافی

Symbolic Music Datasets


  • Piano-midi.de: قطعات کلاسیک پیانو
  • Nottingham : بیش از هزار فولک تون
  • MuseData: کتابخانه الکترونیکی از امتیازات موسیقی کلاسیک
  • JSB Chorales: مجموعه ای از کورالزهای ۴ بخشی هارمونیک
Recommendation Systems

  • MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
  • Jester: این دیتاست شامل ۴٫۱ میلیون رتبه بندی پیوسته (از -۱۰٫۰۰ تا +۱۰٫۰۰ ) از ۱۰۰تا جوک هست که توسط ۷۳۴۲۱ کاربر داده شده .
  • Netflix Prize: نت فلیکس یک ورژن از دیتاست رتبه بندی فیلمهاش رو ارايه کرده که شامل ۱۰۰ میلیون رتبه بندی هست که توسط ۴۸۰ هزار کاربر انجام شده که بین ۱ تا تمام ۱۷۷۷۰ فیلم را رتبه بندی کردند.
  • Book-Crossing dataset: این دیتاست از انجمن Book-Crossing هست که شامل ۲۷۸۸۵۸ کاربره که ۱۱۴۹۷۸۰ امتیاز رو در مورد  ۲۷۱۳۷۹ کتاب دادند .

متفرقه



دیتاست های پزشکی 

نکته : اگر دیتاستی رو اینجا پیدا نکردید ازمخازن دیتاست که در بالا لینکشون قرار داده شده استفاده کنید.

  • Pulmonary hypertension Datasets : این سایت دارای دسته های مختلف برای انواع مختلفی از سرطان هاست (هم انسان و هم حیوان و…)  و دیتاست بسیار بزرگی رو شامل میشه (بیش از هزاران نمونه )
  • Visual Concept Extraction Challenge in Radiology ا(VISCERAL) :تصاویر رادیولوژی از ساختارهای آناتومیکال (مثل ششها ،کلیه ها و… ) به فرمتهای مختلف (CT یا MR ) که بصورت دستی حاشیه نویسی شده اند.
  • The Cancer Imaging Archive: دیتاست های مختلف از انواع سرطان ها (سرطان شش ، myeloma، carcinoma و…) با فرمت های مختلف
  • Grand Challenges in Biomedical Image Analysis: مجموعه ای از رقابتهای بیومدیکال که به منظور تسهیل قیاس بین راه حل ها و روشهای موجود و جدید ایجاد شده . در حال حاضر (زمان نگارش این مطلب) ۹۲ رقابت وجود دراه . هر رقابت دارای دیتاست خاص خود میباشد.
  • The Lung Image Database Consortium : مجموعه تصاویر (LIDC-IDRI )که . یک مجموعه از تصاویر سی تی اسکن از سرطان شش با ضایعات (lesions)حاشیه نویسی شده
  • Kaggle diabetic retinopathy. تصاویر شبکیه چشم (retinal ) با کیفیت بالا که به منظور تشخیص retinopathy دیابتی مورد استفاده قرار میگیرند و از مقیاس شدت ۰ تا ۴ توسط تکنسین ها حاشیه نویسی شده اند.
  • International Symposium on Biomedical Imaging :ا(۲۰۱۵) رقابت بزرگ بین المللی که دارای دیتاست های خاص خود هستند.
  • Multiple sclerosis lesion segmentation : مجموعه ای از تصاویر MRI مغز برای تشخیص ضایعات مربوط به بیماری ام اس (MS lesions ).
  • Multimodal Brain Tumor Segmentation Challenge: ا (BRATS)دیتاست بزرگی از اسکنهای رزونانس مغناطیسی تومور مغزی ( brain tumor magnetic resonance scan) این دیتاست از سال ۲۰۱۲ در حال گسترش هست (هر ساله!)
  • Coding4Cancer: تصاویر ماموگرافی دیجیتا و تشخیص سرطان شش

 


دیتاست های متفرقه (بدون ترتیب )

مجموعه ای از آدرس سایت های دیتابیس و دیتاست :(از گروه تلگرام دیپ لرنینگ (لینک در بخش منابع یادگیری اومده))


بخش دوم (نا مرتب)

  1. Google House Numbers from street view
  2. CIFAR-10 and CIFAR-100
  3. IMAGENET
  4. Tiny Images 80 Million tiny images6.
  5. Flickr Data 100 Million Yahoo dataset
  6. Berkeley Segmentation Dataset 500
  7. UC Irvine Machine Learning Repository
  8. Flickr 8k
  9. Flickr 30k
  10. Microsoft COCO
  11. VQA
  12. Image QA
  13. AT&T Laboratories Cambridge face database
  14. AVHRR Pathfinder
  15. Air Freight – The Air Freight data set is a ray-traced image sequence along with ground truth segmentation based on textural characteristics. (455 images + GT, each 160×120 pixels). (Formats: PNG)
  16. Amsterdam Library of Object Images – ALOI is a color image collection of one-thousand small objects, recorded for scientific purposes. In order to capture the sensory variation in object recordings, we systematically varied viewing angle, illumination angle, and illumination color for each object, and additionally captured wide-baseline stereo images. We recorded over a hundred images of each object, yielding a total of 110,250 images for the collection. (Formats: png)
  17. Annotated face, hand, cardiac & meat images – Most images & annotations are supplemented by various ASM/AAM analyses using the AAM-API. (Formats: bmp,asf)
  18. Image Analysis and Computer Graphics
  19. Brown University Stimuli – A variety of datasets including geons, objects, and “greebles”. Good for testing recognition algorithms. (Formats: pict)
  20. CAVIAR video sequences of mall and public space behavior – 90K video frames in 90 sequences of various human activities, with XML ground truth of detection and behavior classification (Formats: MPEG2 & JPEG)
  21. Machine Vision Unit
  22. CCITT Fax standard images – 8 images (Formats: gif)
  23. CMU CIL’s Stereo Data with Ground Truth – 3 sets of 11 images, including color tiff images with spectroradiometry (Formats: gif, tiff)
  24. CMU PIE Database – A database of 41,368 face images of 68 people captured under 13 poses, 43 illuminations conditions, and with 4 different expressions.
  25. CMU VASC Image Database – Images, sequences, stereo pairs (thousands of images) (Formats: Sun Rasterimage)
  26. Caltech Image Database – about 20 images – mostly top-down views of small objects and toys. (Formats: GIF)
  27. Columbia-Utrecht Reflectance and Texture Database – Texture and reflectance measurements for over 60 samples of 3D texture, observed with over 200 different combinations of viewing and illumination directions. (Formats: bmp)
  28. Computational Colour Constancy Data – A dataset oriented towards computational color constancy, but useful for computer vision in general. It includes synthetic data, camera sensor data, and over 700 images. (Formats: tiff)
  29. Computational Vision Lab
  30. Content-based image retrieval database – 11 sets of color images for testing algorithms for content-based retrieval. Most sets have a description file with names of objects in each image. (Formats: jpg)
  31. Efficient Content-based Retrieval Group
  32. Densely Sampled View Spheres – Densely sampled view spheres – upper half of the view sphere of two toy objects with 2500 images each. (Formats: tiff)
  33. Computer Science VII (Graphical Systems)
  34. Digital Embryos – Digital embryos are novel objects which may be used to develop and test object recognition systems. They have an organic appearance. (Formats: various formats are available on request)
  35. Univerity of Minnesota Vision Lab
  36. El Salvador Atlas of Gastrointestinal VideoEndoscopy – Images and Videos of his-res of studies taken from Gastrointestinal Video endoscopy. (Formats: jpg, mpg, gif)
  37. FG-NET Facial Aging Database – Database contains 1002 face images showing subjects at different ages. (Formats: jpg)
  38. FVC2000 Fingerprint Databases – FVC2000 is the First International Competition for Fingerprint Verification Algorithms. Four fingerprint databases constitute the FVC2000 benchmark (3520 fingerprints in all).
  39. Biometric Systems Lab – University of Bologna
  40. Face and Gesture images and image sequences – Several image datasets of faces and gestures that are ground truth annotated for benchmarking
  41. German Fingerspelling Database – The database contains 35 gestures and consists of 1400 image sequences that contain gestures of 20 different persons recorded under non-uniform daylight lighting conditions. (Formats: mpg,jpg)
  42. Language Processing and Pattern Recognition
  43. Groningen Natural Image Database – 4000+ 1536×1024 (16 bit) calibrated outdoor images (Formats: homebrew)
  44. ICG Testhouse sequence – 2 turntable sequences from ifferent viewing heights, 36 images each, resolution 1000×750, color (Formats: PPM)
  45. Institute of Computer Graphics and Vision
  46. IEN Image Library – 1000+ images, mostly outdoor sequences (Formats: raw, ppm)
  47. INRIA’s Syntim images database – 15 color image of simple objects (Formats: gif)
  48. INRIA
  49. INRIA’s Syntim stereo databases – 34 calibrated color stereo pairs (Formats: gif)
  50. Image Analysis Laboratory – Images obtained from a variety of imaging modalities — raw CFA images, range images and a host of “medical images”. (Formats: homebrew)
  51. Image Analysis Laboratory
  52. Image Database – An image database including some textures
  53. JAFFE Facial Expression Image Database – The JAFFE database consists of 213 images of Japanese female subjects posing 6 basic facial expressions as well as a neutral pose. Ratings on emotion adjectives are also available, free of charge, for research purposes. (Formats: TIFF Grayscale images.)
  54. ATR Research, Kyoto, Japan
  55. JISCT Stereo Evaluation – 44 image pairs. These data have been used in an evaluation of stereo analysis, as described in the April 1993 ARPA Image Understanding Workshop paper The JISCT Stereo Evaluation” by R.C.Bolles, H.H.Baker, and M.J.Hannah, 263–274 (Formats: SSI)
  56. MIT Vision Texture – Image archive (100+ images) (Formats: ppm)
  57. MIT face images and more – hundreds of images (Formats: homebrew)
  58. Machine Vision – Images from the textbook by Jain, Kasturi, Schunck (20+ images) (Formats: GIF TIFF)
  59. Mammography Image Databases – 100 or more images of mammograms with ground truth. Additional images available by request, and links to several other mammography databases are provided. (Formats: homebrew)
  60. ftp://ftp.cps.msu.edu/pub/prip – many images (Formats: unknown)
  61. Middlebury Stereo Data Sets with Ground Truth – Six multi-frame stereo data sets of scenes containing planar regions. Each data set contains 9 color images and subpixel-accuracy ground-truth data. (Formats: ppm)
  62. Middlebury Stereo Vision Research Page – Middlebury College
  63. Modis Airborne simulator, Gallery and data set – High Altitude Imagery from around the world for environmental modeling in support of NASA EOS program (Formats: JPG and HDF)
  64. NIST Fingerprint and handwriting – datasets – thousands of images (Formats: unknown)
  65. NIST Fingerprint data – compressed multipart uuencoded tar file
  66. NLM HyperDoc Visible Human Project – Color, CAT and MRI image samples – over 30 images (Formats: jpeg)
  67. National Design Repository – Over 55,000 3D CAD and solid models of (mostly) mechanical/machined engineerign designs. (Formats: gif,vrml,wrl,stp,sat)
  68. Geometric & Intelligent Computing Laboratory
  69. OSU (MSU) 3D Object Model Database – several sets of 3D object models collected over several years to use in object recognition research (Formats: homebrew, vrml)
  70. OSU (MSU/WSU) Range Image Database – Hundreds of real and synthetic images (Formats: gif, homebrew)
  71. OSU/SAMPL Database: Range Images, 3D Models, Stills, Motion Sequences – Over 1000 range images, 3D object models, still images and motion sequences (Formats: gif, ppm, vrml, homebrew)
  72. Signal Analysis and Machine Perception Laboratory
  73. Otago Optical Flow Evaluation Sequences – Synthetic and real sequences with machine-readable ground truth optical flow fields, plus tools to generate ground truth for new sequences. (Formats: ppm,tif,homebrew)
  74. Vision Research Group
  75. ftp://ftp.limsi.fr/pub/quenot/opflow/testdata/piv/ – Real and synthetic image sequences used for testing a Particle Image Velocimetry application. These images may be used for the test of optical flow and image matching algorithms. (Formats: pgm (raw))
  76. LIMSI-CNRS/CHM/IMM/vision
  77. LIMSI-CNRS
  78. Photometric 3D Surface Texture Database – This is the first 3D texture database which provides both full real surface rotations and registered photometric stereo data (30 textures, 1680 images). (Formats: TIFF)
  79. SEQUENCES FOR OPTICAL FLOW ANALYSIS (SOFA) – 9 synthetic sequences designed for testing motion analysis applications, including full ground truth of motion and camera parameters. (Formats: gif)
  80. Computer Vision Group
  81. Sequences for Flow Based Reconstruction – synthetic sequence for testing structure from motion algorithms (Formats: pgm)
  82. Stereo Images with Ground Truth Disparity and Occlusion – a small set of synthetic images of a hallway with varying amounts of noise added. Use these images to benchmark your stereo algorithm. (Formats: raw, viff (khoros), or tiff)
  83. Stuttgart Range Image Database – A collection of synthetic range images taken from high-resolution polygonal models available on the web (Formats: homebrew)
  84. Department Image Understanding
  85. The AR Face Database – Contains over 4,000 color images corresponding to 126 people’s faces (70 men and 56 women). Frontal views with variations in facial expressions, illumination, and occlusions. (Formats: RAW (RGB 24-bit))
  86. Purdue Robot Vision Lab
  87. The MIT-CSAIL Database of Objects and Scenes – Database for testing multiclass object detection and scene recognition algorithms. Over 72,000 images with 2873 annotated frames. More than 50 annotated object classes. (Formats: jpg)
  88. The RVL SPEC-DB (SPECularity DataBase) – A collection of over 300 real images of 100 objects taken under three different illuminaiton conditions (Diffuse/Ambient/Directed). — Use these images to test algorithms for detecting and compensating specular highlights in color images. (Formats: TIFF )
  89. Robot Vision Laboratory
  90. The Xm2vts database – The XM2VTSDB contains four digital recordings of 295 people taken over a period of four months. This database contains both image and video data of faces.
  91. Centre for Vision, Speech and Signal Processing
  92. Traffic Image Sequences and ‘Marbled Block’ Sequence – thousands of frames of digitized traffic image sequences as well as the ‘Marbled Block’ sequence (grayscale images) (Formats: GIF)
  93. IAKS/KOGS
  94. U Bern Face images – hundreds of images (Formats: Sun rasterfile)
  95. U Michigan textures (Formats: compressed raw)
  96. U Oulu wood and knots database – Includes classifications – 1000+ color images (Formats: ppm)
  97. UCID – an Uncompressed Colour Image Database – a benchmark database for image retrieval with predefined ground truth. (Formats: tiff)
  98. UMass Vision Image Archive – Large image database with aerial, space, stereo, medical images and more. (Formats: homebrew)
  99. UNC’s 3D image database – many images (Formats: GIF)
  100. USF Range Image Data with Segmentation Ground Truth – 80 image sets (Formats: Sun rasterimage)
  101. University of Oulu Physics-based Face Database – contains color images of faces under different illuminants and camera calibration conditions as well as skin spectral reflectance measurements of each person.
  102. Machine Vision and Media Processing Unit
  103. University of Oulu Texture Database – Database of 320 surface textures, each captured under three illuminants, six spatial resolutions and nine rotation angles. A set of test suites is also provided so that texture segmentation, classification, and retrieval algorithms can be tested in a standard manner. (Formats: bmp, ras, xv)
  104. Machine Vision Group
  105. Usenix face database – Thousands of face images from many different sites (circa 994)
  106. View Sphere Database – Images of 8 objects seen from many different view points. The view sphere is sampled using a geodesic with 172 images/sphere. Two sets for training and testing are available. (Formats: ppm)
  107. PRIMA, GRAVIR
  108. Vision-list Imagery Archive – Many images, many formats
  109. Wiry Object Recognition Database – Thousands of images of a cart, ladder, stool, bicycle, chairs, and cluttered scenes with ground truth labelings of edges and regions. (Formats: jpg)
  110. ۳D Vision Group
  111. Yale Face Database – 165 images (15 individuals) with different lighting, expression, and occlusion configurations.
  112. Yale Face Database B – 5760 single light source images of 10 subjects each seen under 576 viewing conditions (9 poses x 64 illumination conditions). (Formats: PGM)
  113. Center for Computational Vision and Control
  114. DeepMind QA Corpus – Textual QA corpus from CNN and DailyMail. More than 300K documents in total. Paper for reference.

منبع و برای چک بروزآوری های بعدی


 

 

با گوگل کردن هم میتونید به دیتاست های مختلفی برسید اما پیشنهاد میکنم اگه برای مقاله و… قصد تحقیق دارید اول سرچ کنید و دیتاست های مطرح حوزه خودتون رو پیدا کنید و روی اونها کار کنید.خصوصا اون پست بهشت دیتاستها روببنید. من هر زمان که فرصت پیدا کنم و به نکته جدیدی برسم این بخش رو بروز میکنم . شما هم اگر اطلاعاتی دارید که فکر میکنید اینجا میتونه برای دیگران مفید باشه لطفا اون رو در اختیار من قرار بدید تا با ذکر اسم خودتون اینجا قرار بگیره .

اگر هم مشکلی /اشتباهی در موارد بالا دیدید خوشحال میشم اشاره کنید تا رفع بشه.

با تشکر

سید حسین حسن پور

آخرین آپدیت شنبه ۱۸ اردیبهشت ۱۳۹۸

109 نظرات
  1. دانشجوی امیرکبیر می گوید

    داداش خعلی گلی

  2. آذرخش می گوید

    سپاس
    استفاده کردم

  3. سمیه می گوید

    با سلام
    اگر امکانش هست دیتاست AR که در ارتباط با تشخیص چهره هست هم اینجا قرار دهید.

  4. هاجر می گوید

    باسلام
    ممنونم.بسیار مفید بود
    اگر امکان داره در مورد دیتاست پزشکیBRATS توضیحاتی بر روی سایت قرار دهید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      لطفا اینجا رو چک کنید : http://braintumorsegmentation.org/

  5. هاجر می گوید

    از لطف شما ممنونم

  6. علی می گوید

    دیتاست یاهو انسر هم به کار پژوهش‌های یادگیری عمیق می‌خوره؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام خود من تو حوزه متن وارد نشدم نمیدونم الزاماتش چیه اما اگر دیتاست نسبتا جامعیه بله
      پیشنهاد میکنم در سایت پرسش و پاسخ بپرسید که دوستانی که با متن کار کردن و حوزه پردازش زبان طبیعی راهنمایی کنن

  7. سامان می گوید

    سلام
    دیتا ست از شبکه های اجتماعی خصوصاً تلگرام برای تحلیل انتخابات. اگه امکانش بود ممنون میشم

  8. محسن می گوید

    سلام
    من نیاز به تصاویر پشه سفید و آفات گیاهی دارم ولی دیتا ست مشخصی نداره
    ممنون میشم کمکم کنید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      اولین قدم شما باید چک کردن مقالات حوزه خودتون باشه (اگر چیزی باشه) و بعد از طریق رفرنس به دیتاست اونها دسترسی پیدا کنید یا درخواست بدید بهشون که در اختیارتون بزارن
      اگر موارد بالا نیست خودتون یا باید از طریق گوگل و… دیتاست بسازید یا اینکه خودتون دستی برید و از افات و… تصاویر یا دیتای مورد نیاز رو تهیه کنید.

      1. محسن می گوید

        ممنون

  9. آرزو حیدری می گوید

    سلام وقتتون بخیر
    پروژه من تشخیص عابر بایادگیری عمیق ولی دقیقا نمیدونم از کدوم دیتا ست استفاده کنم اول میخواستم از inria استفاده کنم ولی داده های برچسب گذاری شده نداره اگه امکانش هست منو راهنمایی کنید ممنون

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      میتونید از Caltech Pedestrian detection استفاده کنید‌که معروف تره . همینطور میتونید از دیتاست eth‌ و Diamler‌هم استفاده کنید
      http://www.vision.ee.ethz.ch/en/datasets/
      از پاسکال وک و ms coco‌ هم استفاده میشه .
      راحت ترین کار معمولا دیدن مقالات مربتط با کارتون هست اینطور بخوبی میتونید دیتاست مطرح حوزه خودتون رو مشخص کنید.

  10. فروغ می گوید

    سلام روزتون بخیر
    پروژه من تشخیص کشتی در تصاویر SAR هست مقالات از دیتاست های مختلفی استفاده کردن،آیا جایی هست که بتونم دیتاست ها رو ازش دانلود کنم ، چطور میتونم خودم در متلب یک دیتاست بسازم؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      برای دانلود دیتاست که مشاهده میکنید لینکهای بالا هست. علاوه بر اون بهشت دیتاست ها رو هم چک کنید.
      دیتاست نکته خاصی نداره ساختنش. یکسری تصاویر باید تهیه کنید و برای ترینینگ و تست ( و یا ولیدیشن ) کنار بزارید . برچسب تولید کنید برای هرکدوم و بعد ترینینگ رو استارت بزنید.

      1. سارا می گوید

        سلام. لطف می کنید آموزش اینکه چه طوری دیتا ست بسازیم ولیبل گذاری کنیم ولود کردنش رو هم بگید

        1. سید حسین حسن پور متی کلایی می گوید

          سلام.
          این کار در فریم ورکهای مختلف بصورت های مختلفی انجام میشه. برای همین شما باید بر اساس همون فریم ورکی که قراره ازش استفاده کنید پیش برید.
          همه اونها آموزشی برای اینکار دارند. (فریم ورکهای قدیمی مثل کفی و برخی از روشهای ابتدایی تنسورفلو البته در بخش پرسش و پاسخ قبلا بهشون پرداخته شده هرچند بسیار پیشنهاد میکنم برای نسخه های جدید فریم ورکهایی مثل تنسورفلو
          حتما از مستندات فعلی اون استفاده کنید)

  11. فروغ نوروزی می گوید

    سلام
    دیتاست Caltech Pedestrian detection را نمیتونم دانلود کنم. با چند تا فیلترشکن مختلفم امتحان کردم. میشه بگین چجوری دانلودش کنم؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      لینکهای دانلود هیچ مشکلی ندارن تست کردم خودم. از این لینک دانلود کنید

  12. sara می گوید

    سلام دیتاست R6A – Yahoo! Front Page Today Module User Click Log Dataset, version 1.0 (1.1 GB) را نیاز دارم اما با درخواستم موافقت نشده با اینکه ایمیل دانشگاهی دارم .
    حالا چطور میتونم به دیتاست برسم برام خیلی مهمه
    ممنون

    1. سید حسین حسن پور متی کلایی می گوید

      سلام

      یا باید از اعضای هییت علمی یا دانشجوی یه دانشگاه معتبر باشید یا یه شرکت معتبر
      از استادتون بخوایید براتون درخواست بدن و دیتاست رو براتون فراهم کنن

  13. rEzA می گوید

    با سلام و خسته نباشید.
    ببخشید منم با کتابخانه تنسور و برنامه نویسی پایتون دارم کار می کنم .
    میخوام از دیتاست استفاده کنم اما بلد نیستم چطوری باید دیتا ست خودم درست کنم .
    من رکورد هامو دارم و ویژگی هایی هم که نیاز دارم در آوردم ولی نمیدونم چطوری باید فرمتش بنویسم که داخل محیط برنامه نویسی به صورت صحیح بشناسش .
    هرجا سرچ زدم چیزی در مورد درست کردن دیتا ست نبود همش دیتا ست آماده بودند .
    ممنون میشم راهنمایی کنید.

    1. rEzA می گوید

      اگر لینک آموزشی معرفی کنید که مرحله به مرحله توضیح بده ممنون میشم.
      رکورد من از مشتریان شرکت اینترنتی هست.
      مرسی

      1. rEzA می گوید

        بسیار ممنون . با این موضوع جستجو نکرده بودم .
        خیلی لطف کردید.

  14. سیاوش می گوید

    برای دسته‌بندی تصویر به اینکه عدد دستنویس هست یا خیر، دیتاستی وجود داره؟ (دیتاستی متشکل از اعداد دستنویس و چیزهای مختلف دیگه)

    1. سید حسین حسن پور متی کلایی می گوید

      سلام . دیتاست mnist و فارسیش که قکر میکنم هدی باشه میتنید استفاده کنید

  15. نسیم می گوید

    سلام ممنون از توضیحات خوبتون
    اگر دسته بندب دیتاست ها بر اساس کاربردشون مثلا در رگرسیون و … راهم یک پست مختصر هم توضیح بدهید بسیار مفید خواهد بود
    با تشکر

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      متوجه منظورشما نشدم کمی بیشتر توضیح بدید لطفا.

  16. Zahra می گوید

    سلام
    من دیتاست روند بهبودی بیماری های سرطانی رو میخوام میشه کمکم کنید لطفا

    1. سید حسین حسن پور متی کلایی می گوید

      سلام اینجا رو چک کنید

  17. زهرا می گوید

    سلام من دنبال دیتاست روند بهبودی بیماران سرطانی رو میخوام میشه کمکم کنید
    دارم روی پایانامه کار میکنم

  18. a می گوید

    سلام
    ببخشید دیتاست در مورد پلاک خودروهای ایرانی و دیتاست در مورد میخوام. لطفا جواب بدین

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      من متاسفانه نمونه ای ندارم. باید در گروه یادگیری عمیق (سایت پرسش و پاسخ و یا گروه تلگرام ) بپرسید راهنماییتون کنند.

  19. l می گوید

    با سلام

    شما دیتاست همشهری(Hamshahri Dataset) رو دارین؟ برای دانشگاه تهرانه

    1. سید حسین حسن پور متی کلایی می گوید

      سلام خیر متاسفانه

  20. بهروز می گوید

    سلام جناب حسن پور
    ممنون از سایت خوبتون و اطلاعات مفیدی که در اختیار علاقمندان قرار میدید
    اگه میشه بنده رو راهنمایی بفرمایید
    من می خوام دیتاست BIDMC به آدرس https://www.physionet.org/physiobank/database/chfdb/ رو در گوگل کولب import کنم. توی اون آدرس فایل های زیادی هست کدوم فایل ها رو باید import کنم بعد چجوری اونها رو load کنم و ازشون استفاده کنم یعنی بخش های train و test رو چجوری تعریف کنم؟
    ممنون از پاسخ شما

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      من متاسفانه اطلاعی ندارم در رابطه با اون دیتاست باید داکیومنتهای مرتبط رو بخونید ببینید چی هستن و با چه فرمتی ذخیره شدن و چطور باید باهاشون کار کرد. اما برای بحث انتقال دیتاست با همه فایلهاش یکی از راحت ترین راه ها اینه اون فایلها رو منتقل کنید به یه repository github بعد تو گوگل کولب خیلی راحت git clone کنید . بعد هر کاری خواستید میتونید انجام بدید تفکیک کنید ویرایش کنید و…

  21. امیر می گوید

    سلام ظاهرا دیتا ست brats به سادگی در دسرتس عموم نیست ، کی میتونه کمکم کنه ؟

  22. marjan می گوید

    سلام . من دیتاستی میخواهم که فقط شامل اعداد باینری باشد . لطفا راهنمایی میکنید ؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام .
      منظورتون چیه ؟

  23. مجید می گوید

    دیتا ست برای تصاویر هوایی هم موجود هست ؟
    ممنون

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      بله. دنبال چه تصویری هستید؟ سرچ کردید خودتون؟

  24. طیبه می گوید

    سلام . لطفا دیتاست مربوط به تشخیص اشیا به کمک شبکه عصبی عمیق را قرار می دهید. با تشکر از زحمات شما

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      دیتاست های زیادن. باید ببینید چه رسته ای برای موضوع شما مناسب هست.

  25. سپیده می گوید

    باسلام . من دیتاست سیگنال EEG برای بیماران پارکینسون رو میخواستم اما تو هیچ سایتی پیدا نمیکنم.

    1. سید حسین حسن پور متی کلایی می گوید

      برای پارکینسون میتونید از اینجا استفاده کنید : https://archive.ics.uci.edu/ml/datasets/parkinsons

  26. علی می گوید

    سلام
    آیا از طریق یادگیری عمیق بازار بورس و بازارهای مالی قابل پیش بینی هست؟
    آیا معاملات الگوریتمی با شبکه عصبی ارتباطی داره؟
    چطور میتونم به دیتاست بازارهای مالی دسترسی داشته باشم؟
    ممنون از پاسخگوییتون

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      بله
      متوجه نشدم
      دیتاستهای مختلفی هست اگر بر مبنای مقالات کار میکنید باید با توجه به رفرنس داده شده پیش برید. در غیر اینصورت بخش دیتاست ها (مخازن ) رو چک کنید

  27. مرتضی می گوید

    سلام وقتتون بخیر. ممنون از آموزشتون.
    من به دنبال یک دیتاست تصویر خوب برتی بیماری های دهان و دندان هستم، اما تا حالا نتونستم دیتاست خوبی پیدا کنم. ممنون میشم راهنمایی کنید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      یه نگاهی به مخزن دیتاستهای یادگیری ماشین دانشگاه UCI بندازید (ابتدای همین بخش رو ببینید)

  28. رویا می گوید

    سلام من دنبال یک دیتاست خوب برای دسته بندی ترافیک شبکه میگردم که با یادگیری عمیق انجامش بدم.

    1. سید حسین حسن پور متی کلایی می گوید

      سلام. سه تا لینک مرجع برای سرچ دیتاست همون ابتدای من قرار دادم که تقریبا میشه گفت هرچیزی لازم داشته باشید از طریق اینها میتونید پیدا کنید. لطفا از همونها استفاده کنید.
      بطور خاص لینک اول (گوگل دیتاست سرچ ) و سوم رو چک کنید نسبت به دوم احتمال بیشتری هست که به چیزی که میخوایید برسید.

  29. سید اسماعیل می گوید

    سلام خسته نباشید
    من تازه این ترم پایان نامه دارم و استادم میگه حتما باید ی دیتا ست باید پیدا کنی اول
    منم نمیدونم چ دیتا ستی از کجا پیدا کنم با چ موضوعی که راحت انجام بشه بره خوبم باشه
    لطفا راهنماییم کنین، اگه میشه با ایمیل در تماس باشیم با تشکر

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      قبل از دیتاست باید حوزه کاری خودتون رو مشخص کنید . یعنی در چه حوزه ای دوست دارید کار کنید . بینایی کامپیوتر یا پردازش زبان طبیعی و…
      بعد از اون باید ببینید کدوم زیرحوزه یا کاربرد از این حوزه انتخابی برای شما جذابه مثلا بینایی کامپیوتر رو اگر انتخاب کنید چه زیربخشی میخوایید فعالیت کنید کلسیفیکیشن دیتکشن سگمنتیشن یا ….
      بعد یک یا چندتا رو که انتخاب کردید حالا با نگاه به پیش نیازهاش و اینکه وضعیت شما چطوره یکی رو انتخاب میکنید اونوقت میرید کارهای مرتبط رو میخونید ببینید شیوه ارزیابی چیه از چه دیتاست یا دیتاست هایی استفاده میکنن و بعد برید سراغ دیتاست .
      برای ایمیل میتونید از بخش تماس با من پیامتون رو ارسال کنید و من جواب میدم خدمتتون.

  30. باران می گوید

    با سلام و احترام
    من مطالب سایت را در زمینه word embedding مطالعه کردم و بسیار استفاده کرد.
    میخواستم درخواست کنم دیتاست هایی از توییتر را اگر ممکن هست به اشتراک بگذارید.
    با احترام

  31. حمید می گوید

    با سلام و خسته نباشید…
    من در زمینه ی شناسایی اسکناس فعالیت میکنم خواستم بدونم در این زمینه دیتاستی موجود هست؟؟؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام. من شخصا چیزی ندیدم اما قبلش به منابعی که در بالا دادم مراجعه کنید و اونجا سرچ کنید.
      اگر چیزی نبود ایجاد دیتاستی که مد نظرتونه کار سختی نباید باشه و باید بتونید خودتون انجام بدید.

  32. الهام می گوید

    سلام خسته نباشید
    دیتاست (Sunnybrook of left ventricle (LV، رو اگه امکانش هست می خواستم.
    ممنون

  33. محمدیار می گوید

    سلام وقت بخیر
    ممنون از سایت فوق العادتون، موضوع پایان نامه ارشد من مرتبط با یادگیری عمیقه و من تا الان خیلی از سایت شما استفاده کردم مخصوصا مقالات مربوط به شبکه های RNN. بی نهایت از مطالب فوق العاده مفیدی که گذاشتید ممنونم خدا خیرتون بده.
    فقط سوالی که داشتم این بود که من به دنبال دیتاست سیگنال های EEG خواب هستم. تو بهشت دیتاست ها گشتم و چیزی نبود، تو سایت های دیگه هم حقیقتش چیز خاصی پیدا نکردم
    میخواستم ببینم شما میتونید راهنمایی دقیق تری بکنید که من یه دیتاست کامل برای سیگنال های EEG خواب بدست بیارم؟
    با تشکر

    1. سید حسین حسن پور متی کلایی می گوید

      ​سلام
      تو بخش دیتاست ابتدای بخش من سه تا مرجع برای دیتاست معرفی کردم حتما میتونید چیزی که میخوایید رو اونجا پیدا کنید.
      یکی دیتاست گوگل هست (بخش جدیدی که گوگل راه اندازی کرده برای همین کار) و دیگری هم مخزن دیتاست دانشگاه ایروین کالیفرنیاست​
      تعداد زیادی دیگه هم میبینید که لیست شدن بالا اگه اینجا پیدا نکردید به منبعی که لینک شدند دیتاست های مشابه مراجعه کنید یا رجوع کنید به مقاله مرجعتون .

  34. ارمان می گوید

    سلام
    ببخشید برای ارزیابی یک مدل تو سایت مربوطه مثلا ایمیج نت چه چیزی رو اپلود میکنن؟

    1. ارمان می گوید

      و ممنون میشم اگر کمی در این مورد توضیح بدین

    2. سید حسین حسن پور متی کلایی می گوید

      سلام سابقا یه اسکریپت ارائه میشد و افراد میتونستن روی تست ست نتایج رو کسب کنن و بعد ارسال کنن.
      دقت های بعدی روی ولیدیشن ست گزارش شده و میشه یعنی ملاک مقالاتی که نتایج روی ایمیج نت رو مطرح میکنن دقت کسب شده روی ولیدیشن ست هست

      1. ارمان می گوید

        سلام نه منظورم تست و ولیدیشن ست نبود
        وقتی یک مدل طراحی میشه برای ارزیابی دقیق مدل میشه یه چیزی رو داخل سایتهای چالش مربوط به اون پایگاه داده، آپلود کرد تا مثلا دقیقا بگن دقت چند درصد هست
        حالا اون چیه که اپلود میکنن؟

        1. سید حسین حسن پور متی کلایی می گوید

          سلام.
          من هم عرض کردم هر چلنجی یک مسیر برای سابمیت امتیاز داره. بسته به چلنج شما باید چند مورد رو سابمیت کنید من جمله مدلتون رو هم(بستگی به چلنج داره)
          در ایمیج نت یک Development kitیی وجود داشت که برای سابمیت امتیاز ازش استفاده میشد و صرفا پیش بینی ها به سرور ارسال میشد.
          اگه development kit رو دانلود کنید در خودش توضیحات کافی در مورد چگونگی ثبت امتیاز هست.

          1. ارمان می گوید

            تشکر

  35. لیلا می گوید

    سلام
    وقتتون بخیر
    دیتاست مربوط به تصاویر مدرک جواز دارید؟
    ممنونم

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      متوجه فرمایشتون نشدم
      لطفا کمی دقیق تر بفرمایید تا ببینم کمکی از دست بنده بر میاد یا خیر

  36. کاوه می گوید

    سلام وقت بخیر
    من دارم روی تصاویر ماهواره ای کار میکنم ولی هرچقدر سرچ میزنم کدی رو نمیتونم پیدا کنم که یادگیری عمیق بر روی این تصاویر باشه و کدش رو گذاشته باشن و اجرا بشه

    ممنون میشم اگه کد در این رابطه دارید برای ایمیل بنده ارسال کنید، چون نمیدونم فرایند دیتا دادن و اموزش بر روی این تصاویر چجوریه و شما هم تو سایتتون در مورد این تصاویر صحبتی نداشتید

    ممنونم

    1. سید حسین حسن پور متی کلایی می گوید

      سلام کلیت کار با سایر موارد فرقی نداره و اتفاقا کد هم زیاده
      شما باید بر اساس فریم ورک سرچ کنید . مثلا لینکهای زیر چند نمونه از این موارد برای کراس/تنسورفلو هست . برای پای تورچ هم به همین شکل هست :
      https://github.com/zia207/Deep-Neural-Network-with-keras-Python-Satellite-Image-Classification
      https://github.com/xAbhidhar/Keras-Tensorflow-Satellite-Images-classification
      https://machinelearningmastery.com/how-to-develop-a-convolutional-neural-network-to-classify-satellite-photos-of-the-amazon-rainforest/

  37. خدابخشی می گوید

    سلام وقتتون بخیر.من قرار هست روی دیتاست camvid با شبکه cnn کار کنم.جایی کدی پیدا نکردم.میشه راهنمایی بفرمایید

  38. محمد می گوید

    سلام
    داداش اگه میشه راهنماییم کنید،در مورد یه پروژه.نیاز به دیتا ست دارم اینجا و توی وب پیداش نکردم.ایمیل روهم گذاشتم.

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      چه دیتاستی نیاز دارید؟
      چه پروژه ای دارید؟
      سایتهایی که بالا مشخص کردم چک کردید؟

  39. marzieh می گوید

    سلام، من دیتاست نمرات دانشجویان با یک سری ویژگی(سال ورود، ترم ورود، سال تولد…) میخام. هر چه این ویژگی ها بیشتر بهتر….

  40. نجفی می گوید

    سلام. در مورد تشخیص ساختار کریستالی مواد دیتاست دارین ؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام از مخازن بالا جستجو کنید

  41. کرامت می گوید

    سلام، ممنون از وب سایت خوبتون
    من دارم روی تشخیص آنوریسم مغزی کار میکنم اما هرچه گشتم دیتاست مربوط رو پیدا نکرم
    لطفا اگه امکانش هست راهنمایی کنید
    ممنون

  42. امین می گوید

    سلام دوستان
    من هم تصاویرآنوریسم مغزی جهت آموزش شبکه عصبی ایحتیاج داشتم

  43. صادق می گوید

    سلام خدمت شما
    MovieLens:دتا دیتاست از اینجا قابل دریافت هست. اولین دیتاست شامل ۱۰۰ هزار رتبه بندی برای ۱۶۸۲ فیلم توسط ۹۴۳ کاربر هست . که به ۵ بخش مختلف تقسیم شده. دومین دیتاست حدود ۱ میلیون رتبه بندی (ریتینگ) برای ۳۹۰۰ فیلم هست که توسط ۶۰۴۰ کاربر داده شده .
    چه جوری دانلود کنم از سایتش

    1. سید حسین حسن پور متی کلایی می گوید

      سلام باید از این لینک فرم رو بگیرید پر کنید و ارسال کنید.

  44. atra joudaki می گوید

    سلام خسته نباشید
    من میخوام طبقه بندی تومور های مغزی با استفاده از یادگیری عمیق انجام بدم ممنون میشم یک سایتی معرفی کنید برای دیتا.تصاویر ام ار ای مغزی

    1. سید حسین حسن پور متی کلایی می گوید

      اولین قدم انتخاب یکسری مقاله مرجع برای کارتون هست و بعد دریافت دیتاست هایی که اونها استفاده کردن. البته اگر پابلیک باشن. اگر چیزی پابلیک نبود اونوقت از سایتهایی که بالا معرفی کردم میتونید استفاده کنید.
      علاوه بر اینها سایتهایی مثل ردیت و امثالهم هم هستن که برای پرسش و دریافت این قبیل موارد خیلی مناسب هستن (خصوصا ساب ردیت هایی مثل دیپ لرنینگ و دیتاست و…)

  45. پریسا می گوید

    سلام وقت بخیر
    من برای پایان نامم به تعدادی تصاویر rs-fMRI نیاز دارم(تعدادی مربوط به افراد سالم و تعدادی برای بیماران مبتلا به اختلال دو قطبی).که متاسفانه این دیتا ست ها عموما از مقالات خارجی قابل دسترس نیست(جز یه مورد که فرمت دیتا JSON هست و به فرمت تصویر تبدیل نمیشه). آزمایشگاه ملی نقشه برداری مغز ایران هم فقط تصاویر سالم در اختیار داره. نمیدونم چطور میتونم به این دیتاست ها دسترسی پیدا کنم.

    1. سید حسین حسن پور متی کلایی می گوید

      از گروه تلگرام پیگیری کردید ؟
      در ساب ردیت dataset چک کردید یا مطرحش کردید؟ اگر نه این کارو بکنید.

  46. محمد می گوید

    سلام وقت بخیر
    من یه دیتاست میخوام از کلمات یا جملات مجزا به اضافه صوت آنها مخصوص زبان فارسی یا انگلیسی،
    احیانا چیزی پینهاد میکنید؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      دیکشنری میتونید پیدا کنید هم لغات و عبارات هست و هم معمولا فایل صوتی

  47. میلاد می گوید

    سلام وقت بخیر، من میخوام خطای ظاهری تو قطعات پرینت شده ۳ بعدی رو با استفاده از یک دوربین روی پرینتر انجام بدمم راهنمایی بفرماید دیتا ست از انواع خطاها تا به حال تهیه شده و اگر شده از کدوم مورد استفاده کنم.با تشکر

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      من اطلاعی در این باره ندارم و نمیدونم چنین دیتاستی هست یا نه (بصورت مستقیم مربوط به حوزه کاری ما نمیشه)
      منتها تو ساختش نباید مشکلی داشته باشید. حداقلش اینه که بر اساس موتورهای جستجو قطعات و یا انواع خرابی مورد نظرتون رو سرچ کنید و دیتاست رو اینطور تهیه کنید
      یا خودتون بصورت مستقیم به ایجاد این دیتاست بپردازید.

  48. Hadise می گوید

    سلام. دیتاست همشهری ۲ رو من ندیدم و نمیدونم از کجا و چطور دانلود کنم. ممنون میشم راهنمایی کنید

  49. ساناز می گوید

    سلام
    من میخام در حوزه پیش بینی فروش ازش استفاده کنم چطور میتونم یک دیتاست درمورد آمار فروش یک محصول مثل لبنیات یا ماده غذایی پیدا کنم؟توی کگل و … پیدا نشد. و سوال بعد اینکه من نمیدونم یادگیری ماشین از کجا شروع کنم؟ممنون میشم راهنمایی بفرمایید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      اتفاقا در کگل یک دیتاست برای محصولات لبنی بود مثل این https://www.kaggle.com/datasets/sohier/weekly-dairy-product-prices
      اینجا هم میتونید لینک اصلی رو ببینید : https://mpr.datamart.ams.usda.gov/menu.do?path=Products\Dairy\All%20Dairy
      برای یادگیری ماشین پیشنهاد میکنم از یک آموزش یادگیری ماشین شروع کنید و بعد در کنارش با تهیه کتاب و مطالعه بیشتر مطالب رو تعمیق کنید اینطور هم سریعتر براه میوفتید و هم خروجی سریعتری میتونید داشته باشید.
      برای شروع آموزش یادگیری ماشین اندرو ان جی مربوط به ۲۰۱۰ که مبانی اولیه و بعضی روشهای کلاسیک رو اموزش میده میتونه خوب باشه.
      اگر روشهای جدیدتر رو میخوایید میتونید آموزش یادگیری عمیق اندرو ان جی که تو ۵ فصل ارائه کرده از کورسیرا رو ببینید لینکش باید تو سایتهای فارسی باشه.
      علاوه بر اون آموزش یادگیری عمیق Udacity (پایتورچ و یا تنسورفلو) هم هست که با جهت یادگیری عمیق شروع میشه و مبانی اولیه یادگیری ماشین رو هم ارائه میکنه.
      یک کورس دیگه هم اختصاصی ماشین لرنینگ در Udacity هست که فکر میکنم مربوط به ۲۰۱۲ یا ۲۰۱۵ باشه اونم میتونه خوب باشه .

  50. مرتضی می گوید

    سلام ممنون از اطلاعات مفیدتان
    تفاوت این دو تا دیتاست چیه یکی cbsd68 و یکی bsd68
    من چجوری دیتاست bsd68 را پیدا کنم و دانلودش کنم.؟
    ممنون

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      متاسفانه آشنایی با این دیتاست ها ندارم.

  51. اسماعیل می گوید

    سلام
    از زحمات شما سپاسگزارم دوست عزیز
    من دیتاست از سیگنالهای راداری نیاز دارم. میخوام از روشهای یادگیری عمیق تحلیل و شناسایی کنم. ممنونم

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      باید حوزه رو دقیقتر مشخص کنید. عموما با پیگیری پیپرهای مرتبط براحتی باید بتونید به دیتاست مورد نظرتون دست پیدا کنید
      سایت https://data.world/datasets/radar رو بررسی کنید علاوه بر گوگل (چون موارد مختلفی هست)

  52. atefe می گوید

    سلام من دیتا ست تشخیص میوه رو نیاز دارم لطفا راهنمایی کنید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      یک سرچ ساده در گوگل بزنید موارد زیادی پیدا باید بکنید. علاوه بر اون براحتی خودتون هم باید بتونید یک دیتاست بسازید.
      به هر حال این یک نمونه از گاگل هست https://www.kaggle.com/datasets/moltean/fruits

  53. جمشیدی می گوید

    سلام وقت بخیر . من به دنبال دیتاست درمان بیماری گیاهی هستم. آیا شما سراغ دارید؟

    1. سید حسین حسن پور متی کلایی می گوید

      سلام.
      نه متاسفانه. اما یک نگاهی به کاگل بندازید احتمال اینکه موردی مشابه پیدا کنید احتمالا هست.

  54. رضا می گوید

    سلام
    دست شما درد نکنه
    درست بهترین زمان ممکن با سایت شما آشنا شدم
    ممنون

  55. امین می گوید

    با سلام خدمت جناب حسن پور
    دیتا ست سه بعدی دندان از کجا میتونم گیر بیارم ممنون میشم راهنمایی کنید.دیتا ست در زمینه سگمنت دندان و سه بعدی سازی دندان میخواستم.ممنون میشم کمکم کنید

    1. سید حسین حسن پور متی کلایی می گوید

      سلام. اولین قدم شما باید بررسی پیپرهای مرتبط با این حوزه باشه تا ببینید از چه دیتاستی استفاده کردن و بعد اونو تهیه کنید. مثل این پیپر:‌https://arxiv.org/abs/2206.08778
      به غیر از اون با همون کی وردهای مورد نظرتون باید به مواردی از قبیل https://darwin.v7labs.com/v7-campaigns/panoramic-dental برسید .

  56. محمد می گوید

    دیتاست برای شبکه های نظیر به نظیر از کجا می تونم گیر بیارم؟
    در حوزه Video Streaming کار میکنم

    1. سید حسین حسن پور متی کلایی می گوید

      سلام
      اولین جایی که باید بگردید paperswithcode هست و مقالات مرتبط با کارتون. از رفرنس اونها میتونید براحتی دیتاست های حوزه کاریتون رو مشخص کنید

  57. جواد می گوید

    سلام وقت شما بخیر .من دنبال یک دیتاستی برای پردازش زبان طبیعی میگردم که شامل کامنت های افراد در رسانه های اجتماعی باشه که هر هشت حس چرخه پلاچیک رو شامل باشه .میشه راهنمایی بفرمایید از کجا پیداش کنم

  58. برنامه نویس می گوید

    من دنبال یه دیتا ست برای پردازش زبان طبیعی میگردم که داخلش حس های هشتگانه مانند ترس خوشحالی تعجب و … رو داشته باشه ممنون میشم کامنت منو جواب بدید دفعه قبل هم کامنتم حذف شد

    1. سید حسین حسن پور متی کلایی می گوید

      سلام وقت شما بخیر
      نظرات شما پاک نمیشن. نظرات همه باید تایید بشن (برای جلوگیری از اسپم ها مجبورم نظرات رو بصورت دستی تایید کنم و چون دیر به دیر به سایت سر میزنم این متاسفانه زمانبر شده.)
      (بعضی اوقاتم البته سایت بک آپش ریستور میشه که خارج از اختیار منه و متاسفانه بخاطر دست گلهای هاست منه)
      برای جواب سوالتون هم من این چندتا دیتاستی که بهشون برخوردم رو خدمتتون عرض میکنم که با یه سرچ ساده میتونید اطلاعات بیشتر برای دانلود و… رو بدست بیارید(تو کاگل و هاگینگفیس باید بتونید راحت اینارو پیدا و دانلودکنید)
      Emoticons: دیتاست مال گوگل هست و حدود ۵۸ هزار جمله با ۲۷ حس مختلف رو داره.
      CrowdFlower: هم یه دیتاست حاوی توییت‌هایی با احساس های مختلف هست (ترس و…)
      Sentiment140: این دیتاست هم از ۱.۶ میلیون توییت با احساس های مختلف تشکیل شده.
      SemEval-2018: توییت‌هایی با ۱۱ حس مختلف؛ برای شناسایی چند حس تو یه جمله خوبه.
      Affective Text: مخصوص حس‌های پایه مثل شادی، غم، ترس و خشم.
      EmoReact: هم شامل ویدیو و متن هست واسه وقتی که می‌خواید احساس تو حالت چهره و متن رو با هم تشخیص بدید.

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.

این سایت از اکیسمت برای کاهش هرزنامه استفاده می کند. بیاموزید که چگونه اطلاعات دیدگاه های شما پردازش می‌شوند.